Как мы экономим около 35 часов работы в месяц на расшифровке созвонов без риска для NDA
Как мы стали тратить меньше времени на операционку, потому что подключили ИИ для расшифровки встреч — рассказываем, как выбирали сервис для транскрибации на AI.
Планерки и звонки занимают значительную часть рабочего времени в IT и digital-компаниях. Исследование Яндекс 360 говорит, что специалисты из IT и маркетинга тратят от 40 минут до часа на один созвон. При средней нагрузке в 20 встреч в неделю это 13–20 часов рабочего времени только на обсуждения, а у нас в работе обычно около сотни проектов.
После встречи нужно собрать итоги: кто что делает, к какому сроку и о чем договорились. Не все участники сделали записи во время разговора, а при пересказе теряются детали. Сотрудники, которые подключились к проекту позже, восстанавливают контекст, слушая записи созвонов коллег.
В результате на расшифровку и фиксацию итогов уходит еще 1–2 часа в день. Суммарно это до 35–40 часов в месяц — почти рабочая неделя специалиста!
Экономим время по-максимуму: подключаем транскрибацию созвонов и ИИ
Ручная обработка записей — задача, которую логично автоматизировать, и сервисы для транскрибации уже существуют. Но во времена, когда все внедряют AI, можно рассчитывать на больше, чем просто перевод речи в текст.
Мы хотели не только расшифровывать встречу, но и сразу:
- видеть разбивку по спикерам, чтобы понимать, кто что предложил, где запросы и пожелания клиента;
- получать краткое резюме встречи: что обсуждали, к каким решениям пришли, какие задачи появились.
Большинство сервисов умеют распознавать речь с пунктуацией, но не структурируют текст: не выделяют спикеров, не делают краткую выжимку. Поэтому рабочий процесс часто превращается в цепочку итераций: сначала транскрибация, потом редактирование, затем саммари с помощью ИИ. Это быстрее, чем вручную, но все еще не так удобно.
Еще одно требование связано с безопасностью: мы часто обсуждаем проекты под NDA, на созвонах звучат коммерческие данные, поэтому использование облачных решений для нас рискованно — не хочется передавать чувствительную информацию на сторону. Вся обработка должна выполняться внутри корпоративного контура.
Итого наши пожелания к сервису:
- переводить запись встречи в текст;
- выдавать обработанный текст, поделенный на спикеров;
- делать саммари — резюме с итогами созвона;
- разворачиваться локально, чтобы уменьшить риск утечек.
Так мы пришли к образу AI-транскрибатора, которого не было на рынке. Пришлось делать самим — силами своего R& D-центра решений в области AI.
Как мы технически закрыли вопрос «что решили на созвоне?»
Мы научили систему обрабатывать длинные записи встреч и формировать краткий отчет по сути разговора:
- Изучили модели speech-to-text, протестировали решения для диаризации — разделения речи по спикерам, и саммаризации — автоматического резюме встречи.
- Собрали все компоненты в рабочий процесс от загрузки аудио до получения документа с текстом.
- Сделали интерфейс, чтобы было удобно загружать запись созвона и получать результат.
- Добавили возможность управлять транскрибациями: редактировать диалоги, задавать имена спикерам, добавлять теги и искать нужные записи в истории.
Сервис назвали RiverSpeech.
Так появилась внутренняя система, которую можно развернуть на базе конкретной компании — она будет работать локально в корпоративном контуре на обычных офисных ПК.
Как этим пользоваться команде
После созвона все происходит по простой схеме:
- Загружаем запись разговора в MP3, MP4, WAV или другом видео или аудиоформате.
- Ждем 3–5 минут — система сама расшифровывает звонок, скорость зависит.
- Расставляем имена — подписываем, кто говорит, дальше ИИ расставит их по голосам.
Итоги встречи становятся частью рабочего процесса: вместо хаотичных заметок команда получает структурированный документ с транскрибацией ВКС и краткое резюме встречи.
5 минут на расшифровку и резюме встречи против часа прослушивания записи
В AI-транскрибатор RiverSpeech мы заложили функции, которых не хватало при ручной работе:
- разделение по спикерам: реплики разделены по говорящим, которых можно подписать;
- выводы из встречи: можно за 2 минуты понять суть часового совещания;
- все записи в корпоративном контуре без передачи третьим лицам;
- редактирование: возможность что-то дописать, исправить или удалить;
- интеграции: можно настроить отправку конспекта в CRM, документооборот или базу знаний.
Обычно после встречи или созвона запись переслушивают несколько человек — участники, чтобы собрать «постмит» — резюме встречи, и те, кто подключился к проекту позже. С транскрибатором созвонов RiverSpeech транскрибация часового созвона занимает не час с лишним, а минут 15, из которых 5 уходит на работу сервиса и 10 на оценку результата человеком. При нагрузке в 100 звонков ежемесячно это дает экономию до 2,5 рабочих недель.
В итоге сотрудники не тратят время на рутинное конспектирование, а руководители получают протоколы встречи и выводы в удобном формате.
Вся команда работает с единой версией итогов созвона, без разночтений и потерь информации. Мы сохраняем не только время, но и ясность коммуникации — и это кажется не менее ценным, чем скорость.
Главный результат: освобожденное время и защищенные данные
У нас RiverSpeech плотно вошел в рабочие процессы менеджеров, дизайнеров, аналитиков, QA-специалистов и HR — в общем, стал частью рабочей экосистемы.
Эксперимент решил сразу две задачи:
- сэкономил команде десятки часов, освободив от механической работы;
- создал корпоративное решение, которое подходит всем, кому важны безопасность данных и эффективность.
Если ваша команда тоже тратит время на задачи, которые можно отдать AI-транскрибатору, мы можем развернуть решение в вашей инфраструктуре. Это будет ваш локальный транскрибатор, у нас не будет доступа к вашим звонкам и расшифровкам. Сможете протестировать систему на своих данных без риска для безопасности и оценить реальную экономию времени.
Другие статьи из этой рубрики
Перейти в блогОбсудить проект
Расскажите о проекте в форме или свяжитесь с нами напрямую
Написать нам на почту
Написать нашему аккаунт-директору в Telegram
Московский офис
Новая площадь, 6