Я устал платить за зарубежные транскрибаторы и собрал своего бота за час, который сам заходит в Яндекс Телемост

29.06.2026 ideipro.ru

За несколько вечеров собрал ИИ-бота для созвонов: кидаю в телеграм ссылку на встречу → бот спрашивает «подключаться?» → сам заходит в Телемост как участник, слушает, а в конце присылает транскрипт с разбивкой по спикерам и саммари с задачами. Всё на российском стеке, аудио не утекает за бугор. Внутри — сага про права доступа в Yandex Cloud, реверс WebRTC и история о том, как наш мат сломал нейросеть

Я делаю Флайди — стартап-экосистему для борьбы с зависимостями. У нас маленькая команда, и мы постоянно в созвонах — продуктовые, по разработке, с менторами, с инвесторами. И каждый раз одна и та же боль:

кто-то должен вести заметки → значит, выпадает из разговора
через неделю никто не помнит, что решили и кто за что отвечает
важные инсайты испаряются

Классическая founder-проблема. Решение очевидно, тем более, мы живем в век ИИ — транскрибатор. Я пошёл искать готовые варианты

Я честно хотел заплатить (немного) и не страдать. Но всё уперлось в три стены:

Русский язык. Зарубежные транскрибаторы делают вид, что понимают русский, но на реальном созвоне с перебиваниями, слэнгом и матом получается каша
Яндекс Телемост. Мы общаемся в Телемосте. А ни один западный нотетейкер его не поддерживает — у них интеграции с Zoom/Meet/Teams, и всё
Приватность. У нас тема чувствительная — зависимости. Гонять записи наших разговоров через американское облако очень не хотелось

Вывод: готового решения под «русский + Телемост + приватность» особ нет, да и зачем оно нам, если есть Claude Code)

Когда говоришь «транскрибатор», все думают про Whisper. На самом деле распознавание — решённая задача. Сложность в другом. Я разбил проект на 4 части и сразу понял, где будет больно:

Главная битва — не «как распознать речь», а «как вообще получить звук встречи»

Раз приоритет — русский и приватность, выбор был очевиден: Yandex SpeechKit (распознавание) + YandexGPT (саммари). Всё в одном российском облаке, данные не утекают. Спойлер: SpeechKit на русском реально хорош, а вот путь до первого успешного запроса оказался не таким простым

Чтобы SpeechKit заработал, надо: сервисный аккаунт, роли, API-ключ, бакет в Object Storage (длинное аудио распознаётся только через него). По итогу я собрал полную коллекцию способов получить «Permission denied»:

сначала бакет не давал запись — оказалось, нужно вешать права не только ролью, но и через ACL самого бакета
потом бакет внезапно стал доступен «только из приватного эндпоинта» — отдельная галка, которую я случайно включил
потом выяснилось, что API-ключ имел не тот scope: я создал ключ для speechkitTts (синтез речи), а мне нужен speechkitStt (распознавание). Одна буква — и вечный 403
а ещё роль на распознавание надо вешать на каталог, и применяется она до пяти минут, так что половину времени ты дебажишь то, что уже починил

SpeechKit размечает «кто говорил» (Спикер 1 / Спикер 2) — но в моно-записи максимум двух спикеров. А у нас на созвоне трое и больше

Claude придумал мне красивый обход: бот же сидит внутри встречи, а WebRTC отдаёт отдельную аудиодорожку на каждого участника. Значит, можно писать каждого в свой файл — и разделение голосов идеально по построению, хоть десять человек. Написал, протестировал — работает

Вот тут начинается самое интересное. У Zoom и Meet есть способы пустить бота в звонок. У Телемоста — ничего. Никакого API, никаких ботов

Единственный путь — притвориться обычным участником. Я поднял headless-браузер (Playwright + Chromium), который буквально заходит на встречу по ссылке как гость «FlyDee Notetaker». А звук участников перехватываю изнутри страницы: подменяю RTCPeerConnection, цепляюсь к входящим аудиодорожкам через Web Audio API и пишу их в файл. Без всяких виртуальных аудиоустройств и прав root — чистый перехват в браузере

Самое весёлое было реверсить экраны входа. Первый раз бот гордо нажал кнопку «Войти»… которая оказалась входом в аккаунт Яндекса, а не во встречу. Пришлось разобрать реальную верстку Телемоста по data-testid и научить бота правильному маршруту: «Продолжить в браузере» → ввести имя → заглушить свои микрофон и камеру (чтобы бот не светил чёрным квадратом) → «Подключиться».

И знаете что? Оно зашло. Бот появился в списке участников, реальные люди увидели «FlyDee Notetaker», и пошла запись

Дальше я обернул всё в нормальный UX. Теперь это работает так: кидаю в беседу в телеграм ссылку на созвон — бот спрашивает «подключиться к встрече?» — я жму «да» — дальше он сам. Заходит, пишет, по окончании присылает мне в личку транскрипт по спикерам и саммари: о чём договорились, какие решения, какие задачи и на ком

Первый боевой тест — на нашем же командном созвоне. Бот отработал идеально: зашёл, записал 17 минут, распознал 416 реплик. Я довольный отправляю транскрипт в YandexGPT на саммари и получаю его!

Полностью рабочий ИИ-секретарь под наш контур:

Захват: бот-участник в Телемосте (Playwright + перехват WebRTC)
Распознавание: Yandex SpeechKit v3, русский + диаризация
Саммари: YandexGPT
Интерфейс: телеграм-бот + локальный веб-дашборд с историей встреч
Приватность: всё в российском облаке, аудио никуда не утекает

По деньгам — копейки за час распознавания против $10–20/мес за зарубежный SaaS

Главный вывод не технический. Сейчас собрать рабочий продукт под свою узкую боль легче, чем когда-либо.Так что фаундеру без большой команды реально за несколько вечеров закрыть задачу, под которую раньше пришлось бы либо платить деньги, либо нанимать разработчика

А теперь вопрос к вам: кто чем ведёт заметки на созвонах? Платите за зарубежные сервисы — или забили и теряете половину договорённостей? И сталкивался ли кто-то с тем, что российский Телемост вообще выпал из всей экосистемы AI-нотетейкеров — это только моя боль или общая?

Источник: vc.ru

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Я устал платить за зарубежные транскрибаторы и собрал своего бота за час, который сам заходит в Яндекс Телемост

С чего всё началось

Почему не готовые решения?

Инсайт №1: распознавание речи — это самая лёгкая часть

Стек, на котором остановился

Проблема №1: Yandex Cloud и десять «403» подряд

Проблема №2: он умеет распознавать только двух человек

Проблема №3 (главная): у Телемоста нет API для ботов

Финал: телеграм и нейросеть, которая отказалась нас слушать

Что в итоге

Зачем я это рассказываю?

Оставить комментарий Отменить ответ

С чего всё началось

Почему не готовые решения?

Инсайт №1: распознавание речи — это самая лёгкая часть

Стек, на котором остановился

Проблема №1: Yandex Cloud и десять «403» подряд

Проблема №2: он умеет распознавать только двух человек

Проблема №3 (главная): у Телемоста нет API для ботов

Финал: телеграм и нейросеть, которая отказалась нас слушать

Что в итоге

Зачем я это рассказываю?

Похожие записи

Похожие записи

Учёные создали электронное волокно для «умной» одежды и медицины

Обнаружена опасная способность искусственного интеллекта развивать свой собственный «инстинкт выживания»

Биологи объяснили, как хамелеонам удается вращать глазами независимо друг от друга

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email