Я устал платить за зарубежные транскрибаторы и собрал своего бота за час, который сам заходит в Яндекс Телемост
За несколько вечеров собрал ИИ-бота для созвонов: кидаю в телеграм ссылку на встречу → бот спрашивает «подключаться?» → сам заходит в Телемост как участник, слушает, а в конце присылает транскрипт с разбивкой по спикерам и саммари с задачами. Всё на российском стеке, аудио не утекает за бугор. Внутри — сага про права доступа в Yandex Cloud, реверс WebRTC и история о том, как наш мат сломал нейросеть
С чего всё началось
Я делаю Флайди — стартап-экосистему для борьбы с зависимостями. У нас маленькая команда, и мы постоянно в созвонах — продуктовые, по разработке, с менторами, с инвесторами. И каждый раз одна и та же боль:
- кто-то должен вести заметки → значит, выпадает из разговора
- через неделю никто не помнит, что решили и кто за что отвечает
- важные инсайты испаряются
Классическая founder-проблема. Решение очевидно, тем более, мы живем в век ИИ — транскрибатор. Я пошёл искать готовые варианты
Почему не готовые решения?
Я честно хотел заплатить (немного) и не страдать. Но всё уперлось в три стены:
- Русский язык. Зарубежные транскрибаторы делают вид, что понимают русский, но на реальном созвоне с перебиваниями, слэнгом и матом получается каша
- Яндекс Телемост. Мы общаемся в Телемосте. А ни один западный нотетейкер его не поддерживает — у них интеграции с Zoom/Meet/Teams, и всё
- Приватность. У нас тема чувствительная — зависимости. Гонять записи наших разговоров через американское облако очень не хотелось
Вывод: готового решения под «русский + Телемост + приватность» особ нет, да и зачем оно нам, если есть Claude Code)
Инсайт №1: распознавание речи — это самая лёгкая часть
Когда говоришь «транскрибатор», все думают про Whisper. На самом деле распознавание — решённая задача. Сложность в другом. Я разбил проект на 4 части и сразу понял, где будет больно:
Главная битва — не «как распознать речь», а «как вообще получить звук встречи» Стек, на котором остановился
Раз приоритет — русский и приватность, выбор был очевиден: Yandex SpeechKit (распознавание) + YandexGPT (саммари). Всё в одном российском облаке, данные не утекают. Спойлер: SpeechKit на русском реально хорош, а вот путь до первого успешного запроса оказался не таким простым
Проблема №1: Yandex Cloud и десять «403» подряд
Чтобы SpeechKit заработал, надо: сервисный аккаунт, роли, API-ключ, бакет в Object Storage (длинное аудио распознаётся только через него). По итогу я собрал полную коллекцию способов получить «Permission denied»:
- сначала бакет не давал запись — оказалось, нужно вешать права не только ролью, но и через ACL самого бакета
- потом бакет внезапно стал доступен «только из приватного эндпоинта» — отдельная галка, которую я случайно включил
- потом выяснилось, что API-ключ имел не тот scope: я создал ключ для speechkitTts (синтез речи), а мне нужен speechkitStt (распознавание). Одна буква — и вечный 403
- а ещё роль на распознавание надо вешать на каталог, и применяется она до пяти минут, так что половину времени ты дебажишь то, что уже починил
Проблема №2: он умеет распознавать только двух человек
SpeechKit размечает «кто говорил» (Спикер 1 / Спикер 2) — но в моно-записи максимум двух спикеров. А у нас на созвоне трое и больше
Claude придумал мне красивый обход: бот же сидит внутри встречи, а WebRTC отдаёт отдельную аудиодорожку на каждого участника. Значит, можно писать каждого в свой файл — и разделение голосов идеально по построению, хоть десять человек. Написал, протестировал — работает
Проблема №3 (главная): у Телемоста нет API для ботов
Вот тут начинается самое интересное. У Zoom и Meet есть способы пустить бота в звонок. У Телемоста — ничего. Никакого API, никаких ботов
Единственный путь — притвориться обычным участником. Я поднял headless-браузер (Playwright + Chromium), который буквально заходит на встречу по ссылке как гость «FlyDee Notetaker». А звук участников перехватываю изнутри страницы: подменяю RTCPeerConnection, цепляюсь к входящим аудиодорожкам через Web Audio API и пишу их в файл. Без всяких виртуальных аудиоустройств и прав root — чистый перехват в браузере
Самое весёлое было реверсить экраны входа. Первый раз бот гордо нажал кнопку «Войти»… которая оказалась входом в аккаунт Яндекса, а не во встречу. Пришлось разобрать реальную верстку Телемоста по data-testid и научить бота правильному маршруту: «Продолжить в браузере» → ввести имя → заглушить свои микрофон и камеру (чтобы бот не светил чёрным квадратом) → «Подключиться».
И знаете что? Оно зашло. Бот появился в списке участников, реальные люди увидели «FlyDee Notetaker», и пошла запись
Финал: телеграм и нейросеть, которая отказалась нас слушать
Дальше я обернул всё в нормальный UX. Теперь это работает так: кидаю в беседу в телеграм ссылку на созвон — бот спрашивает «подключиться к встрече?» — я жму «да» — дальше он сам. Заходит, пишет, по окончании присылает мне в личку транскрипт по спикерам и саммари: о чём договорились, какие решения, какие задачи и на ком
Первый боевой тест — на нашем же командном созвоне. Бот отработал идеально: зашёл, записал 17 минут, распознал 416 реплик. Я довольный отправляю транскрипт в YandexGPT на саммари и получаю его!
Что в итоге
Полностью рабочий ИИ-секретарь под наш контур:
- Захват: бот-участник в Телемосте (Playwright + перехват WebRTC)
- Распознавание: Yandex SpeechKit v3, русский + диаризация
- Саммари: YandexGPT
- Интерфейс: телеграм-бот + локальный веб-дашборд с историей встреч
- Приватность: всё в российском облаке, аудио никуда не утекает
По деньгам — копейки за час распознавания против $10–20/мес за зарубежный SaaS
Зачем я это рассказываю?
Главный вывод не технический. Сейчас собрать рабочий продукт под свою узкую боль легче, чем когда-либо.Так что фаундеру без большой команды реально за несколько вечеров закрыть задачу, под которую раньше пришлось бы либо платить деньги, либо нанимать разработчика
А теперь вопрос к вам: кто чем ведёт заметки на созвонах? Платите за зарубежные сервисы — или забили и теряете половину договорённостей? И сталкивался ли кто-то с тем, что российский Телемост вообще выпал из всей экосистемы AI-нотетейкеров — это только моя боль или общая?
Источник: vc.ru
Похожие записи
Оцените материал:
Похожие записи
Учёные создали электронное волокно для «умной» одежды и медицины
02.02.2026
Обнаружена опасная способность искусственного интеллекта развивать свой собственный «инстинкт выживания»
26.10.2025
Биологи объяснили, как хамелеонам удается вращать глазами независимо друг от друга
22.11.2025Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
