Архив рубрики ~Лента новостей~

Я устал платить за зарубежные транскрибаторы и собрал своего бота за час, который сам заходит в Яндекс Телемост

Я устал платить за зарубежные транскрибаторы и собрал своего бота за час, который сам заходит в Яндекс Телемост
Я устал платить за зарубежные транскрибаторы и собрал своего бота за час, который сам заходит в Яндекс Телемост

За несколько вечеров собрал ИИ-бота для созвонов: кидаю в телеграм ссылку на встречу → бот спрашивает «подключаться?» → сам заходит в Телемост как участник, слушает, а в конце присылает транскрипт с разбивкой по спикерам и саммари с задачами. Всё на российском стеке, аудио не утекает за бугор. Внутри — сага про права доступа в Yandex Cloud, реверс WebRTC и история о том, как наш мат сломал нейросеть

С чего всё началось

Я делаю Флайди — стартап-экосистему для борьбы с зависимостями. У нас маленькая команда, и мы постоянно в созвонах — продуктовые, по разработке, с менторами, с инвесторами. И каждый раз одна и та же боль:

  • кто-то должен вести заметки → значит, выпадает из разговора
  • через неделю никто не помнит, что решили и кто за что отвечает
  • важные инсайты испаряются

Классическая founder-проблема. Решение очевидно, тем более, мы живем в век ИИ — транскрибатор. Я пошёл искать готовые варианты

Почему не готовые решения?

Я честно хотел заплатить (немного) и не страдать. Но всё уперлось в три стены:

  1. Русский язык. Зарубежные транскрибаторы делают вид, что понимают русский, но на реальном созвоне с перебиваниями, слэнгом и матом получается каша
  2. Яндекс Телемост. Мы общаемся в Телемосте. А ни один западный нотетейкер его не поддерживает — у них интеграции с Zoom/Meet/Teams, и всё
  3. Приватность. У нас тема чувствительная — зависимости. Гонять записи наших разговоров через американское облако очень не хотелось

Вывод: готового решения под «русский + Телемост + приватность» особ нет, да и зачем оно нам, если есть Claude Code)

Инсайт №1: распознавание речи — это самая лёгкая часть

Когда говоришь «транскрибатор», все думают про Whisper. На самом деле распознавание — решённая задача. Сложность в другом. Я разбил проект на 4 части и сразу понял, где будет больно:

Главная битва — не «как распознать речь», а «как вообще получить звук встречи» Главная битва — не «как распознать речь», а «как вообще получить звук встречи» 

Стек, на котором остановился

Раз приоритет — русский и приватность, выбор был очевиден: Yandex SpeechKit (распознавание) + YandexGPT (саммари). Всё в одном российском облаке, данные не утекают. Спойлер: SpeechKit на русском реально хорош, а вот путь до первого успешного запроса оказался не таким простым

Проблема №1: Yandex Cloud и десять «403» подряд

Чтобы SpeechKit заработал, надо: сервисный аккаунт, роли, API-ключ, бакет в Object Storage (длинное аудио распознаётся только через него). По итогу я собрал полную коллекцию способов получить «Permission denied»:

  • сначала бакет не давал запись — оказалось, нужно вешать права не только ролью, но и через ACL самого бакета
  • потом бакет внезапно стал доступен «только из приватного эндпоинта» — отдельная галка, которую я случайно включил
  • потом выяснилось, что API-ключ имел не тот scope: я создал ключ для speechkitTts (синтез речи), а мне нужен speechkitStt (распознавание). Одна буква — и вечный 403
  • а ещё роль на распознавание надо вешать на каталог, и применяется она до пяти минут, так что половину времени ты дебажишь то, что уже починил

Проблема №2: он умеет распознавать только двух человек

SpeechKit размечает «кто говорил» (Спикер 1 / Спикер 2) — но в моно-записи максимум двух спикеров. А у нас на созвоне трое и больше

Claude придумал мне красивый обход: бот же сидит внутри встречи, а WebRTC отдаёт отдельную аудиодорожку на каждого участника. Значит, можно писать каждого в свой файл — и разделение голосов идеально по построению, хоть десять человек. Написал, протестировал — работает

Проблема №3 (главная): у Телемоста нет API для ботов

Вот тут начинается самое интересное. У Zoom и Meet есть способы пустить бота в звонок. У Телемоста — ничего. Никакого API, никаких ботов

Единственный путь — притвориться обычным участником. Я поднял headless-браузер (Playwright + Chromium), который буквально заходит на встречу по ссылке как гость «FlyDee Notetaker». А звук участников перехватываю изнутри страницы: подменяю RTCPeerConnection, цепляюсь к входящим аудиодорожкам через Web Audio API и пишу их в файл. Без всяких виртуальных аудиоустройств и прав root — чистый перехват в браузере

Самое весёлое было реверсить экраны входа. Первый раз бот гордо нажал кнопку «Войти»… которая оказалась входом в аккаунт Яндекса, а не во встречу. Пришлось разобрать реальную верстку Телемоста по data-testid и научить бота правильному маршруту: «Продолжить в браузере» → ввести имя → заглушить свои микрофон и камеру (чтобы бот не светил чёрным квадратом) → «Подключиться».

И знаете что? Оно зашло. Бот появился в списке участников, реальные люди увидели «FlyDee Notetaker», и пошла запись

Финал: телеграм и нейросеть, которая отказалась нас слушать

Дальше я обернул всё в нормальный UX. Теперь это работает так: кидаю в беседу в телеграм ссылку на созвон — бот спрашивает «подключиться к встрече?» — я жму «да» — дальше он сам. Заходит, пишет, по окончании присылает мне в личку транскрипт по спикерам и саммари: о чём договорились, какие решения, какие задачи и на ком

Первый боевой тест — на нашем же командном созвоне. Бот отработал идеально: зашёл, записал 17 минут, распознал 416 реплик. Я довольный отправляю транскрипт в YandexGPT на саммари и получаю его!

Что в итоге

Полностью рабочий ИИ-секретарь под наш контур:

  • Захват: бот-участник в Телемосте (Playwright + перехват WebRTC)
  • Распознавание: Yandex SpeechKit v3, русский + диаризация
  • Саммари: YandexGPT
  • Интерфейс: телеграм-бот + локальный веб-дашборд с историей встреч
  • Приватность: всё в российском облаке, аудио никуда не утекает

По деньгам — копейки за час распознавания против $10–20/мес за зарубежный SaaS

Зачем я это рассказываю?

Главный вывод не технический. Сейчас собрать рабочий продукт под свою узкую боль легче, чем когда-либо.Так что фаундеру без большой команды реально за несколько вечеров закрыть задачу, под которую раньше пришлось бы либо платить деньги, либо нанимать разработчика

А теперь вопрос к вам: кто чем ведёт заметки на созвонах? Платите за зарубежные сервисы — или забили и теряете половину договорённостей? И сталкивался ли кто-то с тем, что российский Телемост вообще выпал из всей экосистемы AI-нотетейкеров — это только моя боль или общая?

Источник: vc.ru

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Архив рубрики ~Коротко из Telegram~ Осваиваем Claude за выходные и экономим десятки часов каждый месяц… Архив рубрики ~Коротко из Telegram~ ИИ заберёт работу у женщин — мужчины пострадают меньше всего,… Архив рубрики ~Коротко из Telegram~ Ловушка для Nvidia: OpenAI показала свой первый чип Jalapeno Помните… Архив рубрики ~Коротко из Telegram~ DeepSeek V4 выйдет в июле, API подорожает вдвое в пиковые… Архив рубрики ~Коротко из Telegram~ Интернет снова показал, что у него есть кнопка «выкл.» Из-за… Архив рубрики ~Коротко из Telegram~ Собрать данные с сотен сайтов за пару команд? Легко. Для… Архив рубрики ~Коротко из Telegram~ «Софтлайн» поделится дивидендами Акционеры ПАО «Софтлайн» на годовом собрании по… Архив рубрики ~Коротко из Telegram~ TikTok Shop оказался не только для зумеров Платформа уже стала… Новости робототехники Перкуссионный массажер разорвал сетчатку молодому британцу. Мужчина использовал его непосредственно на глазах Архив рубрики ~Коротко из Telegram~ 🤖 Ученые предупредили: открытый ИИ после 2030 года может изменить… Архив рубрики ~Коротко из Telegram~ ‼️ Perplexity открыла исходный код Bumblebee — утилиты, которая помогает… Новости робототехники В Китае, на Западном искусственном острове в провинции Гуандун, откроют… Архив рубрики ~Коротко из Telegram~ GPTutorAI — плагин для VSCode GPTutorAI — плагин для VSCode,… Архив рубрики ~Коротко из Telegram~ Инструменты недели 💡 IdeaPro Проверка вашей идеи стартапа за 120 секунд, выводя… Архив рубрики ~Коротко из Telegram~ Осваиваем Claude за выходные и экономим десятки часов каждый месяц… Архив рубрики ~Коротко из Telegram~ ИИ заберёт работу у женщин — мужчины пострадают меньше всего,… Архив рубрики ~Коротко из Telegram~ Ловушка для Nvidia: OpenAI показала свой первый чип Jalapeno Помните… Архив рубрики ~Коротко из Telegram~ DeepSeek V4 выйдет в июле, API подорожает вдвое в пиковые… Архив рубрики ~Коротко из Telegram~ Интернет снова показал, что у него есть кнопка «выкл.» Из-за… Архив рубрики ~Коротко из Telegram~ Собрать данные с сотен сайтов за пару команд? Легко. Для… Архив рубрики ~Коротко из Telegram~ «Софтлайн» поделится дивидендами Акционеры ПАО «Софтлайн» на годовом собрании по… Архив рубрики ~Коротко из Telegram~ TikTok Shop оказался не только для зумеров Платформа уже стала… Новости робототехники Перкуссионный массажер разорвал сетчатку молодому британцу. Мужчина использовал его непосредственно на глазах Архив рубрики ~Коротко из Telegram~ 🤖 Ученые предупредили: открытый ИИ после 2030 года может изменить… Архив рубрики ~Коротко из Telegram~ ‼️ Perplexity открыла исходный код Bumblebee — утилиты, которая помогает… Новости робототехники В Китае, на Западном искусственном острове в провинции Гуандун, откроют… Архив рубрики ~Коротко из Telegram~ GPTutorAI — плагин для VSCode GPTutorAI — плагин для VSCode,… Архив рубрики ~Коротко из Telegram~ Инструменты недели 💡 IdeaPro Проверка вашей идеи стартапа за 120 секунд, выводя…

Оставить комментарий