Дообученная под специфичную задачу OSS модель обошла GPT и Claude
Bridgewater выложил разбор вместе с лабораторией Миры Мурати (это экс-CTO OpenAI). Самое интересное — опять не фронтир модель.
Задача, которая звучит скучно, но стоит миллионы?
У инвестора каждый день лавина: новости, отчёты, регуляторка и прочие сигналы. Прочитать не проблема. Проблема отделить реальный сигнал от шума.
Заголовок «Трамп грозит Китаю новыми пошлинами» двигает рынок. Заголовок «Трамп сказал, что Гренландия его» звучит громко, но для рынка пустышка. Обе про геополитику и деньги, а весят по-разному. Но за одним сигналом стоит реальный вектор, за другим хайп.
Сначала попробовали в лоб. Не взлетело
Голые GPT, Claude и Gemini на этой задаче угадывали на уровне монетки, около 50%. Написали умные промпты, переформулировали задачу, дожали до середины 70%. В целом хороший результат, но до порога в 80%, который им нужен для доверия системе, так и не дотянули.
А потом зашли с другого конца
Взяли не фронтир модель, а открытую Qwen3-235B, и дообучили её под свою задачу на разметке аналитиков. Речь не про какую-то крошечную модель. 235 миллиардов параметров, просто открытая и дешевле топовых. Фокус в том, что её дообучили под конкретную задачу на своих данных.
Ещё важная деталь: это не загрузили правильные ответы, модель их вызубрила. Это обучение с подкреплением. Метка эксперта работает как награда: модель сама выдаёт ответ, совпал с человеком плюс, не совпал минус. Так она нащупывает собственное суждение, а не копирует формулировку.
Отдельно красивый трюк с данными. Экспертная разметка дорогая, поэтому они не гоняли аналитиков по каждой строчке. Обучили черновую модель на дешёвой разметке, прогнали по тем же данным, к дорогим экспертам отправили только те примеры, где модель разошлась с меткой. Логика простая: если модель не может воспроизвести пример из своей же обучающей выборки, значит либо пример реально трудный, либо метка кривая. Так почистили датасет, оплатив экспертам не всё, а самое спорное.
Результат: точность возросла с 45% до 84,7%. Это на 29,8% меньше ошибок, чем у лучшей frontier-модели на рынке. И в 14 раз дешевле на каждой задаче (это их цифра; я перепроверил по облачным провайдерам, локально с амортизацией выйдет ещё круче).
Теперь про деньги, потому что тут может скрыться ошибка
Все думают, что такое стоит как крыло самолёта. Разбираю по частям.
Само обучение в рамках крупного бизнеса не экстремально дорогое и разовое. Замеренный пример из индустрии: полный прогон таким же методом на модели поменьше вышел примерно в 700 долларов, аренда нужной видеокарты сейчас пара долларов в час. Их модель крупнее, прогонов было несколько, так что весь цикл экспериментов по моей прикидке порядка 10 до 30 тысяч долларов (могу быть не прав в их кейсе, так как у них есть собственная система для подобных трюков). Для фонда с миллиардами это погрешность. Инференс, то есть повседневная работа, вообще копейки за документ.
А вот где реальные деньги. Разметка. Доменный эксперт стоит в 5 до 15 раз дороже обычного разметчика, качественная разметка доходит до сотни долларов за пример. Ключевое: для топовых моделей человеческая разметка уже дороже всего компьютера до 28 раз. Не железо главная статья расходов, а профессионалы, которые размечают. Плюс нужен инженер, умеющий крутить такое обучение, а это дорогой и редкий специалист.
Что это значит для вас
Барьер съехал. Раньше он был в аренде железа, в инференсе, теперь в данных и компетенции. Модель качаешь бесплатно, обучение арендуешь, инференс условно копеечный. Дорого стоит ровно одно: оцифрованное суждение ваших людей, которое, кстати говоря, нужно еще накопить. И это же ваш ров, потому что такой датасет конкурент нигде не купит.
У вас это уже лежит, просто в головах, а не в файлах. Как менеджер отбирает заявки, как финансист чует, что с цифрой что-то не так, как продажник за минуту понимает, что лид не пройдет. Это и есть разметка, за которую Bridgewater платит сотни долларов в час. Начните её собирать сегодня, хоть в табличке «решение, контекст, почему так».
А вы где-то фиксируете, как в вашей команде принимаются решения, или всё держится на том, что «Петрович и так знает»?
Больше разборов AI для бизнеса — в Telegram: https://t.me/gorilla_under_hood
t.met.meИсточник: vc.ru
Похожие записи
- Технология HarnessX от Xiaomi переписывает собственную структуру искусственного интеллекта прямо во время выполнения задачи — и это особенно выгодно для моделей меньшего размера.
- CellFluxRL: Биологически ограниченное виртуальное моделирование клеток с помощью обучения с подкреплением
- Открытые модели и инструментарий для автопилотов от NVIDIA
Оцените материал:
Похожие записи
Компания Lemon Slice привлекла 10,5 млн долларов от YC и Matrix для развития своей технологии цифровых аватаров.
23.12.2025
После IPO на сумму 18 миллиардов долларов основатель компании Bending Spoons утверждает, что успех достигается за счет минимизации влияния удачи.
02.07.2026Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
