Дообученная под специфичную задачу OSS модель обошла GPT и Claude

05.07.2026 ideipro.ru

Bridgewater выложил разбор вместе с лабораторией Миры Мурати (это экс-CTO OpenAI). Самое интересное — опять не фронтир модель.

У инвестора каждый день лавина: новости, отчёты, регуляторка и прочие сигналы. Прочитать не проблема. Проблема отделить реальный сигнал от шума.

Заголовок «Трамп грозит Китаю новыми пошлинами» двигает рынок. Заголовок «Трамп сказал, что Гренландия его» звучит громко, но для рынка пустышка. Обе про геополитику и деньги, а весят по-разному. Но за одним сигналом стоит реальный вектор, за другим хайп.

Голые GPT, Claude и Gemini на этой задаче угадывали на уровне монетки, около 50%. Написали умные промпты, переформулировали задачу, дожали до середины 70%. В целом хороший результат, но до порога в 80%, который им нужен для доверия системе, так и не дотянули.

Взяли не фронтир модель, а открытую Qwen3-235B, и дообучили её под свою задачу на разметке аналитиков. Речь не про какую-то крошечную модель. 235 миллиардов параметров, просто открытая и дешевле топовых. Фокус в том, что её дообучили под конкретную задачу на своих данных.

Ещё важная деталь: это не загрузили правильные ответы, модель их вызубрила. Это обучение с подкреплением. Метка эксперта работает как награда: модель сама выдаёт ответ, совпал с человеком плюс, не совпал минус. Так она нащупывает собственное суждение, а не копирует формулировку.

Отдельно красивый трюк с данными. Экспертная разметка дорогая, поэтому они не гоняли аналитиков по каждой строчке. Обучили черновую модель на дешёвой разметке, прогнали по тем же данным, к дорогим экспертам отправили только те примеры, где модель разошлась с меткой. Логика простая: если модель не может воспроизвести пример из своей же обучающей выборки, значит либо пример реально трудный, либо метка кривая. Так почистили датасет, оплатив экспертам не всё, а самое спорное.

Результат: точность возросла с 45% до 84,7%. Это на 29,8% меньше ошибок, чем у лучшей frontier-модели на рынке. И в 14 раз дешевле на каждой задаче (это их цифра; я перепроверил по облачным провайдерам, локально с амортизацией выйдет ещё круче).

Все думают, что такое стоит как крыло самолёта. Разбираю по частям.

Само обучение в рамках крупного бизнеса не экстремально дорогое и разовое. Замеренный пример из индустрии: полный прогон таким же методом на модели поменьше вышел примерно в 700 долларов, аренда нужной видеокарты сейчас пара долларов в час. Их модель крупнее, прогонов было несколько, так что весь цикл экспериментов по моей прикидке порядка 10 до 30 тысяч долларов (могу быть не прав в их кейсе, так как у них есть собственная система для подобных трюков). Для фонда с миллиардами это погрешность. Инференс, то есть повседневная работа, вообще копейки за документ.

А вот где реальные деньги. Разметка. Доменный эксперт стоит в 5 до 15 раз дороже обычного разметчика, качественная разметка доходит до сотни долларов за пример. Ключевое: для топовых моделей человеческая разметка уже дороже всего компьютера до 28 раз. Не железо главная статья расходов, а профессионалы, которые размечают. Плюс нужен инженер, умеющий крутить такое обучение, а это дорогой и редкий специалист.

Барьер съехал. Раньше он был в аренде железа, в инференсе, теперь в данных и компетенции. Модель качаешь бесплатно, обучение арендуешь, инференс условно копеечный. Дорого стоит ровно одно: оцифрованное суждение ваших людей, которое, кстати говоря, нужно еще накопить. И это же ваш ров, потому что такой датасет конкурент нигде не купит.

У вас это уже лежит, просто в головах, а не в файлах. Как менеджер отбирает заявки, как финансист чует, что с цифрой что-то не так, как продажник за минуту понимает, что лид не пройдет. Это и есть разметка, за которую Bridgewater платит сотни долларов в час. Начните её собирать сегодня, хоть в табличке «решение, контекст, почему так».

А вы где-то фиксируете, как в вашей команде принимаются решения, или всё держится на том, что «Петрович и так знает»?
Больше разборов AI для бизнеса — в Telegram: https://t.me/gorilla_under_hood

Источник: vc.ru

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Дообученная под специфичную задачу OSS модель обошла GPT и Claude

Задача, которая звучит скучно, но стоит миллионы?

Сначала попробовали в лоб. Не взлетело

А потом зашли с другого конца

Теперь про деньги, потому что тут может скрыться ошибка

Что это значит для вас

Оставить комментарий Отменить ответ

Задача, которая звучит скучно, но стоит миллионы?

Сначала попробовали в лоб. Не взлетело

А потом зашли с другого конца

Теперь про деньги, потому что тут может скрыться ошибка

Что это значит для вас

Похожие записи

Похожие записи

Дневник хакера | 06.10.2025

Компания Lemon Slice привлекла 10,5 млн долларов от YC и Matrix для развития своей технологии цифровых аватаров.

После IPO на сумму 18 миллиардов долларов основатель компании Bending Spoons утверждает, что успех достигается за счет минимизации влияния удачи.

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email