Архив рубрики ~Лента новостей~

Дообученная под специфичную задачу OSS модель обошла GPT и Claude

Дообученная под специфичную задачу OSS модель обошла GPT и Claude
Дообученная под специфичную задачу OSS модель обошла GPT и Claude

Bridgewater выложил разбор вместе с лабораторией Миры Мурати (это экс-CTO OpenAI). Самое интересное — опять не фронтир модель.

Задача, которая звучит скучно, но стоит миллионы?

У инвестора каждый день лавина: новости, отчёты, регуляторка и прочие сигналы. Прочитать не проблема. Проблема отделить реальный сигнал от шума.

Заголовок «Трамп грозит Китаю новыми пошлинами» двигает рынок. Заголовок «Трамп сказал, что Гренландия его» звучит громко, но для рынка пустышка. Обе про геополитику и деньги, а весят по-разному. Но за одним сигналом стоит реальный вектор, за другим хайп.

Сначала попробовали в лоб. Не взлетело

Голые GPT, Claude и Gemini на этой задаче угадывали на уровне монетки, около 50%. Написали умные промпты, переформулировали задачу, дожали до середины 70%. В целом хороший результат, но до порога в 80%, который им нужен для доверия системе, так и не дотянули.

А потом зашли с другого конца

Взяли не фронтир модель, а открытую Qwen3-235B, и дообучили её под свою задачу на разметке аналитиков. Речь не про какую-то крошечную модель. 235 миллиардов параметров, просто открытая и дешевле топовых. Фокус в том, что её дообучили под конкретную задачу на своих данных.

Ещё важная деталь: это не загрузили правильные ответы, модель их вызубрила. Это обучение с подкреплением. Метка эксперта работает как награда: модель сама выдаёт ответ, совпал с человеком плюс, не совпал минус. Так она нащупывает собственное суждение, а не копирует формулировку.

Отдельно красивый трюк с данными. Экспертная разметка дорогая, поэтому они не гоняли аналитиков по каждой строчке. Обучили черновую модель на дешёвой разметке, прогнали по тем же данным, к дорогим экспертам отправили только те примеры, где модель разошлась с меткой. Логика простая: если модель не может воспроизвести пример из своей же обучающей выборки, значит либо пример реально трудный, либо метка кривая. Так почистили датасет, оплатив экспертам не всё, а самое спорное.

Результат: точность возросла с 45% до 84,7%. Это на 29,8% меньше ошибок, чем у лучшей frontier-модели на рынке. И в 14 раз дешевле на каждой задаче (это их цифра; я перепроверил по облачным провайдерам, локально с амортизацией выйдет ещё круче).

Теперь про деньги, потому что тут может скрыться ошибка

Все думают, что такое стоит как крыло самолёта. Разбираю по частям.

Само обучение в рамках крупного бизнеса не экстремально дорогое и разовое. Замеренный пример из индустрии: полный прогон таким же методом на модели поменьше вышел примерно в 700 долларов, аренда нужной видеокарты сейчас пара долларов в час. Их модель крупнее, прогонов было несколько, так что весь цикл экспериментов по моей прикидке порядка 10 до 30 тысяч долларов (могу быть не прав в их кейсе, так как у них есть собственная система для подобных трюков). Для фонда с миллиардами это погрешность. Инференс, то есть повседневная работа, вообще копейки за документ.

А вот где реальные деньги. Разметка. Доменный эксперт стоит в 5 до 15 раз дороже обычного разметчика, качественная разметка доходит до сотни долларов за пример. Ключевое: для топовых моделей человеческая разметка уже дороже всего компьютера до 28 раз. Не железо главная статья расходов, а профессионалы, которые размечают. Плюс нужен инженер, умеющий крутить такое обучение, а это дорогой и редкий специалист.

Что это значит для вас

Барьер съехал. Раньше он был в аренде железа, в инференсе, теперь в данных и компетенции. Модель качаешь бесплатно, обучение арендуешь, инференс условно копеечный. Дорого стоит ровно одно: оцифрованное суждение ваших людей, которое, кстати говоря, нужно еще накопить. И это же ваш ров, потому что такой датасет конкурент нигде не купит.

У вас это уже лежит, просто в головах, а не в файлах. Как менеджер отбирает заявки, как финансист чует, что с цифрой что-то не так, как продажник за минуту понимает, что лид не пройдет. Это и есть разметка, за которую Bridgewater платит сотни долларов в час. Начните её собирать сегодня, хоть в табличке «решение, контекст, почему так».

А вы где-то фиксируете, как в вашей команде принимаются решения, или всё держится на том, что «Петрович и так знает»?
Больше разборов AI для бизнеса — в Telegram: https://t.me/gorilla_under_hood

1t.met.me

Источник: vc.ru

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Новости робототехники SpaceX: объяснение 8 самых важных вещей после IPO Архив рубрики ~Обо всем~ Как далеко можно зайти в классическое НЛП? От «мешка слов» до наращивания идентификации возможностей жуткого автора. Новости робототехники Доспех для призрака: как программист сделал тело для ChatGPT и чуть было не поверил в его одушевленность Архив рубрики ~Обо всем~ [Перевод] Что на самом деле означают теоремы Гёделя о неполноте? Новости робототехники Контекст имеет решающее значение: как Avride использует облачные VLM в качестве систем безопасности для роботов-доставщиков. Архив рубрики ~Обо всем~ От «Ё» до «КотоПыха»: какие слова используют предприниматели в названиях Новости робототехники Компания-неудачник-робот-полицейский Knightscope теперь публикует причудливый фанфик с искусственным интеллектом о том, как ее роботы раскрывают абсурдные преступления Архив рубрики ~Полезное~ Собрали ультимативный архив бесплатных GitHub-проектов — сразу 100 репозиториев под… Архив рубрики ~Полезное~ Китайцы представили GLM 5.2 — новую ИИ-модель, которую уже сравнивают… Архив рубрики ~Полезное~ Разбил экран на телефоне — теперь можно не переживать и… Архив рубрики ~Коротко из Telegram~ Metacritic назвал 10 лучших игр первой половины 2026 года —… Архив рубрики ~Коротко из Telegram~ ИИ-браузеры легко могут слить все ваши данные. Исследователи нашли атаку… Архив рубрики ~Полезное~ 🔥 Google раздаёт 1️⃣ МИЛЛИОН токенов для Gemini бесплатно —… Архив рубрики ~Коротко из Telegram~ Opus 4.8 превращают в Fable 5 одним промптом — вайбкодеры… Новости робототехники SpaceX: объяснение 8 самых важных вещей после IPO Архив рубрики ~Обо всем~ Как далеко можно зайти в классическое НЛП? От «мешка слов» до наращивания идентификации возможностей жуткого автора. Новости робототехники Доспех для призрака: как программист сделал тело для ChatGPT и чуть было не поверил в его одушевленность Архив рубрики ~Обо всем~ [Перевод] Что на самом деле означают теоремы Гёделя о неполноте? Новости робототехники Контекст имеет решающее значение: как Avride использует облачные VLM в качестве систем безопасности для роботов-доставщиков. Архив рубрики ~Обо всем~ От «Ё» до «КотоПыха»: какие слова используют предприниматели в названиях Новости робототехники Компания-неудачник-робот-полицейский Knightscope теперь публикует причудливый фанфик с искусственным интеллектом о том, как ее роботы раскрывают абсурдные преступления Архив рубрики ~Полезное~ Собрали ультимативный архив бесплатных GitHub-проектов — сразу 100 репозиториев под… Архив рубрики ~Полезное~ Китайцы представили GLM 5.2 — новую ИИ-модель, которую уже сравнивают… Архив рубрики ~Полезное~ Разбил экран на телефоне — теперь можно не переживать и… Архив рубрики ~Коротко из Telegram~ Metacritic назвал 10 лучших игр первой половины 2026 года —… Архив рубрики ~Коротко из Telegram~ ИИ-браузеры легко могут слить все ваши данные. Исследователи нашли атаку… Архив рубрики ~Полезное~ 🔥 Google раздаёт 1️⃣ МИЛЛИОН токенов для Gemini бесплатно —… Архив рубрики ~Коротко из Telegram~ Opus 4.8 превращают в Fable 5 одним промптом — вайбкодеры…

Оставить комментарий