Исследователи утверждают, что им удалось обучить базовую модель с нуля примерно за 1500 долларов.
Бен Диксон

Источник изображения: VentureBeat с ChatGPT
Обучение по программе LLM с нуля обходится в миллионы долларов и требует данных интернет-масштаба — именно поэтому большинство предприятий этим не занимаются. Компания Sapient считает, что у нее есть более дешевый способ.
Чтобы преодолеть эту догму масштабирования методом грубой силы, исследователи из Sapient разработали HRM-Text, который заменяет стандартные трансформеры высокоэффективной с точки зрения использования выборок иерархической рекуррентной моделью (HRM), архитектуру которой они впервые представили в прошлом году.
HRM разделяет вычисления на медленно развивающиеся стратегические и быстро развивающиеся исполнительные уровни. Вместо авторегрессионного прогнозирования методом перебора на основе необработанного текста, HRM-Text обучается исключительно на парах «инструкция-ответ». Это близко к реальным корпоративным условиям, где пользователи обычно ожидают целевого ответа на конкретную задачу.
Исследователям удалось обучить модель HRM-Text с 1 миллиардом параметров с нуля, затратив при этом значительно меньше средств и токенов, чем обычные модели LLM. Их модель показала результаты, сопоставимые с гораздо более крупными открытыми моделями, на ключевых отраслевых тестах.
Для реальных приложений ИИ это означает, что базовое предварительное обучение больше не ограничивается учреждениями с большими ресурсами. С помощью HRM-Text организации могут недорого предварительно обучать свои собственные высокоэффективные модели рассуждений с нуля и сопоставлять их с внешними хранилищами знаний.
Узкое место в обучении
Когда мы обучаем модель LLM, нас на самом деле не волнует, запомнила ли она точную последовательность слов из случайной ветки обсуждений на Reddit 2014 года. Нам нужно, чтобы модель развила глубокое, фундаментальное понимание человеческого языка, логики, фактов и рассуждений.
Нынешний подход основан на грубой силе: сканировать интернет, триллионы раз запускать предсказание следующего токена и предполагать, что модель разработала работающую внутреннюю модель мира.
По сути, это означает, что мы тратим миллионы долларов на вычислительные мощности, заставляя модели запоминать всё, что собрано из интернета, только для того, чтобы они могли косвенно научиться думать. Например, стандартные модели, использующие только декодер, тратят ценные вычислительные ресурсы на присвоение функции потерь для восстановления самого запроса, даже несмотря на то, что запрос пользователя уже известен и предоставлен во время вывода.
Вместо того чтобы рассматривать это просто как вычислительную проблему, отрасль должна признать это как серьезное ограничение для бизнеса. В комментариях, предоставленных VentureBeat, Гуань Ван, генеральный директор Sapient Intelligence, сформулировал это как проблему «экономики итераций».
«Сегодня предприятия сталкиваются с тремя взаимосвязанными проблемами: обучение обходится дорого, инфраструктура громоздка, а циклы экспериментов слишком медленны», — сказал Ван. «Пристрастие отрасли к масштабированию гласит: „Когда модель терпит неудачу, увеличьте ее размер. Добавьте больше данных. Добавьте больше графических процессоров“. Это работало, но сейчас достигается точка убывающей отдачи. Больший масштаб часто означает больше памяти, большую задержку, большую инфраструктуру и большую зависимость от поставщиков. Это не обязательно дает предприятию более совершенный механизм анализа».
Именно эта архитектурная и вычислительная неэффективность является причиной того, почему тонкая настройка существующих сложных трансформеров не всегда является панацеей для предприятий. Тонкая настройка с сохранением общих возможностей модели часто требует добавления в процесс значительного количества данных общего назначения, что делает процесс вычислительно сложным и трудным для контроля.
«Представьте себе хедж-фонд, страховую компанию или банк, которые обладают конфиденциальными данными: внутренними аналитическими записками, логикой транзакций, правилами соответствия, служебными записками аналитиков, моделями рисков, ограничениями портфеля», — сказал Ван. «Возможно, они не захотят отправлять эти данные во внешнюю модель прогнозирования, и им может не понадобиться гигантская универсальная модель, которая запоминает все, что есть в интернете. Им нужно компактное ядро логического мышления, способное изучать структуру их задач, рассуждать на основе правил и чисел и работать в контролируемой среде».
Поскольку HRM-Text фокусирует свои вычисления исключительно на выполнении задач и скрытом логическом мышлении, это позволяет предприятиям начинать с более компактной и интеллектуальной модели и адаптировать ее к собственной предметной области с гораздо меньшей инфраструктурой.
Переосмысление архитектур с помощью HRM-Text
HRM, представленный в 2025 году, представляет собой принципиальное отличие от традиционных моделей Transformer. Для создания более эффективного с точки зрения использования выборок механизма, HRM разделяет вычисления на медленно развивающиеся стратегические и быстро развивающиеся исполнительные уровни. Быстрый L-модуль выполняет локальное итеративное уточнение, в то время как медленный H-модуль поддерживает стабильный семантический контекст на протяжении циклов. Обработка состоит из двух высокоуровневых циклов, где каждый цикл выполняет три обновления быстрого L-модуля, за которыми следует одно обновление медленного H-модуля.

Иерархическая модель рассуждений (HRM) (источник: arXiv)
Стандартные рекуррентные архитектуры с общими параметрами (например, TRM от Samsung) иногда могут справляться с небольшими логическими задачами, но исследователи из Sapient обнаружили, что они становятся крайне нестабильными при масштабировании до 1 миллиарда параметров для языковых задач. Разделение между медленным H-модулем и быстрым L-модулем HRM математически необходимо, а не является просто эстетическим выбором. Как сказал Ван: «Для логических сеток иногда можно обойтись крошечным рекурсивным механизмом, потому что мир чист и ограничен. Язык устроен иначе. Языку необходимы как быстрая локальная доработка, так и медленная семантическая стабильность».
Хотя первоначальная модель HRM оказалась весьма эффективной для задач контролируемого символического рассуждения, исследователи столкнулись с трудностями при её применении к огромным, открытым и сложным задачам обобщенного моделирования языка. Хотя циклы HRM делают её невероятно эффективным инструментом мышления, эти же циклы делают её математически нестабильной при обучении на разнообразном хаосе человеческого языка. Запуск рекуррентных циклов на языке создает огромную математическую нестабильность, в частности, взрывные или исчезающие градиенты.

Архитектура HRM-Text (источник: Sapient Inc.)
Чтобы предотвратить эту петлю обратной связи в нейронной сети, исследователи внедрили в HRM-Text два ключевых архитектурных нововведения. Во-первых, они разработали MagicNorm, специализированную технику нормализации, предназначенную специально для поддержания стабильности внутренних сигналов независимо от того, сколько раз модель повторяет свой мыслительный процесс.
Во-вторых, они разработали метод разогрева для стабилизации обучения. На начальном этапе обучения модель оценивается только на коротких, поверхностных циклах рассуждений. По мере продвижения обучения система «разогревается», постепенно предоставляя модели более глубокие и длинные последовательности рассуждений.
Они также изменили цель обучения с прогнозирования следующего токена на завершение задачи, где модель вознаграждается только за полный ответ, а не за отдельные сгенерированные токены. Для достижения этой цели они изменили обучающие данные HRM-Text с необработанного текста на пары «инструкция-ответ».
HRM-Text в действии
Исследователи создали очень компактную модель HRM-Text с 1 миллиардом параметров. Вместо использования стандартного многоэтапного конвейера, требующего обработки триллионов слов необработанного интернет-текста, они обучили ее с нуля на тщательно подобранном наборе данных, состоящем всего из 40 миллиардов токенов. Обучающие данные состояли исключительно из пар «инструкция-ответ», охватывающих общие инструкции, математику, символическую логику, упражнения из учебников и переписанные знания.
Они обучили модель, используя целевую функцию завершения задачи. Чтобы заставить модель полагаться на свою внутреннюю иерархическую архитектуру, а не копировать пошаговую логику, они явно удалили «мыслительные» токены из обучающих данных.
Модель была протестирована на разнообразном наборе стандартных базовых тестов ИИ, в значительной степени ориентированных на знания, рассуждения, логику, математику и понимание. Исследователи протестировали HRM-Text как на небольших моделях, так и на высокопроизводительных моделях с открытыми весами и полностью открытыми моделями.
Результаты показывают значительный сдвиг в соотношении вычислительной мощности и производительности. Модель HRM-Text с 1 миллиардом параметров достигла 60,7% в тесте MMLU, 84,5% в тесте GSM8K и 56,2% в тесте MATH. Эти показатели являются весьма конкурентоспособными (а в ряде случаев и превосходят) показатели базовых моделей с 2–7 миллиардами параметров, с которыми проводилось тестирование.

Производительность HRM-Text (источник: arXiv)
Наиболее важный вывод для корпоративной аудитории заключается в статистике эффективности и практических последствиях. Предварительное обучение базовой модели с нуля обычно является многомиллионным проектом, доступным лишь технологическим гигантам. Модель HRM-Text была обучена всего за 1,9 дня на кластере из 16 графических процессоров. Общая предполагаемая стоимость вычислений составила примерно 1500 долларов. Она достигла своих конкурентоспособных результатов, используя в 100–900 раз меньше обучающих токенов и в 96–432 раза меньше предполагаемых вычислительных ресурсов, чем такие модели, как Qwen, Gemma и Llama.
Ещё один важный момент — это разделение процессов рассуждения и запоминания знаний. С практической точки зрения, успех HRM-Text в задачах, требующих интенсивного рассуждения, несмотря на крошечный объём обучающих данных (40 миллиардов токенов), доказывает, что модели не нужно запоминать весь интернет, чтобы стать интеллектуальным механизмом рассуждения.
Для корпоративных приложений такое поведение является преимуществом, а не недостатком. Исследователи предполагают будущее, в котором предприятия будут использовать высококомпактные и невероятно дешевые рекуррентные модели, которые будут выступать в качестве «ядра рассуждений», специализированного для бизнес-логики. Вместо того чтобы заставлять модель запоминать базы данных компании во время предварительного обучения, модель будет выступать в качестве механизма рассуждений, полагаясь на внешние системы поиска для получения фактических знаний.
Критики отмечают, что обучение на парах «инструкция-ответ» превращает сравнение с моделями, обученными на необработанном тексте, в сравнение «яблок с апельсинами». Ван возражает против такой формулировки, указывая на то, что каждая серьезная современная модель обучения с использованием линейных вычислительных систем (LLM) рассматривает данные «инструкция-ответ» во время обучения или выравнивания. «Поэтому сравнение не является сравнением яблок с апельсинами. Оно ближе к сравнению огрызков яблок и яблок. Мы начали непосредственно с основного формата задачи, потому что именно так люди на самом деле используют модели: они дают инструкцию и ожидают полезного ответа», — сказал он.
Исследователи также провели тщательные тесты на загрязнение, чтобы убедиться, что модель не просто запоминает результаты эталонных тестов. В тесте DROP, единственном эталонном тесте, показавшем незначительный сигнал загрязнения при определенных настройках, HRM-Text все равно показал впечатляющий результат в 81,1% на строго чистом подмножестве с 0% загрязнения.
В конечном итоге Ван утверждает, что для предприятий «правильная оценка — это не запоминание мелочей. Это оценка рабочего процесса… Дайте HRM-Text задачу, например: многоэтапное финансовое обоснование, логика соответствия требованиям, научная автоматизация рабочих процессов, структурированное извлечение с последующим обоснованием».
Практическая реализация и будущее корпоративного ИИ
Несмотря на впечатляющие результаты тестов и экономическую эффективность, компания Sapient четко указывает на текущие ограничения модели. Первоначальный релиз лучше всего рассматривать как демонстрацию концепции, подобную ранним релизам GPT, призванную показать уникальные преимущества архитектуры.
«Честно говоря, HRM-Text пока не является готовой заменой ChatGPT, — сказал Ван. — Это компактная базовая модель логического мышления. Для корпоративной инженерной команды оперативная работа в основном связана с шаблонами, выбором режима, маскированием внимания и выравниванием».
Для команд разработчиков ИИ, желающих поэкспериментировать, начало работы требует соблюдения определённых, но стандартных правил генерации текста. Модель имеет встроенную поддержку в библиотеке Transformers (требуется версия Transformers >= 5.9.0), а пути использования vLLM и SGLang активно разрабатываются. Основная задача разработчиков заключается в управлении дизайном PrefixLM: для многошаговых чат-приложений, предназначенных для производства, потребуется тщательная логика кэширования ключ-значение, чтобы обеспечить полное двустороннее внимание к запросам пользователя, в то время как выходные данные помощника останутся причинно-следственными.
«Когда стоимость обучения эффективной модели рассуждений снизится примерно до 1500 долларов, ИИ перестанет быть просто вопросом инфраструктуры и станет вопросом стратегии», — сказал Ван. «Компании из списка Fortune 500 больше не нужно спрашивать: „Можем ли мы позволить себе базовую модель?“. Она будет спрашивать: „Что должна знать наша модель о нашем бизнесе и для какого типа рассуждений она должна быть оптимизирована?“»
Подпишитесь, чтобы получать самые свежие новости!
Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.
VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они
Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.
Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.
Источник: venturebeat.com
Похожие записи
Похожие записи
«Первый домашний робот-гуманоид поступил в продажу
04.11.2025
Figma приобретает компанию Weavy, занимающуюся разработкой медиаконтента на базе искусственного интеллекта
30.10.2025
Южнокорейский ракетный стартап Unastella, запущенный из Южной Кореи, привлек 24 миллиона долларов.
01.06.2026Подписка на рассылку
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
