Чему нас научила Parameter Golf | OpenAI

18.05.2026 ideipro.ru

Уроки, полученные от более чем 1000 участников, более 2000 заявок и открытый конкурс по машинному обучению, разработанный с помощью программных агентов.

Мы запустили Parameter Golf, чтобы вовлечь и поддержать исследовательское сообщество в области машинного обучения в изучении новой, жестко ограниченной задачи машинного обучения. Мы хотели, чтобы задача была достаточно интересной, чтобы поощрять настоящую техническую креативность, оставаясь при этом концептуально простой и легко проверяемой.

Участникам необходимо было минимизировать потери на отложенном наборе данных FineWeb, оставаясь при этом в пределах лимита в 16 МБ, включая как веса модели, так и код обучения, и в рамках 10-минутного бюджета обучения на 8 устройствах H100. Мы предоставили базовый уровень, набор данных и скрипты для оценки, чтобы участники могли создать форк репозитория, улучшить модель и отправить свои результаты через GitHub.

В течение восьми недель мы получили более 2000 заявок от более чем 1000 участников. Нас впечатлили техническая широта, креативность и нестандартный подход к решению задач, представленные в работах: от тщательной настройки оптимизатора и квантизации до новых идей моделирования и обучения в тестовой среде.

Одним из самых захватывающих моментов конкурса стало то, насколько широко участники использовали агентов ИИ для программирования. Агенты помогли снизить затраты на эксперименты, упростили участие большего числа людей и изменили темп соревнований. Они также создали новые сложности в проверке работ, определении авторства и оценке результатов.

Этот конкурс также стал для нас важной площадкой для выявления талантов. Это была одна из наших целей для Parameter Golf, и это стало полезным сигналом того, что открытые технические задачи могут выявить исключительные способности к машинному обучению и настойчивость.

В этом посте мы расскажем о некоторых работах, которые показались нам удивительными и интересными, и поделимся тем, чему мы научились, проводя конкурс по программированию в эпоху мощных агентов искусственного интеллекта.

Технические впечатления

Запись трека

Мы оценили и независимо воспроизвели каждую работу в таблице лидеров по установлению рекордов, а также подтвердили, что каждая работа являлась рекордной на момент ее подачи. Выделилось несколько основных тем.

Оптимизация обучения

Наиболее убедительные результаты были получены благодаря тщательной настройке существующих компонентов.

Подчинение	Участник	Техника	Почему это было важно
#60	@notapplica	Объединив предыдущие победы в задачах №50, №42 и, вероятно, №39, затем разработали более глубокую модель с учетом затухания веса мюонов, инициализации спектрального встраивания, планирования остаточного смешивания и скомпилированной оценки.	Яркий пример дисциплинированной работы над рейтингом: выявление того, какие из существующих улучшений имеют значение, и их гармоничное объединение.

Квантование

В ряде представленных работ особое внимание уделялось сжатию и экспорту данных.

Подчинение	Участник	Техника	Почему это было важно
#414	@signalrush	Для квантизации весов после тренировки использовалась программа GPTQ-lite.	Первая заявка в таблицу лидеров, успешно использующая GPTQ-lite, что привело к улучшению оценки.
#1060	@dexhunter	Создано на основе запроса #634 пользователем @raahilshah для успешного использования полного набора GPTQ-параметров Hessian.	Расширение ранее проведенной работы по квантованию в более мощный путь сжатия.

Стратегии тестирования и оценки

Некоторые представленные работы выходили за рамки между улучшением модели и стратегией оценки. Эти подходы были допустимы в соответствии с правилами, но требовали тщательного рассмотрения с нашей стороны как организаторов.

Подчинение	Участник	Техника	Почему это было важно
#77	@samacqua	Использовался подход обучения LoRA с приоритетом оценки результатов, с обучением на основе каждого документа: сначала оценивались результаты, адаптация производилась только на уже оцененных фрагментах, а сброс осуществлялся на границах документа.	Раздвинул границы между улучшением модели и стратегией оценки, оставаясь при этом в рамках правил, допускающих проверку.
#1019	@abaybektursun	Использовалась самогенерированная калибровка GPTQ: сгенерировался калибровочный текст на основе обученной модели, затем на основе полученных активаций были построены матрицы Гессе GPTQ.	Креативная стратегия калибровки, потребовавшая тщательного анализа со стороны организаторов.

Новые идеи в области моделирования и обработки данных.

В нескольких представленных работах были предложены особенно креативные идеи в области моделирования или обработки данных.

Подчинение	Участник	Техника	Почему это было важно
#1729	@romeerp	Представлен токенизатор CaseOps: токены оператора капитализации без потерь с учетом исходных байтов в сайдкаре BPB.	Креативная идея для токенизации и представления данных.
#265	@unnir	Представлен XSA — эффективный подход с частичным эксклюзивным самовниманием, использующий сгруппированные представления с учетом GQA.	Внес в задачу эффективный вариант, требующий концентрации внимания.
#65	@aquariouseworkman	Представлены SmearGate и BigramHash: сочетание обученного векторного представления предыдущих токенов и хеш-признаков смежных пар токенов.	С нуля добавлены новые функциональные механизмы.
#1204	@msisovic	Введена мини-рекуррентная схема с увеличением глубины: повторение слоев 4 и 5, задержка рекуррентности до середины обучения и частичное развязывание повторяющихся многослойных перцептронов.	Первая принятая строка в таблице лидеров, обеспечивающая эффективную работу рекуррентных слоев.

Мы решили выделить эти девять работ, потому что они представляют собой тот диапазон результатов, на которые мы надеялись в ходе конкурса. Некоторые участники добились успеха благодаря тщательной настройке. Другие использовали методы квантования и низкоранговые методы. Некоторые исследовали границы правил оценки. А несколько человек представили идеи моделирования или работы с данными, взятые из литературы или разработанные с нуля, которые привели к неожиданным результатам.

Незаписанный трек

В секции, не связанной с записью, было представлено множество креативных работ. Мы выделили 15 лучших, включая подходы, варьирующиеся от неавторегрессивного моделирования текста до динамической токенизации.

Поскольку эта работа носила более экспериментальный характер, мы меньше внимания уделяли чистому исполнению и больше — технической стороне вопроса. Три работы особенно выделялись:

Комбинированная модель пространства состояний Чиприана Флорима-Ифрима и заявка в JEPA ( открывается в новом окне)
Заявка пользователя ddavidgao на использование функции Designator/Guided Attention (откроется в новом окне)
Работа Дариуса Фехера, представленная на Byte-Level H-Net (открывается в новом окне)

Вот три наши любимые композиции, не вошедшие в альбомы, хотя они и не обязательно были тремя лучшими по исполнению.

Тем не менее, в категории без рекордов конкуренция оставалась высокой. Половина участников, не вошедших в список лидеров, превзошла наивный базовый показатель в 1,22 BPB, а лучший результат достиг 1,12 BPB.

Это нас воодушевило. Даже при наличии сильных базовых моделей трансформаторов альтернативные подходы иногда могли успешно конкурировать с доминирующей архитектурой.

Мы также считаем, что этот раздел особенно выигрывает от наличия сильных программистов-программистов. Благодаря им стало намного дешевле создавать прототипы спекулятивных идей, включая подходы, которые ранее могли казаться слишком трудоемкими или неопределенными для опробования в рамках краткосрочного конкурса.

Основные выводы

Главное отличие Parameter Golf от более ранних подобных соревнований заключалось в широком использовании программных агентов. Подавляющее большинство участников упомянули использование агентов в своей работе.

Это снизило порог вхождения. Участники могли быстрее настраивать эксперименты, изучать незнакомый код и тестировать идеи с меньшими трудностями. Спонсорская поддержка RunPod в размере 1 000 000 долларов США в виде предоставления вычислительных ресурсов также сыграла важную роль в том, чтобы сделать конкурс доступным для большего числа людей.

В то же время использование агентов создало новые проблемы для подачи заявок и оценки. Многие заявки представляли собой лишь небольшие изменения существующих лучших работ, а не принципиально новые подходы. Это часто было полезно: сильные идеи быстро распространялись и дорабатывались другими. Но это также создавало информационный шум. Когда заявки, не соответствующие правилам конкурса, получали необычайно высокие оценки, другие агенты иногда копировали эти идеи и продолжали идти по тому же неверному пути.

Объём заявок также изменил подход к проведению конкурса. Мы не могли вручную проверять каждую заявку и при этом поддерживать динамику турнирной таблицы. В ходе конкурса мы разработали внутреннего бота на основе Codex для отслеживания новых заявок и их пометки для последующей проверки человеком. Это стало особенно важно в периоды, когда мы получали сотни заявок в день.

Искусственный интеллект также стал частью сообщества, окружавшего конкурс. На протяжении большей части соревнований @notapplica и его программист вели информационный бюллетень «Обновления в режиме реального времени», отслеживая основные события, объясняя подходы к составлению таблицы лидеров и помогая другим участникам следить за ходом соревнований. Также появились инструменты для проверки решений, призванные помочь менее опытным участникам проверить, соответствуют ли их работы правилам, и избежать распространенных некорректных подходов.

Что дальше?

Наша главная цель заключалась в запуске конкурса, в котором могли бы принять участие все желающие (открывается в новом окне) и познакомиться с исследованиями в области машинного обучения. Parameter Golf собрал широкий спектр технически сильных и креативных работ, и это позволило нам получить более четкое представление о том, как могут измениться открытые исследовательские конкурсы по мере того, как агенты ИИ становятся более совершенными и широко используются.

Мы рассматриваем возможность проведения подобных конкурсов в будущем. Если вас это заинтересовало, пожалуйста, заполните форму участника конкурса (откроется в новом окне) .

Источник: openai.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Чему нас научила Parameter Golf | OpenAI