
MLE-STAR — это передовой инженерный агент машинного обучения, способный автоматизировать различные задачи машинного обучения на основе разнообразных типов данных, достигая при этом высочайшей производительности.
Быстрые ссылки
- Бумага
- Делиться
Развитие машинного обучения (МО) подстегнуло разработку высокопроизводительных приложений для широкого спектра реальных задач, от классификации таблиц до шумоподавления изображений. Однако создание таких моделей остается сложной задачей для инженеров машинного обучения, требующей обширных итеративных экспериментов и обработки данных. Для оптимизации этих трудоемких рабочих процессов недавние исследования сосредоточились на использовании больших языковых моделей (ЛЯМ) в качестве агентов машинного обучения (МНО). Используя свои врожденные навыки программирования и логического мышления, эти агенты рассматривают задачи МО как задачи оптимизации кода. Затем они исследуют потенциальные решения кода, в конечном итоге генерируя исполняемый код (например, скрипт на Python) на основе предоставленного описания задачи и наборов данных.

Инженерные агенты машинного обучения созданы для решения разнообразных задач машинного обучения путем анализа описания задачи и наборов данных, которые могут охватывать различные модальности. Их конечная цель — определить наилучшее решение для данной проблемы.
Несмотря на многообещающие первоначальные успехи, современные агенты MLE сталкиваются с рядом ограничений, снижающих их эффективность. Во-первых, их сильная зависимость от уже существующих знаний LLM часто приводит к предвзятости в отношении знакомых и часто используемых методов (например, библиотеки scikit-learn для табличных данных), игнорируя потенциально более эффективные подходы, специфичные для конкретных задач. Кроме того, эти агенты обычно используют стратегию исследования, которая одновременно изменяет всю структуру кода на каждой итерации. Это часто приводит к тому, что агенты преждевременно переключают внимание на другие этапы (например, выбор модели или настройку гиперпараметров), поскольку им не хватает возможностей для глубокого итеративного исследования в рамках конкретных компонентов конвейера, таких как исчерпывающее экспериментирование с различными вариантами проектирования признаков.
В нашей недавней статье мы представляем MLE-STAR, новый инженерный агент машинного обучения, который объединяет веб-поиск и целенаправленное уточнение блоков кода. В отличие от альтернативных решений, MLE-STAR решает задачи машинного обучения, сначала осуществляя поиск в интернете подходящих моделей для создания прочной основы. Затем он тщательно улучшает эту основу, проверяя, какие части кода наиболее важны. MLE-STAR также использует новый метод объединения нескольких моделей для достижения еще лучших результатов. Этот подход оказался очень успешным — он завоевал медали в 63% соревнований Kaggle в MLE-Bench-Lite, значительно превзойдя альтернативные решения.
Представляем MLE-STAR
Для генерации исходного кода решения MLE-STAR использует веб-поиск для поиска релевантных и потенциально передовых подходов, которые могут быть эффективны для построения модели.[da8046] Для улучшения решения MLE-STAR извлекает конкретный блок кода, представляющий собой отдельный компонент конвейера машинного обучения, например, инженерию признаков или построение ансамбля. Затем он концентрируется на изучении стратегий, адаптированных к этому компоненту, анализируя предыдущие попытки в качестве обратной связи. Чтобы определить блок кода, оказывающий наиболее значительное влияние на производительность, MLE-STAR проводит исследование методом абляции, которое оценивает вклад каждого компонента машинного обучения. Этот процесс уточнения повторяется с модификацией различных блоков кода.

Обзор. ( а ) MLE-STAR начинает с использования веб-поиска для поиска и включения моделей, специфичных для задачи, в первоначальное решение. ( б ) На каждом этапе уточнения проводится исследование абляции для определения блока кода, оказывающего наиболее существенное влияние на производительность. ( в ) Затем идентифицированный блок кода подвергается итеративному уточнению на основе планов, предложенных LLM, которые исследуют различные стратегии с использованием обратной связи из предыдущих экспериментов. Этот процесс выбора и уточнения целевых блоков кода повторяется, при этом улучшенное решение из ( в ) становится отправной точкой для следующего этапа уточнения в ( б ).
Кроме того, мы представляем новый метод генерации ансамблей. MLE-STAR сначала предлагает несколько вариантов решений. Затем, вместо того чтобы полагаться на простой механизм голосования, основанный на оценках валидации, MLE-STAR объединяет эти варианты в одно улучшенное решение, используя стратегию ансамбля, предложенную самим агентом. Эта стратегия ансамбля итеративно совершенствуется на основе эффективности предыдущих стратегий.

Объединение решений: MLE-STAR совершенствует свои ансамблевые стратегии в ходе последовательных попыток, эффективно комбинируя несколько параллельно сгенерированных решений в одно улучшенное решение.
И наконец, MLE-STAR включает в себя три дополнительных модуля для повышения своей надежности: (i) агент отладки, (ii) средство проверки утечки данных и (iii) средство проверки использования данных. В случае с агентом отладки, если выполнение скрипта Python вызывает ошибку, приводящую к записи (например, трассировке стека), MLE-STAR использует модуль отладки для попытки ее исправления. Что касается средства проверки утечки данных, мы заметили, что скрипты Python, сгенерированные LLM, несут риск утечки данных, например, из-за некорректного доступа к информации из тестового набора данных во время подготовки обучающих данных. Для решения этой проблемы мы ввели агент проверки, который анализирует скрипт решения перед его выполнением. Что касается средства проверки использования данных, мы заметили, что скрипты, сгенерированные LLM, иногда не используют все предоставленные источники данных, сосредотачиваясь исключительно на простых форматах, таких как CSV. Для обеспечения использования всех соответствующих предоставленных данных MLE-STAR включает в себя агент проверки использования данных.
Оценки и результаты
Для подтверждения эффективности MLE-STAR мы провели всестороннюю оценку с использованием соревнований Kaggle в рамках MLE-Bench-Lite. В этом случае мы использовали дополнительного агента, который принимает на вход описание задачи и окончательное решение, а на выходе выдает код, включающий загрузку тестового примера и создание файла для отправки решения.

Основные результаты MLE-Bench-Lite. Баллы представляют собой средний процент достижений в соревнованиях Kaggle в рамках MLE-Bench-Lite.
Результаты эксперимента, представленные на рисунке выше, демонстрируют, что MLE-STAR, требующий минимальных усилий со стороны человека (например, определения начальных подсказок, применимых к любым задачам), значительно превосходит предыдущие альтернативы, включая те, которые требовали ручного труда для сбора стратегий с Kaggle. В частности, MLE-STAR обеспечивает существенное улучшение результатов в получении медалей, повышая их с 25,8% до 63,6% по сравнению с лучшим базовым вариантом.
Углубленный анализ достижений MLE-STAR
Чтобы понять источники повышения производительности MLE-STAR, мы провели несколько анализов с разных точек зрения. В данном исследовании мы изучили (i) типы моделей машинного обучения, используемых MLE-STAR, (ii) возможности расширения MLE-STAR с помощью вмешательства человека и (iii) способы дальнейшего повышения производительности MLE-STAR за счет проверки утечки данных и их использования.
- Использование моделей : Рассмотрим использование моделей двумя агентами MLE. AIDE в основном использует ResNet для классификации изображений. Однако ResNet, выпущенный в 2015 году, сейчас считается устаревшим и может приводить к неоптимальной производительности. В отличие от него, MLE-STAR в основном использует более новые и конкурентоспособные модели, такие как EfficientNet или ViT, что приводит к наблюдаемому повышению производительности.
- Вмешательство человека : MLE-STAR легко адаптируется даже к более современным моделям с минимальным участием человека. Хотя MLE-STAR автоматически создает описание модели с помощью веб-поиска, естественным расширением является использование экспертных знаний человека для этого процесса. Вручную добавив описание модели для RealMLP, MLE-STAR успешно интегрирует ее код обучения в свою структуру, причем эта модель ранее не была найдена.

Слева: Использование модели (%) в соревнованиях по классификации изображений. Справа: Демонстрация вмешательства человека: MLE-STAR интегрирует код обучения модели на основе описания модели, составленного вручную.
- Некорректное поведение LLM и исправления : Мы заметили, что, хотя код, сгенерированный LLM, выполнялся корректно, его содержимое иногда было нереалистичным, демонстрируя галлюцинации. Например, на рисунке ниже ( слева ) показан непрактичный подход, при котором тестовые данные предварительно обрабатываются с использованием собственной статистики. Поскольку тестовые данные должны оставаться невидимыми, необходима корректировка кода, для чего MLE-STAR использует средство проверки утечек данных для выявления таких проблем и уточнения сгенерированного скрипта в случае обнаружения проблемы.
- Мы также заметили, что LLM-ы часто генерируют скрипты, которые игнорируют некоторые из предоставленных источников данных. Для решения этой проблемы MLE-STAR использует средство проверки использования данных, которое повторно анализирует описание задачи, чтобы убедиться в использовании всех предоставленных данных. Как показано на рисунке ( справа ), такая конструкция позволяет MLE-STAR включать ранее игнорируемые данные.

Слева: средство проверки утечки данных MLE-STAR обеспечивает надлежащую предварительную обработку. Справа: средство проверки использования данных MLE-STAR выявляет и включает ранее неиспользованную информацию.
Заключение
Мы предложили MLE-STAR, новый инженерный агент машинного обучения, разработанный для решения разнообразных задач машинного обучения. Наша основная идея заключается в использовании веб-поиска для поиска эффективных моделей, а затем в изучении различных стратегий, направленных на конкретные компоненты конвейера машинного обучения, для улучшения решения. Эффективность MLE-STAR подтверждается победами в 63% (36% из которых — золотые медали) соревнований MLE-Bench-Lite на Kaggle.
Автоматизируя сложные задачи машинного обучения, MLE-STAR может снизить барьер для входа в сферу применения машинного обучения для отдельных лиц и организаций, потенциально способствуя инновациям в различных секторах. Кроме того, по мере постоянного обновления и улучшения современных моделей ожидается автоматическое повышение производительности решений, создаваемых MLE-STAR. Это связано с тем, что наша платформа использует поисковую систему для поиска эффективных моделей в интернете и формирования своих решений. Эта присущая ей адаптивность гарантирует, что MLE-STAR будет продолжать предоставлять все более качественные решения по мере развития области машинного обучения. И наконец, разработчики и исследователи теперь могут ускорить свои проекты в области машинного обучения, используя наш недавно выпущенный открытый исходный код MLE-STAR, созданный с помощью Agent Development Kit (ADK).
Благодарности
Мы выражаем искреннюю благодарность Цзефэну Чену, Джинву Шину, Серкану О Арику, Раджу Синхе и Томасу Пфистеру за их вклад.
В настоящее время MLE-STAR предназначен исключительно для исследовательских целей, и предполагается, что пользователь должен убедиться в том, что модели и другой контент, предоставляемый MLE-STAR, соответствуют соответствующим лицензионным ограничениям.
Источник: research.google






















