arXiv:2511.12797v3 Тип объявления: replace-cross Аннотация: Контекстное обучение (ICL) — способность модели выводить и применять абстрактные закономерности из примеров, представленных на входе, — широко изучалось в больших языковых моделях, обученных для предсказания следующего токена в человеческом тексте. Фактически, в предыдущих работах это возникающее поведение часто объяснялось отличительными статистическими свойствами человеческого языка. Это поднимает фундаментальный вопрос: может ли ICL органически возникать в других областях последовательностей исключительно посредством крупномасштабного предиктивного обучения? Чтобы исследовать это, мы обращаемся к геномным последовательностям, альтернативной символической области, богатой статистической структурой. В частности, мы изучаем геномную модель Evo2, обученную преимущественно на предсказании следующего нуклеотида (A/T/C/G), в масштабе, сопоставимом со средними по размеру LLM. Мы разрабатываем контролируемую экспериментальную структуру, включающую задачи символического рассуждения, реализованные как в лингвистической, так и в геномной формах, что позволяет напрямую сравнивать ICL между геномными и лингвистическими моделями. Наши результаты показывают, что геномные модели, подобно своим лингвистическим аналогам, демонстрируют логарифмически-линейный рост в индукции паттернов по мере увеличения числа демонстраций в контексте. Насколько нам известно, это первое свидетельство органически возникающего обучения в контексте в геномных последовательностях, подтверждающее гипотезу о том, что обучение в контексте возникает как следствие крупномасштабного прогностического моделирования на основе обширных данных. Эти результаты расширяют понятие эмергентного метаобучения за пределы языка, указывая на единый, независимый от модальности взгляд на обучение в контексте.
Источник: arxiv.org






















