ИИ теперь стали самокритичны
Ученые представили метод Compute as Teacher (CaT), позволяющий языковым моделям учиться без заранее подготовленных правильных ответов. Алгоритм многократно решает задачу, сравнивает разные варианты и выбирает лучший как новую цель для обучения. В математике правильность проверяется автоматически, а в сложных областях оценку даёт другая LLM
Эксперименты показали рост точности: +27% на бенчмарке MATH-500 и +12% на HealthBench, а улучшенная версия CaT-RL дала прирост до 33%. Подход снижает зависимость от дорогих размеченных датасетов и приближает появление ИИ, способного самостоятельно улучшать свои навыки























