Архив рубрики ~Лента новостей~

Умнее, а не сложнее: как неуверенность в себе ИИ способствует достижению максимальной производительности

Умнее, а не сложнее: как неуверенность в себе ИИ способствует достижению максимальной производительности

«Глубокое мышление с уверенностью» — более разумный способ масштабировать задачи рассуждения без траты огромного количества вычислений

Делиться

6c20055bc34afa54f2d694781b2d1389

Введение

Большие языковые модели (LLM) всё чаще решают сложные задачи на рассуждение, такие как задачи математических олимпиад, научные вопросы и ответы и многошаговые логические головоломки [3,8]. Но действительно ли они хороши? Да, хороши, но сейчас они требуют очень больших вычислительных затрат и неэффективны на этапе тестирования [5,6]. Чтобы решить эту проблему, исследователи Meta AI разработали решение под названием « DeepConf », также известное как « Глубокое мышление с уверенностью» [1].

Существует проблема, известная как самосогласованность при голосовании большинством голосов.

Уверен, вам интересно, как эта задача выглядит на практике. Представьте себе класс из 100 учеников. Вы дали им сложную олимпиадную задачу и час на её решение. В конце вы можете собрать все ответы и проголосовать — ответы, набравшие наибольшее количество голосов, «побеждают».

cf885a32cf526f7aad93422ec163e764

Именно так работает проблема самосогласованности с большинством в LLM[2,3]. Вместо одного решения модель рассматривает сотни путей рассуждения (например, 512 различных пошаговых решений), а затем выбирает наиболее частый ответ.

В математическом тесте AIME 2025 один проход Qwen3–8B (называемый pass@1) даёт точность около 68% ; это как если бы был получен один ответ от одного ученика. Но если сгенерировать 512 трассировок рассуждений на каждый вопрос (называемых conf@512) и взять ответ большинства, то точность возрастает до 82% [1,4].

Звучит здорово, правда? Загвоздка в том, что эти дополнительные 511 трасс генерируют почти 100 миллионов дополнительных токенов, и увеличение трасс не всегда помогает; производительность остаётся прежней, а иногда даже падает, когда в голосовании доминируют некачественные решения[1,7,8]. Другими словами, если ученики угадывают случайным образом, то голосование класса не отражает лучшего мыслителя в классе[1].

Источник: towardsdatascience.com

✅ Найденные теги: новости, Умнее,
Читайте также
Архив рубрики ~Обо всем~ Я протестировал множество настольных программ для работы с ИИ, но Hermes с Ollama — мой новый фаворит, и вот почему. Архив рубрики ~Обо всем~ Теперь пользователи Pinterest смогут совершать покупки напрямую в магазинах Amazon. Архив рубрики ~Обо всем~ Как рефакторить код с помощью Claude Code Архив рубрики ~Обо всем~ В следующем месяце Microsoft Office 2019 для Mac станет доступен только для чтения. Архив рубрики ~Коротко из Telegram~ Госдума приняла нормы, предусматривающие штрафы за нарушение новых требований к… Архив рубрики ~Обо всем~ Лучшие предложения на роботы-пылесосы в рамках Prime Day, которые я бы купил сейчас, после тестирования десятков вариантов. Архив рубрики ~Обо всем~ Мы профессионально отслеживаем выгодные предложения: вот лучшие предложения, которые нашли наши эксперты CNET на этой неделе. Архив рубрики ~Обо всем~ Как обучить модель оценки в эпоху искусственного интеллекта Архив рубрики ~Коротко из Telegram~ 🤖 Промышленным компаниям помогут внедрить ИИ На Архитектурном совете кластера… Архив рубрики ~Коротко из Telegram~ Шопоголикам выписали плацебо Любопытный тренд пришел из Южной Кореи. Там… Архив рубрики ~Коротко из Telegram~ Возвращаясь в мир без интернета Ozon Банк начал тестировать перевод… Архив рубрики ~Коротко из Telegram~ ♻️ Городские камеры подключат к борьбе с незаконными свалками NtechLab… Архив рубрики ~Коротко из Telegram~ Эксперты Data Insight выпустили новый рейтинг крупнейших интернет-магазинов России за… Архив рубрики ~Коротко из Telegram~ LLM delenda est или Язык до AGI не доведет Свежее… Архив рубрики ~Обо всем~ Я протестировал множество настольных программ для работы с ИИ, но Hermes с Ollama — мой новый фаворит, и вот почему. Архив рубрики ~Обо всем~ Теперь пользователи Pinterest смогут совершать покупки напрямую в магазинах Amazon. Архив рубрики ~Обо всем~ Как рефакторить код с помощью Claude Code Архив рубрики ~Обо всем~ В следующем месяце Microsoft Office 2019 для Mac станет доступен только для чтения. Архив рубрики ~Коротко из Telegram~ Госдума приняла нормы, предусматривающие штрафы за нарушение новых требований к… Архив рубрики ~Обо всем~ Лучшие предложения на роботы-пылесосы в рамках Prime Day, которые я бы купил сейчас, после тестирования десятков вариантов. Архив рубрики ~Обо всем~ Мы профессионально отслеживаем выгодные предложения: вот лучшие предложения, которые нашли наши эксперты CNET на этой неделе. Архив рубрики ~Обо всем~ Как обучить модель оценки в эпоху искусственного интеллекта Архив рубрики ~Коротко из Telegram~ 🤖 Промышленным компаниям помогут внедрить ИИ На Архитектурном совете кластера… Архив рубрики ~Коротко из Telegram~ Шопоголикам выписали плацебо Любопытный тренд пришел из Южной Кореи. Там… Архив рубрики ~Коротко из Telegram~ Возвращаясь в мир без интернета Ozon Банк начал тестировать перевод… Архив рубрики ~Коротко из Telegram~ ♻️ Городские камеры подключат к борьбе с незаконными свалками NtechLab… Архив рубрики ~Коротко из Telegram~ Эксперты Data Insight выпустили новый рейтинг крупнейших интернет-магазинов России за… Архив рубрики ~Коротко из Telegram~ LLM delenda est или Язык до AGI не доведет Свежее…

Подписка на рассылку

Получайте свежие новости и идеи на почту. Без спама — только самое интересное.

Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.