Image

Умнее, а не сложнее: как неуверенность в себе ИИ способствует достижению максимальной производительности

«Глубокое мышление с уверенностью» — более разумный способ масштабировать задачи рассуждения без траты огромного количества вычислений

Делиться

6c20055bc34afa54f2d694781b2d1389

Введение

Большие языковые модели (LLM) всё чаще решают сложные задачи на рассуждение, такие как задачи математических олимпиад, научные вопросы и ответы и многошаговые логические головоломки [3,8]. Но действительно ли они хороши? Да, хороши, но сейчас они требуют очень больших вычислительных затрат и неэффективны на этапе тестирования [5,6]. Чтобы решить эту проблему, исследователи Meta AI разработали решение под названием « DeepConf », также известное как « Глубокое мышление с уверенностью» [1].

Существует проблема, известная как самосогласованность при голосовании большинством голосов.

Уверен, вам интересно, как эта задача выглядит на практике. Представьте себе класс из 100 учеников. Вы дали им сложную олимпиадную задачу и час на её решение. В конце вы можете собрать все ответы и проголосовать — ответы, набравшие наибольшее количество голосов, «побеждают».

cf885a32cf526f7aad93422ec163e764

Именно так работает проблема самосогласованности с большинством в LLM[2,3]. Вместо одного решения модель рассматривает сотни путей рассуждения (например, 512 различных пошаговых решений), а затем выбирает наиболее частый ответ.

В математическом тесте AIME 2025 один проход Qwen3–8B (называемый pass@1) даёт точность около 68% ; это как если бы был получен один ответ от одного ученика. Но если сгенерировать 512 трассировок рассуждений на каждый вопрос (называемых conf@512) и взять ответ большинства, то точность возрастает до 82% [1,4].

Звучит здорово, правда? Загвоздка в том, что эти дополнительные 511 трасс генерируют почти 100 миллионов дополнительных токенов, и увеличение трасс не всегда помогает; производительность остаётся прежней, а иногда даже падает, когда в голосовании доминируют некачественные решения[1,7,8]. Другими словами, если ученики угадывают случайным образом, то голосование класса не отражает лучшего мыслителя в классе[1].

Источник: towardsdatascience.com

✅ Найденные теги: новости, Умнее,
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых