Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

Новый метод Tencent учит языковые модели «параллельному мышлению»

Сен 26, 2025 0

Содержание

Исследователи из Tencent AI Lab в Сиэтле и Университета Мэриленда представили метод обучения с подкреплением, который помогает большим языковым моделям (LLM) эффективнее использовать масштабирование на этапе инференса при решении сложных задач рассуждения.

Дисклеймер: это вольная адаптация статьи издания MIT News. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, а также делимся полезными мастридами и актуальными событиями.
Если у вас стоит задача интеграции ИИ в бизнес-процессы, то напишите нам.

Метод Parallel-R1 опирается на специальный пайплайн генерации данных и многоступенчатый процесс обучения. Он позволяет моделям параллельно развивать несколько линий рассуждений при формировании ответа, что в итоге приводит к более устойчивым и точным выводам.

Параллельное мышление, которое уже применяется в некоторых closed-source моделях, открывает возможность повысить способность к рассуждениям у существующих систем за счет эффективного масштабирования на этапе использования — без необходимости в дорогих и трудоемких размеченных наборах данных.

Трудности параллельного мышления

Идея одновременного исследования нескольких линий рассуждений уже доказала свою ценность: Google недавно связал успех своей модели Gemini Deep Think на Международной математической олимпиаде во многом благодаря этой способности.

Первые попытки внедрить параллельное мышление в модели строились на грубой силе: модель генерировала несколько независимых ответов с нуля и выбирала наиболее согласованный вариант — такой подход часто называют «best of N».

Позднее появились более изощренные методы, например, Monte Carlo Tree Search или Tree of Thoughts, которые позволяют тоньше управлять ходом рассуждений и выбором окончательного ответа. Но у этих подходов есть минус — они опираются на заранее прописанные правила и внешние механизмы, что ограничивает их гибкость.

Недавние исследования сосредоточились на том, чтобы обучить модели этому навыку напрямую. Однако здесь возникают серьезные трудности. Обучение через supervised fine-tuning (SFT), где модель учится на заранее подготовленных примерах, полностью зависит от качества этих данных. А высококачественные корпуса, показывающие параллельные рассуждения в сложных реальных задачах, крайне редки и дорого обходятся в создании. В итоге модели чаще имитируют отдельные шаблоны из датасета, чем формируют настоящую, способность к параллельному мышлению.

Обучение с подкреплением (RL), при котором модель учится методом проб и ошибок, предлагает более масштабируемый путь. Однако у этого подхода тоже есть сложности. Большие языковые модели изначально не обучены думать параллельно, поэтому они не формируют исследовательские линии рассуждений, необходимые для эффективного обучения (классическая проблема «cold-start»).

Кроме того, разработка правильной функции вознаграждения — непростая задача. Если модель вознаграждается только за получение правильного финального ответа, она может начать использовать обходные пути и отказываться от более сложной стратегии параллельного мышления. С другой стороны, если её принуждать к параллельному мышлению, она может применять его там, где это не требуется, что снижает эффективность и качество работы.

Как работает Parallel-R1

Фреймворк Parallel-R1 разработан для того, чтобы преодолеть эти трудности. Исследователи описывают его как «первый фреймворк обучения с подкреплением (RL), который позволяет моделям проявлять параллельное мышление при решении сложных задач рассуждения в реальном мире».

«Ключевая идея нашего подхода — обойти необходимость в сложных пайплайнах генерации данных, которые обычно считаются необходимыми для подготовки обучающих наборов по сложным финальным задачам», — пишут исследователи.

В основе подхода лежит формализация параллельного мышления в два этапа: «Исследование», когда модель запускает несколько независимых потоков рассуждений при обнаружении критического шага, и «Сводка», когда она агрегирует результаты этих потоков, формируя вывод, прежде чем продолжить основную линию рассуждений. Во время инференса модель генерирует текст до появления специального тега <Parallel>, после чего разветвляется на различные блоки <Path>. По завершении она создаёт <Summary> с итогами и продолжает основное рассуждение. Модель, обученная через Parallel-R1, может многократно повторять этот процесс разветвления и слияния при генерации ответа на запрос.

Для внедрения этой способности исследователи разработали трёхэтапный процесс обучения. Первый этап — «Cold-Start Stage», на котором модель дообучается на кастомном наборе данных с примерами параллельного мышления, сгенерированными ИИ. Этот шаг обучает модель базовому формату параллельного рассуждения.

Далее следует этап «RL on Easy Math», где фреймворк применяет обучение с подкреплением к тому же набору данных, чтобы закрепить новую стратегию поведения, используя двойную систему вознаграждений, стимулирующую как корректность, так и правильное использование параллельной структуры.

Наконец, этап «RL on General Math» предполагает обучение модели на новых, более сложных и разнообразных задачах по математике, чтобы модель могла применять навык параллельного мышления к более сложным сценариям.

Ключевое нововведение заключается в том, как создаются исходные данные для этапа «cold-start». Вместо того чтобы полагаться на сложные пайплайны генерации данных, команда обнаружила, что мощная LLM способна создавать высококачественные примеры параллельного рассуждения для простых задач с помощью прямых подсказок. В экспериментах исследователи использовали дистиллированную версию DeepSeek-R1, чтобы сгенерировать около 7 000 примеров параллельного мышления на основе датасета математических задач GSM8K. Важным моментом было стратегическое решение использовать эти данные «cold-start» не для обучения модели решать конечные целевые задачи, а именно для того, чтобы научить ее формату параллельного мышления.

Другой важной частью фреймворка является функция вознаграждения. Для решения задачи проектирования системы наград команда разработала чередующуюся стратегию вознаграждений, которая переключается между наградой за корректность финального ответа и за правильное использование структуры параллельного мышления.

Согласно статье, «такой подход обеспечивает оптимальный баланс между высокой производительностью и последовательным применением параллельного мышления по сравнению с использованием одного типа награды».

Исследователи протестировали свой фреймворк, обучив на Parallel-R1 открытую модель Qwen-3-4B-Base и оценив её на четырёх стандартных бенчмарках математического рассуждения, включая AIME, AMC и MATH. Результаты показали, что модель, обученная с использованием Parallel-R1, стабильно превосходила базовые подходы, включая модель, обученную стандартным методом RL.

На практике Parallel-R1 позволяет повысить способность к рассуждению у существующих ИИ-систем. Этот подход к масштабированию возможностей на этапе инференса, а не просто за счет увеличения размера модели, обеспечивает более эффективный и практичный метод внедрения продвинутых систем рассуждающего ИИ в корпоративные задачи.

Источник: habr.com

✅ Найденные теги: новости, Новый

Метки:

новости Новый

ПРЕДЫДУЩАЯ ЗАПИСЬ

26.09.2025

Декодирование нелинейных сигналов в больших наборах данных наблюдений

СЛЕДУЮЩАЯ ЗАПИСЬ

26.09.2025

Голова китайского андроида поражает реалистичной мимикой

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…

Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.

Структура эффективного запроса Claude с элементами задачи, контекста и референса.

Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.

НОВОСТИ ДРУГИХ РУБРИК

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Архив рубрики ~Лента новостей~

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

ЧИТАТЬ

Мар 2, 2026

Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Архив рубрики ~Лента новостей~

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Мар 2, 2026

Черный углеродное волокно с текстурой плетения, отражающий свет.

Архив рубрики ~Лента новостей~

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений. Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

ЧИТАТЬ

Мар 2, 2026

Круглый экран с изображением замка и горы, рядом электронная плата.

Архив рубрики ~Лента новостей~

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран. Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

ЧИТАТЬ

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Новый метод Tencent учит языковые модели «параллельному мышлению»

Трудности параллельного мышления

Как работает Parallel-R1

Похожие записи

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

Присоединяйтесь
к нам в