Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

Почему «большие» модели AI могут оказаться не такими великими?

Ноя 23, 2025 0

Содержание

Модель с 27 млн параметров превзошла таких гигантов, как DeepSeek R1, o3-mini и Claude 3.7, в задачах на рассуждение.

Делиться

Введение

С момента появления концепции ИИ исследователи всегда верили в масштаб — в то, что общий интеллект — это эмерджентное свойство, рождающееся из размера. Если мы просто продолжим добавлять параметры и обучать их на гигантских корпусах, то человекоподобное мышление проявится само собой.

Но вскоре мы обнаружили, что даже этот подход, основанный на прямом переборе, имеет свои недостатки. Данные свидетельствуют о том, что большинство наших передовых моделей серьёзно недообучены и имеют завышенное количество параметров (Hoffmann et al., 2022)3, что указывает на то, что мы, возможно, всё-таки тратим вычислительные ресурсы не по назначению.

Скрытые недостатки гигантов искусственного интеллекта

Мы заставили самый мощный из когда-либо созданных ИИ думать на медленном, неудобном иностранном языке: английском. Чтобы найти решение проблемы, ему приходится «рассуждать вслух», используя пошаговый процесс слово в слово, одновременно предоставляя нам множество нерелевантных и неэффективно управляемых «токенов».

Кроме того, существует устоявшаяся отраслевая практика «чем больше, тем лучше». Это привело к разработке моделей с миллиардами параметров и обучающих наборов с триллионами токенов. Огромный размер таких моделей подразумевает, что они не являются по-настоящему рассуждающими; они просто являются наилучшими возможными имитаторами. Вместо того чтобы искать оригинальное, новое решение для конкретной задачи, они используют тот факт, что им ранее было показано нечто похожее на текущую задачу во время обучения, чтобы найти решение.

Наконец, и, возможно, самое важное, эти модели ограничены универсальным подходом к мышлению. Например, при решении очень сложной задачи модель не может выбрать, сколько времени потребуется на обработку особенно сложного её участка. Конечно, если модели требуется больше времени для решения более сложной задачи, она генерирует больше токенов CoT (Wei et al., 2022)4. Но это не обязательно воспроизводит человеческое мышление, которое включает в себя глубокие этапы размышления без какого-либо реального вербального диалога.

Иерархические модели рассуждений

Знакомство с иерархическими моделями рассуждений (ИМР) (Ван и др., 2025b)1: вместо неуклюжего подхода «думай вслух» они рассуждают молча и бегло, в своём родном скрытом пространстве — богатом, многомерном мире чисел. Это гораздо ближе к нашей собственной интуиции, где глубокие мысли часто предшествуют словам, которые мы используем для их описания.

Сердце этой новой архитектуры удивительно простое, но динамичное: терпеливый H-модуль, задающий общую стратегию, и быстрый низкоуровневый L-модуль, отвечающий за реализацию заданной стратегии на протяжении всего её выполнения. Оба модуля реализованы в виде простых блоков-трансформеров (Vaswani et al., 2017)², установленных друг на друга.

Как мыслит HRM: взгляд изнутри

Он превращает процесс «мышления» в динамичную двухскоростную систему. Чтобы понять, как она решает такую сложную задачу, как лабиринт 30×30, давайте рассмотрим весь путь от ввода до ответа.

1. Настройка: внедрение и инициализация

Сглаживание и встраивание: как следует из названия, входные данные (например, сетка судоку или лабиринт) сглаживаются в одномерный поток фрагментов/токенов, а затем подаются в модель встраивания, которая преобразует интерпретируемый человеком лабиринт в векторы встраивания, понятные машинам.
Инициализация памяти: теперь создаются два различных модуля: состояние высокого уровня (zH), которое действует как супервизор, определяя общее направление мыслей и рассуждений, и состояние низкого уровня (zL), отвечающее за выполнение рассуждений в заданном направлении.

2. Основной движок: настоящее мышление начинается здесь

По своей сути HRM представляет собой вложенный цикл, и один проход по нему называется «сегментом». Каждый сегмент содержит в себе несколько циклов модулей H и L.

Шаг А: Составление плана
Модуль высокого уровня (H) начинается с составления плана высокого уровня. Его состояние памяти (zH) поддерживается постоянным в течение заданного количества шагов и инициализируется случайным образом для первого прохода. В нашем примере с лабиринтом этот начальный план может быть очень абстрактным/общим, например, «исследовать пути, ведущие вниз и вправо».
Шаг Б: Реализация плана
Используя план модуля высокого уровня в качестве фиксированного ориентира, модуль низкого уровня (L) начинает серию повторяющихся вычислений. В течение заданного количества временных шагов (T) он итеративно обновляет своё скрытое состояние (zL), используя три входных данных для обработки:
- Его собственная работа из предыдущего шага (zL_previous).
- Фиксированный план из Модуля высокого уровня (zH).
- Исходная задача (встроенный лабиринт).
Модуль низкого уровня, учитывая общую стратегию, исследует многочисленные пути, заходит в тупики, возвращается назад и повторяет действия, пока не придет к выводу, который затем передается в модуль высокого уровня.
Шаг C: Соответствующее изменение плана
После того, как L-модуль завершает свои повторяющиеся рабочие циклы, его конечное состояние памяти (zL_final), представляющее результат вычислений, передаётся в H-модуль для уточнения. H-модуль корректирует свои планы и разрабатывает новую стратегию, которой L-модуль будет следовать в следующей итерации. Например: «Путь вниз — это в конечном итоге тупик. Новый план — исследовать пути, ведущие направо».
Шаг D: Сброс и повторение
L-модуль получает этот обновлённый план от своего «руководителя» для следующего цикла своей повторяющейся и интенсивной работы. Это продолжается в течение следующих «N» циклов H-модуля, каждый из которых состоит из «T» подциклов L-модуля.

3. Кнопка «Выход»: как решить, когда остановиться

Одного прохода через движок («сегмента») может быть недостаточно для решения более сложной или сложной задачи. Именно здесь вступает в дело самая гениальная функция HRM: адаптивное время вычислений (ACT) (Graves, 2016)6.

После каждого полного этапа размышления (циклов N×T) модель генерирует предварительный ответ. Затем он поступает в простую линейную сеть, которая решает: «Достаточно ли я уверен, чтобы остановиться, или мне стоит подумать ещё?»

Если модель определяет, что она достаточно уверена в своем ответе, она останавливается и представляет его как окончательное решение.
Если нет, он решает продолжить «размышления» . Он берёт конечное состояние памяти модулей L и H и использует его в качестве инициализации для совершенно нового сегмента, продолжая процесс размышлений.

Реализация ACT:

Модель учится останавливаться с помощью парадигмы Q-обучения.

Q-головка: это простой линейный слой (Q-головка), который принимает вызов для продолжения рассуждений или их остановки. Он считывает конечное состояние памяти H-модуля в конце сегмента и выводит две оценки: Qhalt и Qcontinue.
Значение «остановки» (Qhalt): эта оценка отражает уверенность модели в том, что ей следует немедленно остановиться. В процессе обучения модель учится предсказывать на основе этой оценки немедленное, окончательное вознаграждение. Цель, на которую она обучается, проста: 1, если предсказанный ответ верный, и 0, если он неверный.

Значение «Продолжить» (Qcontinue): представляет собой предполагаемое вознаграждение, которое модель получила бы, если бы продолжила анализ для следующего сегмента, а не остановилась прямо сейчас. Её целевой балл — это максимально возможное предполагаемое значение среди двух Q-баллов для следующего сегмента, определяемое как:

Система двойных потерь: после каждого сегмента мысли общая потеря модели состоит из двух различных целей:
- Потеря задачи: стандартная потеря при получении неправильного ответа (перекрестная энтропия между последовательностями).
- Потеря Q-обучения: потеря ACT из-за принятия неверного решения об остановке (бинарная кроссэнтропия).

Это позволяет модели одновременно изучать обе цели: как решить заданную задачу и научиться распознавать момент ее решения.

Проверяем: результаты

Тесты судоку и лабиринтов

В сравнении с несколькими современными моделями рассуждений HRM демонстрирует значительно лучшие результаты при решении сложных задач на рассуждение, включая головоломки судоку и лабиринты 30×30. Обе эти задачи требуют обширных логических выводов, способности к отступлению и пространственного планирования. Как показано ниже, все остальные модели, использующие цепочку мыслей, не смогли дать ни одного верного решения. Эти результаты подтверждают идею о том, что заставить модели рассуждать в гораздо более репрезентативном латентном пространстве эффективнее, чем заставлять их общаться с самими собой посредством CoT.

Архитектура важнее масштаба: парадигма эффективности

Модель способна на такое достижение, обеспечивая при этом высочайший уровень эффективности параметров и данных. Она достигает своей высочайшей производительности с 27 миллионами параметров, обучаясь с нуля примерно на 1000 точек данных для каждой задачи. Кроме того, ей не требуется дорогостоящего предварительного обучения на веб-масштабных наборах данных или сложных инженерных подходов. Это ещё раз подтверждает гипотезу о том, что модель способна интернализировать общие закономерности и рассуждать гораздо эффективнее, чем стандартный подход, основанный на CoT.

Абстрактное мышление и подвижный интеллект: задача ARC-AGI

Корпус абстракций и рассуждений (ARC) (Chollet, 2019)5 — общепризнанный эталон для текучего интеллекта, требующий от моделей выведения расплывчатых и абстрактных правил на основе лишь нескольких визуальных примеров. HRM, имеющий всего 27 миллионов параметров, превосходит большинство распространённых моделей рассуждений. Несмотря на свой размер, он набрал 40,3% на ARC-AGI-1, в то время как гораздо более крупные модели с огромными вычислительными возможностями, такие как o3-mini и Claude 3.7, получили оценку ниже среднего — 34,5% и 21,2% соответственно.

Раскрытие истинной вычислительной глубины

Производительность на архитектурах vanilla transformer быстро выходит на плато при увеличении вычислительной мощности, то есть простое добавление слоёв приводит к снижению эффективности сложных рассуждений. Напротив, точность HRM масштабируется практически линейно с увеличением количества вычислительных шагов. Это прямое доказательство из статьи, что архитектура модели не является системой с фиксированной глубиной. Она обладает внутренней способностью использовать дополнительные вычислительные мощности для решения сложных задач, чего не хватает базовой структуре стандартного Transformer.

Интеллектуальная эффективность: решение проблем с меньшими усилиями

Механизм адаптивного времени вычислений (ACT) позволяет модели динамически распределять вычислительные ресурсы в зависимости от сложности задачи. Модель HRM, оснащённая ACT, достигает той же высочайшей точности, что и модель, жёстко запрограммированная на большое количество шагов, но при этом в среднем потребляет значительно меньше ресурсов. Модель учится экономить вычислительные ресурсы, быстро решая простые задачи и выделяя больше времени на «обдумывание» только при необходимости, демонстрируя интеллектуальную эффективность, выходящую за рамки простых вычислений.

Эти два графика необходимо проанализировать вместе, чтобы оценить эффективность механизма ACT. Ось X на обоих графиках отображает вычислительный бюджет: для модели «Фиксированное M» это точное количество шагов, которые необходимо выполнить, а для модели «ACT» — максимально допустимое количество шагов (Mmax). Ось Y на рисунке (a) показывает среднее количество фактически использованных шагов, а ось Y на рисунке (b) — итоговую точность.

Точность модели «Fixed M» (чёрная линия, рис. b) достигает пика при бюджете 8, но это достигается за счёт использования ровно 8 шагов для каждой задачи (чёрная линия, рис. a). Модель «ACT» (синяя линия, рис. b) достигает практически такой же пиковой точности при максимальном бюджете 8. Однако, как показано на рис. (a), для этого ей требуется в среднем всего около 1,5 шагов. Вывод очевиден: модель ACT обучается достигать той же высочайшей производительности, используя менее четверти вычислительных ресурсов, разумно останавливаясь на ранних этапах решения уже решённых задач.

Ссылки

[1] Ван, Гуань и др. «Иерархическая модель рассуждений». Препринт arXiv arXiv:2506.21734 (2025).
[2] Васвани, Ашиш и др. «Внимание — это всё, что вам нужно». Достижения в области нейронных систем обработки информации 30 (2017).
[3] Хоффманн, Джордан и др. «Обучение оптимальных для вычислений моделей большого языка». Препринт arXiv arXiv:2203.15556 (2022).
[4] Вэй, Джейсон и др. «Цепочка мыслей побуждает к рассуждениям в больших языковых моделях». Достижения в области нейронных систем обработки информации 35 (2022): 24824-24837.
[5] Шолле, Франсуа. «О мере интеллекта». Препринт arXiv arXiv:1911.01547 (2019).
[6] Грейвс, Алекс. «Адаптивное время вычислений для рекуррентных нейронных сетей». Препринт arXiv arXiv:1603.08983 (2016).

Источник: towardsdatascience.com

✅ Найденные теги: новости, Почему

Метки:

новости Почему

ПРЕДЫДУЩАЯ ЗАПИСЬ

23.11.2025

История золотого стандарта

СЛЕДУЮЩАЯ ЗАПИСЬ

23.11.2025

Квантовый онтологизм

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…

Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.

Структура эффективного запроса Claude с элементами задачи, контекста и референса.

Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.

НОВОСТИ ДРУГИХ РУБРИК

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Архив рубрики ~Лента новостей~

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

ЧИТАТЬ

Мар 2, 2026

Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Архив рубрики ~Лента новостей~

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Мар 2, 2026

Черный углеродное волокно с текстурой плетения, отражающий свет.

Архив рубрики ~Лента новостей~

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений. Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

ЧИТАТЬ

Мар 2, 2026

Круглый экран с изображением замка и горы, рядом электронная плата.

Архив рубрики ~Лента новостей~

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран. Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

ЧИТАТЬ

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Почему «большие» модели AI могут оказаться не такими великими?

Введение

Скрытые недостатки гигантов искусственного интеллекта

Иерархические модели рассуждений

Как мыслит HRM: взгляд изнутри

1. Настройка: внедрение и инициализация

2. Основной движок: настоящее мышление начинается здесь

3. Кнопка «Выход»: как решить, когда остановиться

Проверяем: результаты

Тесты судоку и лабиринтов

Архитектура важнее масштаба: парадигма эффективности

Абстрактное мышление и подвижный интеллект: задача ARC-AGI

Раскрытие истинной вычислительной глубины

Интеллектуальная эффективность: решение проблем с меньшими усилиями

Ссылки

Похожие записи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в