Архив рубрики ~Лента новостей~

Встроенные в устройство агенты искусственного интеллекта достигли жесткого предела памяти. Новая архитектура Apple позволяет обойти это ограничение.

Встроенные в устройство агенты искусственного интеллекта достигли жесткого предела памяти. Новая архитектура Apple позволяет обойти это ограничение.

Шон Майкл Кернер

Базовые модели в смартфоне

Источник: Изображение создано VentureBeat с помощью FLUX-2-Pro.

Модели ИИ, работающие непосредственно на устройстве, оставались небольшими, поскольку весь набор весов должен храниться в DRAM, что ограничивало практическое количество параметров значительно меньшим, чем при развертывании на стороне сервера. Архитекторам предприятий, оценивающим рабочие нагрузки агентов, приходилось выбирать между мощными моделями, зависящими от облака, и ограниченными моделями, работающими непосредственно на устройстве. Модели третьего поколения от Apple, анонсированные на WWDC26, преодолевают это ограничение, полностью переместив набор весов из DRAM.

Семейство AFM 3 было разработано в сотрудничестве с Google и включает пять моделей: две для использования на устройствах и три для серверов, все они работают в рамках частной облачной вычислительной сети Apple. Серверные модели, включая AFM 3 Cloud Pro для использования агентных инструментов и сложных логических вычислений, работают на графических процессорах Nvidia в облаке Google. Архитектура для использования на устройствах — собственная разработка Apple. AFM 3 Core Advanced — это модель с 20 миллиардами параметров, которая хранит веса во флэш-памяти NAND, а не в DRAM.

«Вместо того чтобы помещать всю модель в DRAM, она хранится во флэш-памяти», — написала исследовательская группа Apple. «Поскольку пропускная способность NAND-памяти по отношению к DRAM слишком низка для обмена весовыми коэффициентами по одному, как это требуется в стандартных моделях MoE, AFM 3 Core Advanced принимает решения о маршрутизации для каждого запроса».

Как на самом деле работает архитектура

Проблема с памятью, которую пытается обойти Apple, — это проблема, с которой сталкивается каждый местный разработчик ИИ. «Невозможно поместить 20 байт параметров в ОЗУ с какой-либо разумной точностью», — написал на X Авни Ханнун, исследователь из Anthropic и бывший научный сотрудник Apple. «Чтобы это заработало, они используют довольно экзотическую архитектуру по сегодняшним меркам. Небольшая модель на основе запроса (или подсказки) предсказывает, каких экспертов нужно загрузить из NAND в ОЗУ».

Этот механизм прогнозирования и загрузки состоит из трех отдельных компонентов, каждый из которых определяется аппаратными ограничениями потребительских микросхем.

Полный набор из 20 весов хранится во флэш-памяти, а не в DRAM. AFM 3 Core Advanced хранит весь свой набор параметров во флэш-памяти NAND, а не в активной памяти. Стандартные развертывания на устройстве требуют, чтобы вся модель помещалась в DRAM, что и ограничивает количество параметров. Подход Apple, который компания называет Instruction-Following Pruning (IFP) и разработала совместно со своими исследователями, рассматривает флэш-память как постоянное хранилище модели, а DRAM — как рабочий буфер для тех параметров, которые требуются для выполнения конкретной задачи.

Маршрутизация экспертов происходит один раз за запрос, а не за токен. В традиционной модели «смешанных экспертов» маршрутизатор выбирает разных экспертов для каждого сгенерированного токена, что потребовало бы непрерывного перемещения весов между флэш-памятью и DRAM со скоростью вывода. Пропускная способность NAND-памяти DRAM этого не поддерживает. AFM 3 Core Advanced выполняет маршрутизацию один раз во время запроса, выбирает фиксированный набор экспертов, загружает его в DRAM вместе с постоянно активными общими экспертами и генерирует все токены из той же конфигурации. «Ключевое отличие от типичной модели «смешанных экспертов» заключается в том, что вы делаете это один раз за запрос, а затем генерируете все токены с одними и теми же экспертами», — написал Ханнун.

Архитектура модели AFM 3 Core Advanced

Источник: Исследование Apple в области машинного обучения, 8 июня 2026 г.

Количество активных параметров варьируется от 1 до 4 миллиардов в зависимости от сложности задачи. Вместо запуска модели фиксированного размера для каждого запроса, AFM 3 Core Advanced регулирует количество активируемых параметров в зависимости от требований задачи — 1 миллиард для более простых операций, до 4 миллиардов для более сложных, все из пула в 20 миллиардов параметров во флэш-памяти.

Что Apple раскрыла и что не раскрыла

В статье, посвященной архитектуре, подробно описаны проектирование памяти и механизм разреженной активации. Однако в ней менее подробно рассматриваются ограничения, связанные с практическим применением.

Инструменты профилирования Apple показывают время выполнения, но не метрики, определяющие пригодность системы для производства. «Энергопотребление, пропускная способность памяти, тепловыделение? В документации об этом ничего не сказано», — написал Марко Абис, разработчик Ziraph, профилировщика для локального ИИ на процессорах Apple Silicon, на форуме X. «Это существенный пробел, учитывая, что именно эти параметры определяют большую часть производительности устройства».

Компания Abis также не обнаружила в документации Apple — ни в документации по Core AI, ни в документации по Foundation Models, ни в сообщении о безопасности частных облачных вычислений — информации о том, когда запрос на устройстве прозрачно разгружается, или видна ли эта маршрутизация разработчику или пользователю. Для предприятий, которым необходимо документировать, где выполняется вывод данных, это является прямой проблемой соответствия требованиям.

На данный момент не вся информация доступна. Apple сообщила, что полный технический отчет с результатами тестов будет опубликован позже этим летом.

Что это значит для корпоративных архитекторов?

В регулируемых отраслях, оценивающих возможности внедрения агентного ИИ, теперь предстоит принять конкретное архитектурное решение.

  • Ограничения по объему оперативной памяти для агентов, устанавливаемых непосредственно на устройство, только что были сняты. Предприятия, оценивающие агенты, которые должны работать без подключения к облаку, теперь могут оценить локальный вариант с 20 миллиардами параметров. Ограничение смещается от возможностей модели к аппаратному обеспечению устройства.

  • Граница между частным облаком и облаком теперь является архитектурным решением, а не параметром по умолчанию. Более простые запросы остаются на устройстве; сложные задачи, выполняемые агентами, направляются в AFM 3 Cloud Pro на частных облачных вычислениях. Apple публично не указала, когда запрос перенаправляется на другое устройство или видна ли эта маршрутизация разработчику — этот пробел усложняет принятие решений по политике для организаций, которым необходимо документировать, где выполняется вывод данных.

  • Уровень агентного сервера зависит от Google Cloud. AFM 3 Cloud Pro работает на графических процессорах Nvidia в Google Cloud. Гарантия Private Cloud Compute обеспечивает конфиденциальность данных. Она не устраняет зависимость от Google Cloud для выполнения вычислений на стороне сервера.

AFM 3 Core Advanced предоставляет предприятиям возможность работы с 20 миллиардами параметров непосредственно на устройстве, чего не существовало до WWDC26. Возможность его масштабируемого развертывания зависит от ответов, которые Apple еще не опубликовала. Эти подробности должны быть представлены в летнем техническом отчете.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: Агенты, Встроенные, Интеллекта, Искусственного, новости, Устройство
Читайте также
Архив рубрики ~Обо всем~ Первый тест-драйв: Rivian R2 2027 года полностью меняет правила игры в мире электромобилей. Архив рубрики ~Обо всем~ Загадочный случай исчезновения носимого устройства Архив рубрики ~Обо всем~ Что произойдет, если Apple и Google объединятся для создания ИИ? 5 новых моделей. Архив рубрики ~Обо всем~ Ученые создали универсальный «хронометр» старения и смертности Архив рубрики ~Обо всем~ Физический искусственный интеллект: что это такое и чем он не является. Архив рубрики ~Обо всем~ Анонсирована новая HD-2D Final Fantasy для консолей и ПК. Архив рубрики ~Обо всем~ Пауки европейской части России, которых действительно лучше обойти стороной Архив рубрики ~Обо всем~ Проживание в сельской местности повысило риск госпитальной смерти пациентов с эпилепсией. Исследование проводилось в США Архив рубрики ~Обо всем~ Мы профессионально занимаемся поиском выгодных предложений, и вот лучшие из них, которые эксперты CNET по шопингу нашли на этой неделе. Архив рубрики ~Обо всем~ В Pokémon Pokopia появятся подводные механики и множество платных дополнений. Архив рубрики ~Коротко из Telegram~ GetsummerAI — сервис, который вытащит всю инфу с любого сайта…. Архив рубрики ~Коротко из Telegram~ ⚡️ Anthropic выпустили исследование про самосовершенствование ИИ Claude уже пишет… Архив рубрики ~Обо всем~ Большинство новых центров обработки данных для ИИ в США будет построено на землях, пострадавших от засухи. Архив рубрики ~Обо всем~ Сознание как boundary condition: детерминизм, ИИ и проблема субъективного опыта Архив рубрики ~Обо всем~ Первый тест-драйв: Rivian R2 2027 года полностью меняет правила игры в мире электромобилей. Архив рубрики ~Обо всем~ Загадочный случай исчезновения носимого устройства Архив рубрики ~Обо всем~ Что произойдет, если Apple и Google объединятся для создания ИИ? 5 новых моделей. Архив рубрики ~Обо всем~ Ученые создали универсальный «хронометр» старения и смертности Архив рубрики ~Обо всем~ Физический искусственный интеллект: что это такое и чем он не является. Архив рубрики ~Обо всем~ Анонсирована новая HD-2D Final Fantasy для консолей и ПК. Архив рубрики ~Обо всем~ Пауки европейской части России, которых действительно лучше обойти стороной Архив рубрики ~Обо всем~ Проживание в сельской местности повысило риск госпитальной смерти пациентов с эпилепсией. Исследование проводилось в США Архив рубрики ~Обо всем~ Мы профессионально занимаемся поиском выгодных предложений, и вот лучшие из них, которые эксперты CNET по шопингу нашли на этой неделе. Архив рубрики ~Обо всем~ В Pokémon Pokopia появятся подводные механики и множество платных дополнений. Архив рубрики ~Коротко из Telegram~ GetsummerAI — сервис, который вытащит всю инфу с любого сайта…. Архив рубрики ~Коротко из Telegram~ ⚡️ Anthropic выпустили исследование про самосовершенствование ИИ Claude уже пишет… Архив рубрики ~Обо всем~ Большинство новых центров обработки данных для ИИ в США будет построено на землях, пострадавших от засухи. Архив рубрики ~Обо всем~ Сознание как boundary condition: детерминизм, ИИ и проблема субъективного опыта

Оставить комментарий

Подписка на рассылку

Получайте свежие новости и идеи на почту. Без спама — только самое интересное.

Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.