Встроенные в устройство агенты искусственного интеллекта достигли жесткого предела памяти. Новая архитектура Apple позволяет обойти это ограничение.

10.06.2026 ideipro.ru

Шон Майкл Кернер

Модели ИИ, работающие непосредственно на устройстве, оставались небольшими, поскольку весь набор весов должен храниться в DRAM, что ограничивало практическое количество параметров значительно меньшим, чем при развертывании на стороне сервера. Архитекторам предприятий, оценивающим рабочие нагрузки агентов, приходилось выбирать между мощными моделями, зависящими от облака, и ограниченными моделями, работающими непосредственно на устройстве. Модели третьего поколения от Apple, анонсированные на WWDC26, преодолевают это ограничение, полностью переместив набор весов из DRAM.

Семейство AFM 3 было разработано в сотрудничестве с Google и включает пять моделей: две для использования на устройствах и три для серверов, все они работают в рамках частной облачной вычислительной сети Apple. Серверные модели, включая AFM 3 Cloud Pro для использования агентных инструментов и сложных логических вычислений, работают на графических процессорах Nvidia в облаке Google. Архитектура для использования на устройствах — собственная разработка Apple. AFM 3 Core Advanced — это модель с 20 миллиардами параметров, которая хранит веса во флэш-памяти NAND, а не в DRAM.

«Вместо того чтобы помещать всю модель в DRAM, она хранится во флэш-памяти», — написала исследовательская группа Apple. «Поскольку пропускная способность NAND-памяти по отношению к DRAM слишком низка для обмена весовыми коэффициентами по одному, как это требуется в стандартных моделях MoE, AFM 3 Core Advanced принимает решения о маршрутизации для каждого запроса».

Как на самом деле работает архитектура

Проблема с памятью, которую пытается обойти Apple, — это проблема, с которой сталкивается каждый местный разработчик ИИ. «Невозможно поместить 20 байт параметров в ОЗУ с какой-либо разумной точностью», — написал на X Авни Ханнун, исследователь из Anthropic и бывший научный сотрудник Apple. «Чтобы это заработало, они используют довольно экзотическую архитектуру по сегодняшним меркам. Небольшая модель на основе запроса (или подсказки) предсказывает, каких экспертов нужно загрузить из NAND в ОЗУ».

Этот механизм прогнозирования и загрузки состоит из трех отдельных компонентов, каждый из которых определяется аппаратными ограничениями потребительских микросхем.

Полный набор из 20 весов хранится во флэш-памяти, а не в DRAM. AFM 3 Core Advanced хранит весь свой набор параметров во флэш-памяти NAND, а не в активной памяти. Стандартные развертывания на устройстве требуют, чтобы вся модель помещалась в DRAM, что и ограничивает количество параметров. Подход Apple, который компания называет Instruction-Following Pruning (IFP) и разработала совместно со своими исследователями, рассматривает флэш-память как постоянное хранилище модели, а DRAM — как рабочий буфер для тех параметров, которые требуются для выполнения конкретной задачи.

Маршрутизация экспертов происходит один раз за запрос, а не за токен. В традиционной модели «смешанных экспертов» маршрутизатор выбирает разных экспертов для каждого сгенерированного токена, что потребовало бы непрерывного перемещения весов между флэш-памятью и DRAM со скоростью вывода. Пропускная способность NAND-памяти DRAM этого не поддерживает. AFM 3 Core Advanced выполняет маршрутизацию один раз во время запроса, выбирает фиксированный набор экспертов, загружает его в DRAM вместе с постоянно активными общими экспертами и генерирует все токены из той же конфигурации. «Ключевое отличие от типичной модели «смешанных экспертов» заключается в том, что вы делаете это один раз за запрос, а затем генерируете все токены с одними и теми же экспертами», — написал Ханнун.

Количество активных параметров варьируется от 1 до 4 миллиардов в зависимости от сложности задачи. Вместо запуска модели фиксированного размера для каждого запроса, AFM 3 Core Advanced регулирует количество активируемых параметров в зависимости от требований задачи — 1 миллиард для более простых операций, до 4 миллиардов для более сложных, все из пула в 20 миллиардов параметров во флэш-памяти.

Что Apple раскрыла и что не раскрыла

В статье, посвященной архитектуре, подробно описаны проектирование памяти и механизм разреженной активации. Однако в ней менее подробно рассматриваются ограничения, связанные с практическим применением.

Инструменты профилирования Apple показывают время выполнения, но не метрики, определяющие пригодность системы для производства. «Энергопотребление, пропускная способность памяти, тепловыделение? В документации об этом ничего не сказано», — написал Марко Абис, разработчик Ziraph, профилировщика для локального ИИ на процессорах Apple Silicon, на форуме X. «Это существенный пробел, учитывая, что именно эти параметры определяют большую часть производительности устройства».

Компания Abis также не обнаружила в документации Apple — ни в документации по Core AI, ни в документации по Foundation Models, ни в сообщении о безопасности частных облачных вычислений — информации о том, когда запрос на устройстве прозрачно разгружается, или видна ли эта маршрутизация разработчику или пользователю. Для предприятий, которым необходимо документировать, где выполняется вывод данных, это является прямой проблемой соответствия требованиям.

На данный момент не вся информация доступна. Apple сообщила, что полный технический отчет с результатами тестов будет опубликован позже этим летом.

Что это значит для корпоративных архитекторов?

В регулируемых отраслях, оценивающих возможности внедрения агентного ИИ, теперь предстоит принять конкретное архитектурное решение.

Ограничения по объему оперативной памяти для агентов, устанавливаемых непосредственно на устройство, только что были сняты. Предприятия, оценивающие агенты, которые должны работать без подключения к облаку, теперь могут оценить локальный вариант с 20 миллиардами параметров. Ограничение смещается от возможностей модели к аппаратному обеспечению устройства.
Граница между частным облаком и облаком теперь является архитектурным решением, а не параметром по умолчанию. Более простые запросы остаются на устройстве; сложные задачи, выполняемые агентами, направляются в AFM 3 Cloud Pro на частных облачных вычислениях. Apple публично не указала, когда запрос перенаправляется на другое устройство или видна ли эта маршрутизация разработчику — этот пробел усложняет принятие решений по политике для организаций, которым необходимо документировать, где выполняется вывод данных.
Уровень агентного сервера зависит от Google Cloud. AFM 3 Cloud Pro работает на графических процессорах Nvidia в Google Cloud. Гарантия Private Cloud Compute обеспечивает конфиденциальность данных. Она не устраняет зависимость от Google Cloud для выполнения вычислений на стороне сервера.

AFM 3 Core Advanced предоставляет предприятиям возможность работы с 20 миллиардами параметров непосредственно на устройстве, чего не существовало до WWDC26. Возможность его масштабируемого развертывания зависит от ответов, которые Apple еще не опубликовала. Эти подробности должны быть представлены в летнем техническом отчете.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Встроенные в устройство агенты искусственного интеллекта достигли жесткого предела памяти. Новая архитектура Apple позволяет обойти это ограничение.

Как на самом деле работает архитектура

Что Apple раскрыла и что не раскрыла

Что это значит для корпоративных архитекторов?

Подпишитесь, чтобы получать самые свежие новости!

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Как на самом деле работает архитектура

Что Apple раскрыла и что не раскрыла

Что это значит для корпоративных архитекторов?

Подпишитесь, чтобы получать самые свежие новости!

Похожие записи

Похожие записи

Разломы на пути к глобальному обещанию

Amazon надеется дать толчок развитию своего инструмента для программирования искусственного интеллекта Kiro, передав его стартапам.

Компания Alphabet планирует привлечь 80 миллиардов долларов для финансирования разработки решений в области искусственного интеллекта.

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI