Искусственный интеллект столкнулся с проблемой нехватки памяти — теперь ему нужен новый контекстный уровень.
Персонал VB
Представлено компанией Solidigm
По мере того, как задачи вывода информации эволюционируют от дискретного обмена вопросами и ответами к постоянным многоэтапным агентным системам, доступность графических процессоров перестала быть самым критическим узким местом в ИИ. Вместо этого, узкое место переместилось с вычислительных ресурсов на контекст, говорит Джефф Хартхорн, руководитель направления прикладных исследований в области ИИ в Solidigm.
«Почему управление контекстом стало основным узким местом, а не доступность графических процессоров или вычислительная эффективность, — вот вопрос 2026 года», — говорит Хартхорн. «Графические процессоры стали значительно дешевле в расчете на FLOP. Архитектуры моделей и механизмы обработки вывода стали намного эффективнее. Но то, что развивалось быстрее, чем оба этих фактора, — это контекст. Постоянное состояние, которое должно сохраняться между сессиями, развивалось даже быстрее, чем сам контекст».
Это происходит на фоне резкого увеличения контекстных окон, что делает объемы отдельных входных данных намного больше, чем раньше. Агентные системы искусственного интеллекта объединяют десятки или сотни вызовов моделей, каждый из которых генерирует состояние, которое необходимо отслеживать, а предприятия требуют, чтобы это состояние вывода сохранялось между сессиями для аудита, управления и повторного использования. Эти тенденции усиливают друг друга, увеличивая объемы контекста сверх того, на что рассчитаны существующие уровни памяти.
«Все три процесса происходят одновременно, и в совокупности они приводят к тому, что контекстные данные и контекстная память разрастаются до заоблачных высот гораздо быстрее, чем мы привыкли», — добавляет Эйс Страйкер, директор по маркетингу ИИ и экосистемы в Solidigm.
Решение заключается в создании выделенного контекстного уровня между памятью графического процессора и сетевым хранилищем больших объемов данных: это высокопроизводительный слой флэш-памяти высокой плотности, специально разработанный для хранения и обслуживания кэша типа «ключ-значение» (KV), данных для вывода, позволяющих моделям сохранять и повторно использовать контекст, а также данных для извлечения со скоростью вывода. Компания Nvidia формализовала эту архитектуру под термином CMX. Компании, занимающиеся хранением данных, включая Solidigm, разрабатывают твердотельные накопители (SSD), оптимизированные для этой рабочей нагрузки.
«Хранилище данных никогда не было первым, о чем люди задумывались при планировании развертывания корпоративной инфраструктуры», — говорит Страйкер. «Во многом это были относительно небольшие затраты по сравнению с вычислительными ресурсами, и это был товар массового потребления. Вы просто искали самый дешевый вариант за гигабайт и считали, что этого достаточно. Но теперь, если ваше хранилище не соответствует требованиям, ваша окупаемость инвестиций снижается, и это напрямую влияет на вашу прибыль».
Почему для вывода результатов ИИ требуется иная архитектура хранения данных, чем для обучения?
Архитектура хранения данных, на которой сегодня полагаются системы искусственного интеллекта, во многом унаследована от процессов обучения. Обучение происходит последовательно и преимущественно с записью, при этом данные перемещаются большими блоками в хранилище объектов и обратно. Многоуровневая структура с высокоскоростной памятью на графическом процессоре, быстрым NVMe-накопителем на сервере и хранилищем больших объемов данных по сети достаточно хорошо справляется с этой задачей.
Однако вывод данных — это совсем другое дело. Его сигнатура ввода-вывода отличается высокой детализацией, чувствительностью к задержкам и всё большей зависимостью от состояния. Данные в кэше ключ-значение и данные для извлечения имеют разные шаблоны доступа, но оба должны быстро обрабатываться и повторно использоваться при каждом взаимодействии. Ни один из них не подходит для высокоскоростной памяти графического процессора, которая дорога и физически ограничена, ни для традиционного хранилища больших объёмов данных, которое никогда не предназначалось для активных задач вывода данных.
«Архитектурный пробел, который меня сейчас интересует, находится не на вершине или внизу стека, а прямо посередине», — говорит Хартон. «Многие из компонентов, расположенных ниже памяти HBM графического процессора, выполняют задачи, для которых они изначально не были предназначены, и именно здесь сегодня происходит наиболее интересная работа над системами».
Одним из наиболее заметных симптомов этого пробела является перерасчет. На этапе вывода, на этапе предварительного заполнения, обрабатывается весь контекст, относящийся к данной сессии, прежде чем начнется генерация токенов. Когда состояние кэша ключ-значение недоступно на быстром и легкодоступном уровне, система пересчитывает его — расходуя циклы графического процессора, которые не дают нового значения.
«Значительная часть циклов графического процессора уходит на повторное заполнение памяти», — объясняет Хартон. «В течение всего этого процесса вычислений потенциально тратится вычислительная мощность на воспроизведение состояния, а не на выполнение новой работы. Если начать рассматривать проблему таким образом, использование графического процессора начинает выглядеть так, будто это отчасти проблема хранения данных».
Такое переосмысление вызывает возобновление интереса к показателю, заимствованному из сетевых технологий: полезной пропускной способности, или количеству полезных токенов на доллар, а не к количеству токенов на доллар.
Уровень контекстной памяти ИИ и принцип его работы
Реакция отрасли принимает структурные формы. Между памятью графического процессора и традиционным сетевым хранилищем появляется новый уровень, специально разработанный для хранения и предоставления контекста вывода, — уровень, отличный от накопителей внутри серверов с графическими процессорами (G3) и серверов хранения данных по сети (G4), спроектированный для максимально быстрой передачи контекстных данных обратно ускорителям.
«Если вы начинаете строительство центра обработки данных во второй половине этого года или в начале следующего, вы не можете рассматривать размещение хранилищ только в двух местах», — говорит Страйкер. «Для обработки данных на уровне контекстной памяти хранилище должно располагаться как минимум в трех местах, и это, вероятно, станет постоянной особенностью построения инфраструктуры в будущем».
Это аналогично появлению объектного хранилища как категории, которая не существовала до тех пор, пока в ней не возникла потребность в достаточном количестве рабочих нагрузок. А когда она появилась, у неё появились собственные базовые функции, соглашения об уровне обслуживания (SLA), модели ценообразования и экосистема поставщиков.
«Похоже, что категория контекстных решений развивается по схожему сценарию», — говорит Хартхорн. «Формирование категории обусловлено именно объёмным давлением, а не планом какого-либо отдельного поставщика».
Для руководителей инфраструктурных проектов это означает активное планирование нового уровня, а не его рассмотрение как необязательного. Развертывание дополнительных модулей NAND на этом уровне снижает зависимость от DRAM, которая на порядки дороже за гигабайт и ограничена как по доступности, так и по запасу тепловой мощности.
«С точки зрения эффективности ваших инвестиций, вы вкладываете меньше средств, если полагаетесь на слой SSD так, как это сейчас рекомендует и предписывает Nvidia для многих сценариев использования», — добавляет Страйкер.
Что должна обеспечивать технология Flash для поддержки вывода результатов ИИ?
Активное участие в стеке обработки данных предъявляет новые требования к технологии SSD. Задержка в худшем случае, то есть максимальная производительность накопителя, должна быть предсказуемой, а не просто высокой в среднем. Система оркестрации, распределяющая ресурсы GPU на основе ожидаемого времени отклика хранилища, не может допускать неожиданных задержек в несколько секунд. В данном случае стабильная и наблюдаемая производительность важнее, чем пиковая пропускная способность.
Помимо задержки, критически важным фактором становится плотность размещения, особенно в гипермасштабных системах. В центрах обработки данных, где ограничивающим фактором является энергопотребление, а не стоимость, ключевым показателем становится количество ватт на петабайт. Технология NAND с плавающим затвором, лежащая в основе продукции Solidigm, идеально подходит для таких расчетов. Интеграция в сеть через NVMe over Fabrics, RDMA и, в конечном итоге, поддержку CXL также имеет важное значение, учитывая жесткие ограничения по задержке в активных конвейерах вывода.
«Накопители должны обладать надежными характеристиками производительности, выходящими за рамки пропускной способности и возможности передачи максимально большого объема данных с максимально возможной скоростью, как это требовалось в процессе обучения», — говорит Хартон. «Теперь речь идет о возможности делать это очень стабильно, таким образом, чтобы это было хорошо видно людям, которые управляют этими системами и координируют их работу».
Как руководителям предприятий, отвечающим за ИИ, следует планировать контекстный уровень
Стандарты, программные примитивы и лучшие практики, разрабатываемые в настоящее время, определят, как будет функционировать инфраструктура для вывода данных в области ИИ в течение многих лет. Компания Solidigm участвует в этом процессе через организации по стандартизации, сотрудничество с партнерскими лабораториями и публикации научных исследований, что крайне важно именно потому, что эта категория все еще находится в стадии формирования.
«В ближайшие пару лет интересный вопрос заключается не в том, нужна ли инфраструктуре ИИ больше вычислительных мощностей, — говорит Хартхорн. — А в том, сможет ли она более эффективно использовать имеющиеся ресурсы. Во многом ответ на этот вопрос кроется в том уровне вычислительной мощности, который создается сегодня».
Спонсорские статьи — это контент, созданный компанией, которая либо оплачивает публикацию, либо имеет деловые отношения с VentureBeat, и они всегда четко обозначены. Для получения дополнительной информации обращайтесь по адресу sales@venturebeat.com .
Источник: venturebeat.com
Похожие записи
- Исследователи представили Self-Harness — фреймворк, позволяющий агентам искусственного интеллекта переписывать собственные правила, повышая производительность до 60%.
- IPO SpaceX показывает, что мы даже не приблизились к пику пузыря искусственного интеллекта
- Труд как коммодитис. Комодитизация труда. Информация и искусство как commodité
Оцените материал:
Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
