VentureBeat/Midjourney
Хотите получать более ценную информацию? Подпишитесь на наши еженедельные рассылки, чтобы получать только то, что важно для руководителей в сфере корпоративного ИИ, данных и безопасности. Подпишитесь сейчас
За последние несколько десятилетий мы стали свидетелями практически невообразимого прогресса в производительности и эффективности вычислений, ставшего возможным благодаря закону Мура и подкрепленному масштабируемым серийным аппаратным обеспечением и слабосвязанным программным обеспечением. Эта архитектура обеспечила доступ к онлайн-сервисам миллиардов людей по всему миру и сделала практически все знания человечества доступными нам.
Но следующая компьютерная революция потребует гораздо большего. Реализация потенциала ИИ требует кардинального изменения возможностей, значительно превосходящего достижения эпохи интернета. Чтобы добиться этого, мы, как отрасль, должны пересмотреть некоторые основы, которые лежали в основе предыдущей трансформации, и совместно внедрять инновации, чтобы переосмыслить весь технологический стек. Давайте рассмотрим движущие силы этого переворота и представим, как должна выглядеть эта архитектура.
От массового оборудования до специализированных вычислений
На протяжении десятилетий доминирующей тенденцией в вычислительной технике была демократизация вычислений посредством масштабируемых архитектур, построенных на практически идентичных серверах массового производства. Эта однородность обеспечивала гибкое распределение рабочей нагрузки и эффективное использование ресурсов. Требования искусственного интеллекта, в значительной степени зависящие от предсказуемых математических операций с большими наборами данных, обращают эту тенденцию вспять.
Сейчас мы наблюдаем решительный переход к специализированному оборудованию, включая ASIC, графические процессоры и тензорные процессоры (TPU), которые обеспечивают на порядок более высокую производительность на доллар и на ватт по сравнению с универсальными процессорами. Распространение специализированных вычислительных устройств, оптимизированных для решения более узких задач, будет иметь решающее значение для дальнейшего стремительного развития ИИ.
Масштабирование ИИ достигает предела
Ограничения мощности, рост стоимости токенов и задержки в выводе данных меняют корпоративный ИИ. Присоединяйтесь к нашему эксклюзивному салону, чтобы узнать, как обстоят дела у лучших команд:
- Превращение энергии в стратегическое преимущество
- Разработка эффективного вывода для реального увеличения пропускной способности
- Обеспечение конкурентоспособной рентабельности инвестиций с помощью устойчивых систем ИИ
Забронируйте свое место, чтобы оставаться впереди : https://bit.ly/4mwGngO
За пределами Ethernet: развитие специализированных соединений
Эти специализированные системы часто требуют взаимодействия «все со всеми» с пропускной способностью порядка терабит в секунду и задержками порядка наносекунд, приближающимися к скорости локальной памяти. Современные сети, в основном основанные на стандартных коммутаторах Ethernet и протоколах TCP/IP, плохо справляются с такими экстремальными требованиями.
В результате, для масштабирования рабочих нагрузок искусственного интеллекта нового поколения на обширные кластеры специализированных ускорителей мы наблюдаем рост использования специализированных межсоединений, таких как ICI для TPU и NVLink для GPU. Эти специализированные сети отдают приоритет прямым передачам данных из памяти в память и используют выделенное оборудование для ускорения обмена информацией между процессорами, эффективно обходя накладные расходы, характерные для традиционных многоуровневых сетевых стеков.
Этот шаг в сторону тесно интегрированных вычислительно-ориентированных сетей будет иметь решающее значение для устранения узких мест в коммуникациях и эффективного масштабирования следующего поколения искусственного интеллекта.
Разрушение стены памяти
На протяжении десятилетий рост производительности вычислений опережал рост пропускной способности памяти. Хотя такие технологии, как кэширование и стековая SRAM, частично смягчили этот эффект, интенсивный характер обработки данных в ИИ лишь усугубляет проблему.
Неутолимая потребность в обслуживании всё более мощных вычислительных устройств привела к появлению памяти с высокой пропускной способностью (HBM), которая размещает DRAM непосредственно на корпусе процессора для повышения пропускной способности и снижения задержек. Однако даже HBM сталкивается с фундаментальными ограничениями: физический периметр чипа ограничивает общий поток данных, а передача больших объёмов данных на терабитных скоростях создаёт значительные энергетические ограничения.
Эти ограничения подчеркивают критическую потребность в более высокоскоростном подключении и безотлагательность прорывов в архитектуре обработки данных и памяти. Без этих инноваций наши мощные вычислительные ресурсы будут простаивать в ожидании данных, что существенно ограничит эффективность и масштабируемость.
От серверных ферм до систем высокой плотности
Современные передовые модели машинного обучения (МО) часто опираются на тщательно организованные вычисления, охватывающие десятки и сотни тысяч идентичных вычислительных элементов, что потребляет огромную мощность. Эта тесная связь и точная синхронизация на уровне микросекунд предъявляют новые требования. В отличие от систем, поддерживающих гетерогенность, для вычислений МО требуются однородные элементы; смешение поколений создаст узкие места для более быстрых устройств. Коммуникационные пути также должны быть заранее спланированы и высокоэффективны, поскольку задержки в одном элементе могут остановить весь процесс.
Эти экстремальные требования к координации и мощности обуславливают необходимость беспрецедентной плотности вычислений. Минимизация физического расстояния между процессорами становится критически важным фактором для снижения задержек и энергопотребления, открывая путь новому классу сверхплотных систем искусственного интеллекта.
Это стремление к предельной плотности и жестко скоординированным вычислениям фундаментально меняет оптимальную конструкцию инфраструктуры, требуя радикального переосмысления физических схем и динамического управления питанием для предотвращения узких мест в производительности и максимального повышения эффективности.
Новый подход к отказоустойчивости
Традиционная отказоустойчивость основана на избыточности слабо связанных систем для достижения высокой продолжительности бесперебойной работы. Вычисления на основе машинного обучения требуют иного подхода.
Во-первых, масштаб вычислений делает избыточное выделение ресурсов слишком затратным. Во-вторых, обучение модели — это строго синхронизированный процесс, в котором один сбой может каскадно повлиять на тысячи процессоров. Наконец, современное оборудование для машинного обучения часто выходит за рамки современных технологий, что потенциально приводит к более высокому уровню отказов.
Вместо этого новая стратегия предполагает частое создание контрольных точек (сохранение состояния вычислений) в сочетании с мониторингом в реальном времени, быстрым выделением резервных ресурсов и быстрым перезапуском. Базовая архитектура оборудования и сети должна обеспечивать быстрое обнаружение сбоев и бесперебойную замену компонентов для поддержания производительности.
Более устойчивый подход к энергетике
Сегодня и в перспективе доступ к электропитанию является ключевым узким местом для масштабирования вычислений ИИ. В то время как традиционное проектирование систем ориентировано на максимальную производительность на кристалл, нам необходимо перейти к сквозному проектированию, ориентированному на достижение масштабируемой производительности на ватт. Этот подход крайне важен, поскольку он учитывает слаженную работу всех компонентов системы — вычислительных, сетевых, оперативных, систем питания, охлаждения и отказоустойчивости — для поддержания производительности. Оптимизация отдельных компонентов по отдельности существенно снижает общую эффективность системы.
Стремясь к повышению производительности, мы стремимся к увеличению энергопотребления отдельных чипов, зачастую превышающему охлаждающую способность традиционных центров обработки данных с воздушным охлаждением. Это требует перехода на более энергоёмкие, но в конечном счёте более эффективные решения для жидкостного охлаждения и фундаментальной перестройки инфраструктуры охлаждения центров обработки данных.
Помимо охлаждения, традиционные резервные источники питания, такие как двухканальные источники питания и дизель-генераторы, приводят к значительным финансовым затратам и замедляют выход на полную мощность. Вместо этого нам необходимо объединять различные источники питания и накопители в масштабе нескольких гигаватт, управляемые контроллерами микросетей в режиме реального времени. Используя гибкость рабочей нагрузки ИИ и географическое распределение, мы можем обеспечить большую производительность без дорогостоящих систем резервного копирования, которые требуются всего несколько часов в год.
Эта развивающаяся модель электропитания позволяет в режиме реального времени реагировать на доступность электроэнергии — от остановки вычислительных процессов при её дефиците до применения таких передовых методов, как масштабирование частоты для рабочих нагрузок, допускающих снижение производительности. Всё это требует телеметрии в режиме реального времени и управления на уровнях, недоступных в настоящее время.
Безопасность и конфиденциальность: встроенные, а не прикрепленные
Важнейший урок эпохи интернета заключается в том, что безопасность и конфиденциальность невозможно эффективно внедрить в существующую архитектуру. Угрозы со стороны злоумышленников будут становиться всё более изощрёнными, требуя встраивания защиты пользовательских данных и интеллектуальной собственности в саму структуру инфраструктуры машинного обучения. Важно отметить, что ИИ в конечном итоге расширит возможности злоумышленников. Это, в свою очередь, означает, что мы должны обеспечить, чтобы ИИ одновременно усиливал нашу защиту.
Это включает в себя сквозное шифрование данных, надежное отслеживание происхождения данных с проверяемыми журналами доступа, аппаратные границы безопасности для защиты конфиденциальных вычислений и сложные системы управления ключами. Интеграция этих мер безопасности с самого начала будет иметь решающее значение для защиты пользователей и сохранения их доверия. Мониторинг в режиме реального времени телеметрических данных и журналов, объем которых, вероятно, составит петабиты в секунду, станет ключом к выявлению и нейтрализации векторов атак, имитирующих поиск иголки в стоге сена, в том числе исходящих от внутренних угроз.
Скорость как стратегический императив
Ритм модернизации оборудования радикально изменился. В отличие от постепенного развития традиционной инфраструктуры, стойки за стойкой, развёртывание суперкомпьютеров МО требует принципиально иного подхода. Это связано с тем, что вычисления МО сложно реализовать в гетерогенных системах; вычислительный код, алгоритмы и компилятор должны быть специально настроены для каждого нового поколения оборудования, чтобы полностью использовать его возможности. Темпы инноваций также беспрецедентны: зачастую производительность нового оборудования увеличивается в два и более раз из года в год.
Поэтому вместо поэтапных обновлений теперь требуется массовое и одновременное внедрение однородного оборудования, часто в целых центрах обработки данных. Учитывая, что ежегодное обновление оборудования обеспечивает целочисленный прирост производительности, способность быстро запустить эти колоссальные ИИ-системы имеет первостепенное значение.
Целью должно быть сокращение сроков от проектирования до полного развертывания более 100 000 чипов, что позволит повысить эффективность и одновременно обеспечить прорывные алгоритмы. Это требует радикального ускорения и автоматизации каждого этапа, требуя для этих инфраструктур модели, аналогичной производственной. От архитектуры до мониторинга и ремонта, каждый этап должен быть оптимизирован и автоматизирован для беспрецедентного масштабирования возможностей каждого поколения оборудования.
Встречайте момент: коллективные усилия по созданию инфраструктуры искусственного интеллекта нового поколения
Появление искусственного интеллекта нового поколения знаменует собой не просто эволюцию, а революцию, требующую радикального переосмысления нашей вычислительной инфраструктуры. Предстоящие задачи — в области специализированного оборудования, взаимосвязанных сетей и устойчивой эксплуатации — значительны, но столь же велик и преобразующий потенциал искусственного интеллекта, который он обеспечит.
Легко заметить, что в ближайшие несколько лет наша вычислительная инфраструктура станет неузнаваемой, а это значит, что мы не можем просто улучшить уже разработанные схемы. Вместо этого мы должны коллективно, от исследований до промышленности, начать работу по переосмыслению требований к вычислениям ИИ с самых первых принципов, создавая новую схему для базовой глобальной инфраструктуры. Это, в свою очередь, приведёт к появлению принципиально новых возможностей – от медицины до образования и бизнеса – беспрецедентного масштаба и эффективности.
Амин Вахдат — вице-президент и генеральный менеджер по машинному обучению, системам и облачному ИИ в Google Cloud.
Источник: venturebeat.com



























