Арендаторы графических процессоров играют в кремниевую лотерею.

Думаете, одна видеокарта очень похожа на другую? Подумайте ещё раз. Оказывается, производительность чипов одной и той же модели удивительно сильно варьируется. Это может превратить аренду времени на видеокарте у облачного провайдера в настоящую лотерею, как показывают исследования Колледжа Уильяма и Мэри, лаборатории Джефферсона и компании Silicon Data.
«Это называется кремниевой лотереей», — говорит Кармен Ли, основатель и генеральный директор компании Silicon Data, которая отслеживает цены на аренду графических процессоров и проводит сравнительный анализ производительности облачных вычислений.
О существовании «кремниевой лотереи» известно как минимум с 2022 года, когда исследователи из Университета Висконсина связали её с колебаниями производительности суперкомпьютеров, зависящих от графических процессоров. Ли и её коллеги предположили, что этот эффект будет ещё более выраженным для клиентов облачных сервисов, использующих искусственный интеллект.
Производительность различных моделей графических процессоров в облачной среде различается.

Поэтому они запустили 6800 экземпляров теста производительности индексной компании на 3500 случайно выбранных графических процессорах, используемых 11 поставщиками облачных вычислений. Эти 3500 графических процессоров представляли 11 моделей Nvidia, самой продвинутой из которых была Nvidia H200 SXM. (Команда не просто критиковала Nvidia; этот гигант в сфере графических процессоров занимает большую часть рынка аренды облачных ресурсов.)
Тест производительности, называемый SiliconMark, призван дать представление о способности графического процессора выполнять большие языковые модели (LLM). Он проверяет производительность 16-битных вычислений с плавающей запятой, измеряемую в триллионах операций в секунду, и пропускную способность внутренней памяти графического процессора, измеряемую в гигабайтах в секунду. Результаты показали, что производительность вычислений различалась для всех моделей, но для 259 графических процессоров H100 PCIe разница достигала 34,5 процента, а пропускная способность памяти 253 графических процессоров H200 SXM — 38 процентов.

Различия в способах охлаждения графического процессора, конфигурации компьютеров облачными операторами и интенсивности использования чипа могут влиять на производительность даже идентичных чипов. Однако анализ компании Silicon Data показал, что настоящей причиной являются различия в самих чипах, вероятно, из-за производственных проблем.
Исследователи утверждают, что подобная случайность имеет реальные финансовые последствия, поскольку существует вероятность того, что более дорогой и продвинутый графический процессор не обеспечит лучшую производительность, чем более старая модель чипа.
Что же следует делать арендаторам графических процессоров? «Наиболее практичный подход — это провести сравнительный анализ производительности фактически предоставляемого им оборудования», — говорит Джейсон Корник, руководитель отдела инфраструктуры в Silicon Data. «Запуск инструмента для сравнительного анализа [например, SiliconMark] позволяет им сравнить производительность конкретного экземпляра с более широким массивом данных».

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.