Благодаря новой модели рассуждений, которая по производительности соответствует ChatGPT o1, DeepSeek удалось превратить ограничения в инновации.

Сообщество искусственного интеллекта в восторге от DeepSeek R1 — новой модели рассуждений с открытым исходным кодом.
Модель была разработана китайским стартапом DeepSeek, занимающимся разработкой ИИ. По его словам, R1 соответствует или даже превосходит ChatGPT o1 от OpenAI по нескольким ключевым показателям, но при этом обходится значительно дешевле.
«Это может стать настоящим прорывом, который уравнивает возможности и станет отличным подспорьем для исследователей и разработчиков с ограниченными ресурсами, особенно из стран глобального Юга», — говорит Ханьчэн Цао, доцент кафедры информационных систем в Университете Эмори.
Успех DeepSeek ещё более впечатляет, учитывая ограничения, с которыми сталкиваются китайские компании, занимающиеся разработкой ИИ, в виде ужесточения экспортного контроля США на новейшие чипы. Однако предварительные данные показывают, что эти меры не работают так, как предполагалось. Вместо того чтобы ослабить возможности Китая в области ИИ, санкции, по всей видимости, побуждают такие стартапы, как DeepSeek, внедрять инновации, уделяя первостепенное внимание эффективности, объединению ресурсов и сотрудничеству.
По словам Цзихана Вана, бывшего сотрудника DeepSeek и нынешнего аспиранта по информатике Северо-Западного университета, для создания R1 компании DeepSeek пришлось переработать процесс обучения, чтобы снизить нагрузку на графические процессоры — разновидность, выпущенную Nvidia для китайского рынка, производительность которых ограничена половиной скорости ее топовых продуктов.
DeepSeek R1 получил высокую оценку исследователей за свою способность решать сложные задачи логического мышления, особенно в математике и программировании. Модель использует подход «цепочки мыслей», аналогичный применяемому в ChatGPT o1, что позволяет ей решать задачи, обрабатывая запросы пошагово.
Димитрис Папайлиопулос, главный научный сотрудник исследовательской лаборатории Microsoft AI Frontiers, говорит, что больше всего в R1 его поразила простота разработки. «DeepSeek стремился к точным ответам, а не к детализации каждого логического шага, что значительно сократило время вычислений при сохранении высокой эффективности», — говорит он.
Связанная история
DeepSeek также выпустила шесть уменьшенных версий R1, достаточно компактных для локального запуска на ноутбуках. Компания утверждает, что одна из них даже превосходит OpenAI o1-mini в некоторых тестах. «DeepSeek в значительной степени скопировал o1-mini и открыл его исходный код», — написал в Твиттере генеральный директор Perplexity Аравинд Шринивас. DeepSeek не ответила на запрос MIT Technology Review о комментариях.
Несмотря на ажиотаж вокруг R1, DeepSeek остаётся относительно малоизвестной компанией. Компания, расположенная в Ханчжоу (Китай), была основана в июле 2023 года Лян Вэньфэном, выпускником Чжэцзянского университета, специализирующимся на информационной и электронной инженерии. Её создателем стал хедж-фонд High-Flyer, основанный Ляном в 2015 году. Как и Сэм Альтман из OpenAI, Лян стремится создать искусственный интеллект общего назначения (ИИ) — разновидность ИИ, способную сравниться с человеком или даже превзойти его в решении ряда задач.
Обучение больших языковых моделей (LLM) требует команды высококвалифицированных исследователей и значительных вычислительных мощностей. В недавнем интервью китайскому изданию LatePost Кай-Фу Ли, опытный предприниматель и бывший глава Google China, сказал, что созданием базовых моделей, таких как ChatGPT, обычно занимаются только «игроки первого ряда», поскольку это очень ресурсоёмко.
Ситуация ещё больше осложняется экспортным контролем США на передовые полупроводники. Однако решение High-Flyer заняться разработкой ИИ напрямую связано с этими ограничениями. Задолго до ожидаемых санкций компания Liang приобрела значительный запас чипов Nvidia A100, экспорт которых в Китай сейчас запрещён. По оценкам китайского издания 36Kr, на складе компании находится более 10 000 единиц, но Дилан Патель, основатель консалтинговой компании SemiAnalysis, специализирующейся на исследованиях в области ИИ, считает, что их не менее 50 000. Осознание потенциала этого запаса для обучения ИИ побудило Liang создать DeepSeek, которая смогла использовать их в сочетании с маломощными чипами для разработки своих моделей.
Новичок в этом квартале
Технологические гиганты, такие как Alibaba и ByteDance, а также несколько стартапов с крупными инвесторами доминируют на китайском рынке искусственного интеллекта, что затрудняет конкуренцию малому и среднему бизнесу. Компании вроде DeepSeek, не планирующие привлекать финансирование, встречаются редко.
Цзыхан Ван, бывший сотрудник DeepSeek, рассказал MIT Technology Review, что во время работы в DeepSeek у него был доступ к огромным вычислительным ресурсам и ему была предоставлена свобода экспериментировать — «роскошь, которую мало кто из недавних выпускников может себе позволить в любой компании».
В интервью китайскому изданию 36Kr в июле 2024 года Лян заявил, что помимо санкций в отношении чипов, ещё одной проблемой, с которой сталкиваются китайские компании, является то, что их методы разработки ИИ, как правило, менее эффективны. «Нам [большинству китайских компаний] приходится потреблять вдвое больше вычислительной мощности для достижения тех же результатов. В сочетании с пробелами в эффективности обработки данных это может означать потребность в четырёхкратном увеличении вычислительной мощности. Наша цель — постоянно сокращать эти пробелы», — сказал он.
Но DeepSeek нашёл способы сократить использование памяти и ускорить вычисления без существенного ущерба для точности. «Команда любит превращать аппаратные проблемы в возможности для инноваций», — говорит Ван.
Сам Лян продолжает активно участвовать в исследовательском процессе DeepSeek, проводя эксперименты вместе со своей командой. «Вся команда разделяет культуру сотрудничества и преданность серьёзным исследованиям», — говорит Ван.
Открыто для всех
Помимо приоритета эффективности, китайские компании всё чаще используют принципы открытого исходного кода. Alibaba Cloud выпустила более 100 новых моделей ИИ с открытым исходным кодом, поддерживающих 29 языков и предназначенных для различных приложений, включая программирование и математику. Аналогичным образом, такие стартапы, как Minimax и 01.AI, открыли исходный код своих моделей.
Согласно докладу, опубликованному в прошлом году Китайской академией информационных и коммуникационных технологий (государственным исследовательским институтом), число крупных языковых моделей искусственного интеллекта во всем мире достигло 1328, из которых 36% созданы в Китае. Это ставит Китай на второе место по вкладу в развитие искусственного интеллекта после США.
«Это поколение молодых китайских исследователей прочно ассоциирует себя с культурой открытого исходного кода, поскольку она приносит им огромную пользу», — говорит Томас Цитонг Цао, доцент кафедры технологической политики в Университете Тафтса.
«Американский экспортный контроль фактически загнал китайские компании в угол, где им приходится действовать гораздо эффективнее, учитывая ограниченные вычислительные ресурсы», — говорит Мэтт Шихан, исследователь искусственного интеллекта в Фонде Карнеги за международный мир. «В будущем нас, вероятно, ожидает значительная консолидация, связанная с нехваткой вычислительных мощностей».
Возможно, это уже началось. Две недели назад Alibaba Cloud объявила о партнёрстве с пекинским стартапом 01.AI, основанным Кай-Фу Ли, с целью объединения исследовательских групп и создания «промышленной лаборатории больших моделей».
«Возникновение разделения труда в сфере ИИ — это энергоэффективно и естественно», — говорит Цао, профессор Тафтса. «Быстрое развитие ИИ требует от китайских компаний гибкости, чтобы выжить».
Источник: www.technologyreview.com



























