Image

Как китайская компания DeepSeek выпустила топовую модель рассуждений ИИ, несмотря на санкции США

Благодаря новой модели рассуждений, которая по производительности соответствует ChatGPT o1, DeepSeek удалось превратить ограничения в инновации.

маленькая стружка поднимается от большой стружки

Стефани Арнетт/ Обзор технологий Массачусетского технологического института | Rawpixel

Сообщество искусственного интеллекта в восторге от DeepSeek R1 — новой модели рассуждений с открытым исходным кодом.

Модель была разработана китайским стартапом DeepSeek, занимающимся разработкой ИИ. По его словам, R1 соответствует или даже превосходит ChatGPT o1 от OpenAI по нескольким ключевым показателям, но при этом обходится значительно дешевле.

«Это может стать настоящим прорывом, который уравнивает возможности и станет отличным подспорьем для исследователей и разработчиков с ограниченными ресурсами, особенно из стран глобального Юга», — говорит Ханьчэн Цао, доцент кафедры информационных систем в Университете Эмори.

Успех DeepSeek ещё более впечатляет, учитывая ограничения, с которыми сталкиваются китайские компании, занимающиеся разработкой ИИ, в виде ужесточения экспортного контроля США на новейшие чипы. Однако предварительные данные показывают, что эти меры не работают так, как предполагалось. Вместо того чтобы ослабить возможности Китая в области ИИ, санкции, по всей видимости, побуждают такие стартапы, как DeepSeek, внедрять инновации, уделяя первостепенное внимание эффективности, объединению ресурсов и сотрудничеству.

По словам Цзихана Вана, бывшего сотрудника DeepSeek и нынешнего аспиранта по информатике Северо-Западного университета, для создания R1 компании DeepSeek пришлось переработать процесс обучения, чтобы снизить нагрузку на графические процессоры — разновидность, выпущенную Nvidia для китайского рынка, производительность которых ограничена половиной скорости ее топовых продуктов.

DeepSeek R1 получил высокую оценку исследователей за свою способность решать сложные задачи логического мышления, особенно в математике и программировании. Модель использует подход «цепочки мыслей», аналогичный применяемому в ChatGPT o1, что позволяет ей решать задачи, обрабатывая запросы пошагово.

Димитрис Папайлиопулос, главный научный сотрудник исследовательской лаборатории Microsoft AI Frontiers, говорит, что больше всего в R1 его поразила простота разработки. «DeepSeek стремился к точным ответам, а не к детализации каждого логического шага, что значительно сократило время вычислений при сохранении высокой эффективности», — говорит он.

Что означает запрет Китая на добычу критически важных минералов для США? Читать далее

DeepSeek также выпустила шесть уменьшенных версий R1, достаточно компактных для локального запуска на ноутбуках. Компания утверждает, что одна из них даже превосходит OpenAI o1-mini в некоторых тестах. «DeepSeek в значительной степени скопировал o1-mini и открыл его исходный код», — написал в Твиттере генеральный директор Perplexity Аравинд Шринивас. DeepSeek не ответила на запрос MIT Technology Review о комментариях.

Несмотря на ажиотаж вокруг R1, DeepSeek остаётся относительно малоизвестной компанией. Компания, расположенная в Ханчжоу (Китай), была основана в июле 2023 года Лян Вэньфэном, выпускником Чжэцзянского университета, специализирующимся на информационной и электронной инженерии. Её создателем стал хедж-фонд High-Flyer, основанный Ляном в 2015 году. Как и Сэм Альтман из OpenAI, Лян стремится создать искусственный интеллект общего назначения (ИИ) — разновидность ИИ, способную сравниться с человеком или даже превзойти его в решении ряда задач.

Обучение больших языковых моделей (LLM) требует команды высококвалифицированных исследователей и значительных вычислительных мощностей. В недавнем интервью китайскому изданию LatePost Кай-Фу Ли, опытный предприниматель и бывший глава Google China, сказал, что созданием базовых моделей, таких как ChatGPT, обычно занимаются только «игроки первого ряда», поскольку это очень ресурсоёмко.

Ситуация ещё больше осложняется экспортным контролем США на передовые полупроводники. Однако решение High-Flyer заняться разработкой ИИ напрямую связано с этими ограничениями. Задолго до ожидаемых санкций компания Liang приобрела значительный запас чипов Nvidia A100, экспорт которых в Китай сейчас запрещён. По оценкам китайского издания 36Kr, на складе компании находится более 10 000 единиц, но Дилан Патель, основатель консалтинговой компании SemiAnalysis, специализирующейся на исследованиях в области ИИ, считает, что их не менее 50 000. Осознание потенциала этого запаса для обучения ИИ побудило Liang создать DeepSeek, которая смогла использовать их в сочетании с маломощными чипами для разработки своих моделей.

Новичок в этом квартале

Технологические гиганты, такие как Alibaba и ByteDance, а также несколько стартапов с крупными инвесторами доминируют на китайском рынке искусственного интеллекта, что затрудняет конкуренцию малому и среднему бизнесу. Компании вроде DeepSeek, не планирующие привлекать финансирование, встречаются редко.

Цзыхан Ван, бывший сотрудник DeepSeek, рассказал MIT Technology Review, что во время работы в DeepSeek у него был доступ к огромным вычислительным ресурсам и ему была предоставлена свобода экспериментировать — «роскошь, которую мало кто из недавних выпускников может себе позволить в любой компании».

В интервью китайскому изданию 36Kr в июле 2024 года Лян заявил, что помимо санкций в отношении чипов, ещё одной проблемой, с которой сталкиваются китайские компании, является то, что их методы разработки ИИ, как правило, менее эффективны. «Нам [большинству китайских компаний] приходится потреблять вдвое больше вычислительной мощности для достижения тех же результатов. В сочетании с пробелами в эффективности обработки данных это может означать потребность в четырёхкратном увеличении вычислительной мощности. Наша цель — постоянно сокращать эти пробелы», — сказал он.

Но DeepSeek нашёл способы сократить использование памяти и ускорить вычисления без существенного ущерба для точности. «Команда любит превращать аппаратные проблемы в возможности для инноваций», — говорит Ван.

Сам Лян продолжает активно участвовать в исследовательском процессе DeepSeek, проводя эксперименты вместе со своей командой. «Вся команда разделяет культуру сотрудничества и преданность серьёзным исследованиям», — говорит Ван.

Открыто для всех

Помимо приоритета эффективности, китайские компании всё чаще используют принципы открытого исходного кода. Alibaba Cloud выпустила более 100 новых моделей ИИ с открытым исходным кодом, поддерживающих 29 языков и предназначенных для различных приложений, включая программирование и математику. Аналогичным образом, такие стартапы, как Minimax и 01.AI, открыли исходный код своих моделей.

Согласно докладу, опубликованному в прошлом году Китайской академией информационных и коммуникационных технологий (государственным исследовательским институтом), число крупных языковых моделей искусственного интеллекта во всем мире достигло 1328, из которых 36% созданы в Китае. Это ставит Китай на второе место по вкладу в развитие искусственного интеллекта после США.

«Это поколение молодых китайских исследователей прочно ассоциирует себя с культурой открытого исходного кода, поскольку она приносит им огромную пользу», — говорит Томас Цитонг Цао, доцент кафедры технологической политики в Университете Тафтса.

«Американский экспортный контроль фактически загнал китайские компании в угол, где им приходится действовать гораздо эффективнее, учитывая ограниченные вычислительные ресурсы», — говорит Мэтт Шихан, исследователь искусственного интеллекта в Фонде Карнеги за международный мир. «В будущем нас, вероятно, ожидает значительная консолидация, связанная с нехваткой вычислительных мощностей».

Возможно, это уже началось. Две недели назад Alibaba Cloud объявила о партнёрстве с пекинским стартапом 01.AI, основанным Кай-Фу Ли, с целью объединения исследовательских групп и создания «промышленной лаборатории больших моделей».

«Возникновение разделения труда в сфере ИИ — это энергоэффективно и естественно», — говорит Цао, профессор Тафтса. «Быстрое развитие ИИ требует от китайских компаний гибкости, чтобы выжить».

Источник: www.technologyreview.com

✅ Найденные теги: Как, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых