Парусник в море на фоне звезд и линий, схематичное изображение навигации.

Это самый неправильно понимаемый график в области искусственного интеллекта.

Некоторым «график временного горизонта» METR указывает на то, что утопия в мире искусственного интеллекта — или апокалипсис — уже близка. Истина же гораздо сложнее.

0a23a20e73ff6b09dc527d2362ad2c55

Стефани Арнетт/MIT Technology Review | Общественное достояние (корабль)

MIT Technology Review объясняет: Наши авторы помогут вам разобраться в сложном и запутанном мире технологий и понять, что нас ждет в будущем. Больше статей из этой серии вы можете прочитать здесь.

Каждый раз, когда OpenAI, Google или Anthropic выпускают новую перспективную модель обработки больших данных, сообщество ИИ затаивает дыхание. И выдохнуть оно не может до тех пор, пока METR, некоммерческая организация, занимающаяся исследованиями в области ИИ (расшифровывается как «Оценка моделей и исследование угроз»), не обновляет ставший уже культовым график, сыгравший важную роль в дискуссиях об ИИ с момента его первого выпуска в марте прошлого года. График показывает, что определенные возможности ИИ развиваются экспоненциально, а более поздние версии моделей превзошли эту и без того впечатляющую тенденцию.

Это, безусловно, относится к Claude Opus 4.5, последней версии самой мощной модели Anthropic, выпущенной в конце ноября. В декабре METR объявила, что Opus 4.5, по-видимому, способен самостоятельно выполнить задачу, на выполнение которой человеку потребовалось бы около пяти часов — значительное улучшение по сравнению с тем, что предсказывала даже экспоненциальная тенденция. Один из исследователей безопасности Anthropic написал в Твиттере, что в свете этих результатов он изменит направление своих исследований; другой сотрудник компании просто написал: «Мама, приезжай за мной, мне страшно».

1
Источник: METR.ORG

Но правда гораздо сложнее, чем могут показаться эти драматические ответы. Во-первых, оценки METR возможностей конкретных моделей содержат значительные погрешности. Как прямо указала METR в отношении X, Opus 4.5 может регулярно выполнять только задачи, на выполнение которых человеку требуется около двух часов, или же он может успешно справляться с задачами, на выполнение которых человеку требуется до 20 часов. Учитывая неопределенность, присущую этому методу, невозможно было знать наверняка.

«Многие люди дают слишком много интерпретаций этому графику», — говорит Сидни фон Аркс, сотрудник технического отдела METR.

В более фундаментальном смысле, график METR не измеряет возможности ИИ в целом и не претендует на это. Для построения графика METR тестирует модели в основном на задачах программирования, оценивая сложность каждой из них путем измерения или оценки времени, необходимого человеку для ее выполнения — показатель, который не все принимают. Claude Opus 4.5, возможно, способен выполнять определенные задачи, на выполнение которых человеку требуется пять часов, но это не означает, что он хоть сколько-нибудь близок к замене человека.

Организация METR была основана для оценки рисков, связанных с передовыми системами искусственного интеллекта. Хотя она наиболее известна благодаря графику экспоненциального тренда, она также сотрудничала с компаниями, занимающимися ИИ, для более детальной оценки их систем и опубликовала несколько других независимых исследовательских проектов, включая широко освещаемое исследование июля 2025 года, предполагающее, что помощники в программировании на основе ИИ могут фактически замедлять работу разработчиков программного обеспечения.

Однако экспоненциальный график создал репутацию METR, и, похоже, у организации сложные отношения с зачастую восторженной реакцией на этот график. В январе Томас Ква, один из ведущих авторов статьи, представившей его, написал в блоге ответ на некоторые критические замечания и разъяснил его ограничения, а в настоящее время METR работает над более подробным документом с часто задаваемыми вопросами. Но Ква не оптимистичен в отношении того, что эти усилия существенно изменят дискурс. «Я думаю, что машина шумихи, по сути, что бы мы ни делали, просто уберет все оговорки», — говорит он.

Тем не менее, команда METR считает, что этот график может многое рассказать о траектории развития ИИ. «Ни в коем случае не стоит связывать свою жизнь с этим графиком», — говорит фон Аркс. «Но также, — добавляет она, — я уверена, что эта тенденция сохранится».

Сможем ли мы решить кризис оценки в сфере искусственного интеллекта? Читайте далее.

Одна из сложностей с графиком METR заключается в том, что он гораздо сложнее, чем кажется. Ось X достаточно проста: она отслеживает дату выпуска каждой модели. Но вот ось Y — вот где начинаются сложности. Она фиксирует «временной горизонт» каждой модели, необычный показатель, созданный METR, который, по словам Ква и фон Аркса, часто неправильно понимается.

Чтобы точно понять, что такое временные горизонты модели, полезно знать всю работу, которую команда METR проделала для их расчета. Сначала команда METR собрала набор задач, начиная от быстрых вопросов с несколькими вариантами ответа и заканчивая подробными задачами по программированию — все они так или иначе были связаны с разработкой программного обеспечения. Затем они попросили программистов выполнить большинство из этих задач и оценили время, затраченное ими на их выполнение. Таким образом, они установили для каждой задачи базовое время, необходимое для выполнения человеком. Некоторые задачи заняли у экспертов всего несколько секунд, в то время как другие потребовали нескольких часов.

Когда исследователи из METR протестировали большие языковые модели на наборе задач, они обнаружили, что продвинутые модели с легкостью справлялись с быстрыми задачами, но по мере того, как модели пытались выполнять задачи, на выполнение которых людям требовалось все больше времени, их точность начинала снижаться. На основе производительности модели исследователи рассчитали точку на временной шкале задач, выполняемых людьми, в которой модель успешно выполняла бы около 50% задач. Эта точка называется временным горизонтом модели.

Все эти подробности содержатся в сообщении в блоге и научной статье, опубликованных METR вместе с оригинальным графиком временного горизонта. Однако график METR часто распространяется в социальных сетях без этого контекста, и поэтому истинное значение метрики временного горизонта может затеряться в потоке информации. Одно из распространенных заблуждений заключается в том, что числа по оси Y графика — например, около пяти часов для Claude Opus 4.5 — представляют собой продолжительность времени, в течение которого модели могут работать независимо. Это не так. Они показывают, сколько времени требуется людям для выполнения задач, которые модель может успешно выполнить. Ква так часто сталкивался с этой ошибкой, что специально исправил ее в самом начале своего недавнего сообщения в блоге, и когда его спросили, какую информацию он добавит к версиям графика, распространяемым в интернете, он сказал, что будет включать слово «человек» всякий раз, когда упоминается время выполнения задачи.

Несмотря на всю сложность и распространенные заблуждения относительно концепции временного горизонта, в ней есть определенный смысл: модель с горизонтом в один час может автоматизировать некоторые незначительные части работы инженера-программиста, в то время как модель с горизонтом в 40 часов потенциально может самостоятельно выполнить работу, занимающую несколько дней. Однако некоторые эксперты ставят под сомнение эффективность показателя времени, затрачиваемого людьми на выполнение задач, для количественной оценки возможностей ИИ. «Я не думаю, что это обязательно само собой разумеющееся, что если что-то занимает больше времени, то это будет более сложная задача», — говорит Иниолува Дебора Раджи, аспирантка Калифорнийского университета в Беркли, изучающая оценку моделей.

Великая коррекция ажиотажа вокруг ИИ в 2025 году. Читать далее.

Фон Аркс говорит, что она тоже изначально скептически относилась к использованию временного горизонта в качестве критерия оценки. Ее убедили результаты анализа, проведенного ею и ее коллегами. Когда они рассчитали 50%-ный временной горизонт для всех основных моделей, доступных в начале 2025 года, и затем нанесли каждую из них на график, они увидели, что временные горизонты для моделей высшего уровня со временем увеличиваются, и, более того, темпы развития ускоряются. Примерно каждые семь месяцев временной горизонт удваивался, что означает, что самые продвинутые модели могли выполнять задачи, которые раньше занимали у людей девять секунд в середине 2020 года, 4 минуты в начале 2023 года и 40 минут в конце 2024 года. «Я могу сколько угодно строить теории о том, имеет ли это смысл, но тенденция очевидна», — говорит фон Аркс.

Именно эта драматическая закономерность сделала сюжет METR таким блокбастером. Многие узнали о нем, прочитав «Искусственный интеллект 2027» — вирусную научно-фантастическую историю, сочетающую в себе количественный прогноз, согласно которому сверхинтеллектуальный ИИ может уничтожить человечество к 2030 году. Авторы «Искусственного интеллекта 2027» основывали некоторые из своих прогнозов на сюжете METR и широко цитировали его. По словам фон Аркса: «Немного странно, когда многие знакомы с вашей работой в таком довольно субъективном ключе».

Конечно, многие люди ссылаются на схему METR, не представляя себе масштабных смертей и разрушений. Для некоторых сторонников ИИ экспоненциальный рост указывает на то, что ИИ вскоре положит начало эре радикального экономического роста. Например, венчурная фирма Sequoia Capital недавно опубликовала статью под названием «2026: Это ИИ общего назначения», в которой использовала схему METR, чтобы доказать, что ИИ, способный действовать как сотрудник или подрядчик, скоро появится. «Провокация заключалась в том, чтобы спросить: „Что вы будете делать, когда ваши планы будут измеряться столетиями?“», — говорит Соня Хуанг, генеральный партнер Sequoia и один из авторов статьи.

Однако тот факт, что модель достигает часового временного горизонта на графике METR, не означает, что она может заменить один час работы человека в реальном мире. Во-первых, задачи, на которых оцениваются модели, не отражают сложность и неразбериху реальной работы. В своем оригинальном исследовании Ква, фон Аркс и их коллеги количественно оценивают то, что они называют «неразберихой» каждой задачи, по таким критериям, как знание моделью точного способа оценки и возможность легко начать заново в случае ошибки (для неразберихи ответ на оба вопроса будет отрицательным). Они обнаружили, что модели заметно хуже справляются с неразберихой, хотя общая тенденция к улучшению сохраняется как для неразберихи, так и для неразберихи.

Даже самые сложные задачи, рассмотренные METR, не могут дать много информации о способности ИИ справляться с большинством задач, поскольку график почти полностью основан на задачах программирования. «Модель может улучшить свои навыки программирования, но она не станет волшебным образом лучше во всем остальном», — говорит Дэниел Канг, доцент кафедры компьютерных наук в Университете Иллинойса в Урбана-Шампейн. В последующем исследовании Ква и его коллеги обнаружили, что временные горизонты для задач в других областях также, по-видимому, имеют экспоненциальную траекторию, но эта работа была гораздо менее формальной.

Несмотря на эти ограничения, многие восхищаются исследованиями этой группы. «Исследование METR — одно из самых тщательно спланированных исследований в литературе подобного рода», — сказал мне Канг. Даже Гэри Маркус, бывший профессор Нью-Йоркского университета и профессиональный ворчун, получивший степень магистра права, в своем блоге назвал большую часть работы, проделанной для создания этого сюжета, «потрясающей».

Некоторые люди, несомненно, будут и дальше воспринимать график METR как предсказание нашей катастрофы, вызванной искусственным интеллектом, но на самом деле это нечто гораздо более банальное: тщательно разработанный научный инструмент, который подкрепляет интуитивное представление людей о прогрессе ИИ конкретными цифрами. Как с готовностью согласятся сотрудники METR, график далек от совершенства. Но в новой и быстро развивающейся области даже несовершенные инструменты могут иметь огромную ценность.

«Это группа людей, которые изо всех сил пытаются создать метрику в условиях множества ограничений. Она глубоко несовершенна во многих отношениях», — говорит фон Аркс. «Но я также считаю, что это одна из лучших разработок в своем роде».

Источник: www.technologyreview.com

✅ Найденные теги: График, искусственный интеллект, новости, Понимание, Это

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Залитый солнцем лес с деревьями и болотистой водой, покрытой зелёной растительностью.
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.
Деревянный минималистичный сундук с подсветкой в интерьере.
Обложка отчета о преодолении разрыва в операционном ИИ от MIT Technology Review.
Твит о разработке в 2026: выполнение сложных задач до пробуждения США, чтобы избежать проблем с ИИ.
Прозрачный раствор в бутылочке с черной крышкой, химическая формула на этикетке.
Диаграмма ложной идентичности: реальность и самозванец, высокие и низкие частоты.
Изображение крупным планом дрона с логотипом Anduril.
ideipro logotyp
Image Not Found
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.

Цифровая камера OPT NeoFilm 100 в формате плёнки

Компактная камера OPT NeoFilm 100 выполнена в виде классической 35-мм плёнки, но внутри скрывается не аналоговый механизм, а цифровая «начинка», способная снимать фото и видео.  Камера оснащена 1-мегапиксельным сенсором, который позволяет получать изображения с разрешением до 3…

Мар 5, 2026
Деревянный минималистичный сундук с подсветкой в интерьере.

«Умная» кровать-трансформер Roll

Хорватский дизайнер Лука Булян разработал проект складной кровати Roll, которая по нажатию кнопки сворачивается в аккуратный деревянный шкаф. Главная идея строится на принципе ежедневного скручивания матраса без потери его свойств. Конструкция оснащена тихим электродвигателем и плавным механизмом…

Мар 5, 2026
Обложка отчета о преодолении разрыва в операционном ИИ от MIT Technology Review.

Преодоление разрыва в операционном применении ИИ

Интеграция в масштабах всего предприятия используется для распространения современных автоматизированных процессов на завтрашние рабочие процессы, осуществляемые агентами. Трансформационный потенциал ИИ уже хорошо известен. Примеры его применения в корпоративной среде набирают обороты, и организации переходят от пилотных проектов…

Мар 5, 2026
Прозрачный раствор в бутылочке с черной крышкой, химическая формула на этикетке.

Ученые усовершенствовали метод получения промышленного спирта

Полученный α-кумиловый спирт © Елена Редина. Ученые разработали новый метод получения α-кумилового спирта — ключевого продукта для производства полимеров, косметики и моющих средств. Этот спирт также служит основой для получения вещества, придающего пластикам прочность и устойчивость к…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых