Вкратце

В прошлом месяце я писал о новом бенчмарке компании Mercor, измеряющем возможности агентов ИИ в решении профессиональных задач, таких как юриспруденция и корпоративный анализ. Тогда результаты были довольно плачевными: все крупные лаборатории набрали менее 25%, поэтому мы пришли к выводу, что юристы в безопасности от вытеснения ИИ, по крайней мере, пока.
Однако возможности ИИ могут сильно измениться за пару недель.
Вышедший на этой неделе релиз Anthropic Opus 4.6 потряс рейтинги: новая модель Anthropic показала результат чуть менее 30% в одноразовых испытаниях и в среднем 45% после нескольких попыток решения задачи. Примечательно, что в релиз вошло множество новых функций, связанных с агентами, включая «рои агентов», которые, возможно, помогли в решении подобных многоэтапных задач.
Тем не менее, этот результат — огромный скачок по сравнению с предыдущими передовыми показателями, и это признак того, что прогресс в разработке базовых моделей не замедляется. Генеральный директор Mercor Брендан Фуди, который был особенно впечатлен, сказал: «Резкий скачок с 18,4% до 29,8% за несколько месяцев — это невероятно».

Тридцать процентов — это всё ещё далеко от 100%, так что юристам не стоит беспокоиться о том, что на следующей неделе их заменят машины. Но их уверенность в своих силах должна быть гораздо ниже, чем в прошлом месяце!
Источник: techcrunch.com























