DeepSWE срывает рекорды в области программирования ИИ, ставит GPT-5.5 на первое место и обнаруживает, что Клод Опус использует уязвимость в бенчмарке.

Майкл Нуньес Источник: Datacurve В течение нескольких месяцев ведущие бенчмарки для ИИ-программистов рассказывали корпоративным клиентам обнадеживающую, но вводящую в заблуждение…