Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

Ахиллесова пята искусственного интеллекта — Головоломки, которые люди решают за считанные секунды, Часто не поддаются решению Машин

Июл 18, 2025 0

Узнайте, почему некоторые головоломки ставят в тупик сверхразумный искусственный интеллект, но легки для людей, что это говорит о стремлении к созданию настоящего искусственного интеллекта общего назначения и почему видеоигры — это следующий рубеж

Автор: Дени Эллис Бешар под редакцией Дина Виссера

трехмерное изображение человеческого мозга в пикселях, общая концепция искусственного интеллекта

Существует множество способов проверить интеллектуальность искусственного интеллекта- плавность речи, понимание прочитанного или захватывающая дух сложная физика. Но некоторые тесты, которые, скорее всего, поставят в тупик ИИ, люди считают относительно простыми и даже занимательными. Хотя ИИ все чаще преуспевают в задачах, требующих высокого уровня знаний человека, это не означает, что они близки к достижению общего искусственного интеллекта, или AGI. AGI требует, чтобы ИИ мог получать очень небольшое количество информации и использовать ее для обобщения и адаптации к совершенно новым ситуациям. Эта способность, которая является основой для обучения человека, остается сложной для ИИ.

Одним из тестов, предназначенных для оценки способности ИИ к обобщению, является корпус абстракций и рассуждений, или ARC: коллекция крошечных головоломок с цветными сетками, в которых игроку предлагается вывести скрытое правило и затем применить его к новой сетке. Разработанный исследователем искусственного интеллекта Франсуа Шолле в 2019 году, он лег в основу некоммерческой программы ARC Prize Foundation, которая проводит тестирование — теперь это отраслевой эталон, используемый всеми основными моделями искусственного интеллекта. Организация также разрабатывает новые тесты и регулярно использует два из них (ARC-AGI-1 и его более сложный преемник ARC-AGI-2). На этой неделе фонд запускает программу ARC-AGI-3, которая специально разработана для тестирования агентов с искусственным интеллектом и основана на том, чтобы заставить их играть в видеоигры.

Scientific American поговорил с президентом фонда ARC Prize, исследователем искусственного интеллекта и предпринимателем Грегом Камрадтом, чтобы понять, как эти тесты оценивают ИИ, что они говорят нам о потенциале AGI и почему они часто являются сложными для моделей глубокого обучения, хотя многие люди, как правило, находят их относительно простыми. Ссылки на тесты приведены в конце статьи.

О поддержке научной журналистики

Если вам понравилась эта статья, подумайте о том, чтобы поддержать нашу журналистику, отмеченную наградами, подписавшись на нее. Приобретая подписку, вы помогаете обеспечить будущее впечатляющих историй об открытиях и идеях, формирующих наш современный мир.

[Ниже приводится отредактированная стенограмма интервью.]

Какое определение интеллекта соответствует ARC-AGI-1?

Наше определение интеллекта — это ваша способность узнавать новое. Мы уже знаем, что искусственный интеллект может побеждать в шахматах. Мы знаем, что он может победить в Го. Но эти модели нельзя распространить на новые области; они не могут пойти и выучить английский. Итак, Франсуа Шолле разработал тест под названием ARC-AGI — он учит вас мини-навыкам в вопросе, а затем просит вас продемонстрировать этот мини-навык. По сути, мы обучаем чему-то и просим вас повторить навык, который вы только что освоили. Таким образом, тест измеряет способность модели к обучению в узкой области. Но мы утверждаем, что он не измеряет AGI, поскольку все еще находится в ограниченной области [в которой обучение применимо только к ограниченной области]. Это показатель того, что ИИ может обобщать, но мы не утверждаем, что это AGI.

Как вы здесь определяете AGI?

Я смотрю на это двумя способами. Первый — более технологичный, а именно: «Может ли искусственная система сравниться по эффективности обучения с человеческой?» Я имею в виду, что после рождения люди узнают много нового, помимо своих обучающих данных. На самом деле, у них на самом деле нет данных об обучении, кроме нескольких эволюционных предпосылок. Итак, мы учимся говорить по-английски, мы учимся водить машину, мы учимся ездить на велосипеде — все это выходит за рамки наших тренировочных данных. Это называется обобщением. Когда вы можете делать что-то, выходящее за рамки того, чему вас сейчас обучали, мы называем это интеллектом. Альтернативное определение УЧИ, которое мы используем, — это когда мы больше не можем решать проблемы, с которыми могут справиться люди, а ИИ не может — вот когда у нас есть УЧИ. Это определение, основанное на наблюдениях. Обратная сторона также верна, и это до тех пор, пока премия ARC или человечество в целом все еще могут находить проблемы, с которыми могут справиться люди, но не искусственный интеллектне можем, тогда у нас нет УЧИ. Одним из ключевых факторов, влияющих на бенчмарк François Chollet, является то, что мы тестируем на нем людей, и среднестатистический человек может выполнять эти задачи и решать эти проблемы, но ИИ по-прежнему испытывает трудности с этим. Причина, по которой это так интересно, заключается в том, что некоторые продвинутые ИИ, такие как Grok, могут сдать любой экзамен на уровне выпускника или делать все эти безумные вещи, но это требует острого интеллекта. Он все еще не обладает способностью к обобщению, присущей человеку. И это то, что показывает этот тест.

Чем ваши критерии отличаются от тех, которые используются другими организациями?

Одна из особенностей, которая отличает нас, заключается в том, что мы требуем, чтобы наш тест был доступен людям. Это противоречит другим критериям, в которых они создают проблемы «Доктор философии плюс плюс плюс». Мне не нужно говорить, что искусственный интеллект умнее меня — я и так знаю, что OpenAI o3 может многое делать лучше меня, но у него нет человеческих способностей к обобщениям. Это то, что мы измеряем, поэтому нам нужно протестировать людей. На самом деле мы протестировали 400 человек с помощью ARC-AGI-2. Мы собрали их в комнате, снабдили компьютерами, провели демографический скрининг, а затем провели тест. Средний показатель успеваемости по ARC-AGI-2 составил 66 процентов. Однако в совокупности обобщенные ответы от пяти до 10 человек будут содержать правильные ответы на все вопросы теста ARC2.

Что делает этот тест сложным для искусственного интеллекта и относительно простым для людей?

Есть две вещи. Люди невероятно эффективны в обучении на примере, а это значит, что они могут взглянуть на проблему и, возможно, с помощью одного или двух примеров приобрести мини-навык или трансформацию, а затем пойти и осуществить это. Алгоритм, который работает в голове человека, на порядки лучше и эффективнее того, что мы наблюдаем с помощью искусственного интеллекта прямо сейчас.

В чем разница между ARC-AGI-1 и ARC-AGI-2?

Итак, ARC-AGI-1, Франсуа Шолле, создал сам. Это было около 1000 заданий. Это было в 2019 году. По сути, он создал минимально возможную версию, чтобы измерить обобщение, и она продержалась пять лет, потому что глубокое обучение вообще не могло ее затронуть. Это было даже близко не так. Затем в 2024 году OpenAI выпустила reasoning models, которые начали продвигаться вперед, что продемонстрировало постепенные изменения в возможностях ИИ. Затем, когда мы перешли к ARC-AGI-2, мы немного углубились в изучение того, что может сделать человек, а чего не может искусственный интеллект. Для решения каждой задачи требуется немного больше планирования. Таким образом, вместо того, чтобы решать задачи в течение пяти секунд, люди могут справиться с ними за минуту или две. Правила более сложные, а таблицы больше, поэтому вам нужно быть более точным в своем ответе, но это более или менее та же концепция…. Сейчас мы запускаем предварительный просмотр для разработчиков ARC-AGI-3, который полностью отличается от этого формата. Новый формат будет интерактивным. Так что думайте об этом скорее как о тестировании агентов.

Как ARC-AGI-3 будет тестировать агенты по-другому по сравнению с предыдущими тестами?

Если подумать о повседневной жизни, то мы редко принимаем решения без учета состояния. Когда я говорю «без сохранения состояния», я имею в виду просто вопрос и ответ. Сейчас все тесты в той или иной степени являются тестами без сохранения состояния. Если вы зададите языковой модели вопрос, она даст вам единственный ответ. Есть много такого, что вы не можете протестировать с помощью теста без сохранения состояния. Вы не можете протестировать планирование. Вы не можете протестировать исследование. Вы не можете протестировать интуитивное понимание вашей среды или целей, которые с этим связаны. Итак, мы создаем 100 новых видеоигр, которые будем использовать для тестирования людей, чтобы убедиться, что люди могут в них играть, потому что это основа для нашего теста. А затем мы собираемся внедрить ИИ в эти видеоигры и посмотреть, смогут ли они понять эту среду, которую они никогда раньше не видели. На сегодняшний день, во время нашего внутреннего тестирования, у нас не было ни одного ИИ, способного пройти хотя бы один уровень в одной из игр.

Можете ли вы описать здесь видеоигры?

Каждая «среда» или видеоигра представляет собой двумерную головоломку на основе пикселей. Эти игры структурированы в виде отдельных уровней, каждый из которых предназначен для обучения игрока (человека или искусственного интеллекта) определенному мини-навыку. Чтобы успешно пройти уровень, игрок должен продемонстрировать владение этим навыком, выполнив запланированную последовательность действий.

Чем использование видеоигр для тестирования AGI отличается от способов, которыми видеоигры ранее использовались для тестирования систем искусственного интеллекта?

Видеоигры уже давно используются в качестве эталонов в исследованиях искусственного интеллекта, и игры Atari являются популярным примером. Однако традиционные тесты видеоигр сталкиваются с рядом ограничений. Популярные игры содержат обширные общедоступные данные об обучении, не имеют стандартизированных показателей оценки производительности и допускают использование методов грубой силы, включающих миллиарды симуляций. Кроме того, разработчики, создающие ИИ-агентов, как правило, заранее знакомы с этими играми — непреднамеренно внедряя свои собственные идеи в решения.

Попробуйте ARC-AGI-1, ARC-AGI-2 и ARC-AGI-3.

✅ Найденные теги: Ахиллесова, новости

Метки:

Ахиллесова новости

blur-videokamera-kotoraja-vygljadit-kak-art-obekt-91b438c.jpg

ПРЕДЫДУЩАЯ ЗАПИСЬ

18.07.2025

Blur — видеокамера, которая выглядит как арт-объект

СЛЕДУЮЩАЯ ЗАПИСЬ

18.07.2025

Рыжие кошки получают свой рыжий окрас из-за «выключения» одного гена

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…

Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.

Структура эффективного запроса Claude с элементами задачи, контекста и референса.

Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.

НОВОСТИ ДРУГИХ РУБРИК

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Архив рубрики ~Лента новостей~

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

ЧИТАТЬ

Мар 2, 2026

Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Архив рубрики ~Лента новостей~

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Мар 2, 2026

Черный углеродное волокно с текстурой плетения, отражающий свет.

Архив рубрики ~Лента новостей~

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений. Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

ЧИТАТЬ

Мар 2, 2026

Круглый экран с изображением замка и горы, рядом электронная плата.

Архив рубрики ~Лента новостей~

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран. Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

ЧИТАТЬ

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Ахиллесова пята искусственного интеллекта — Головоломки, которые люди решают за считанные секунды, Часто не поддаются решению Машин

О поддержке научной журналистики

Похожие записи

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

Присоединяйтесь
к нам в