Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

Искусственный интеллект понимает мир: как работают видео-аппаратные средства

Окт 4, 2025 0

Содержание

Система V-JEPA использует обычные видео для понимания физики реального мира. Сохранить статью Прочитать позже

42c00126a95e2ba982aa2a0c18e6f264 — Модель демонстрирует понятие «удивления» при демонстрации нефизических сценариев.

Вот тест для младенцев: покажите им стакан воды на столе. Спрячьте его за деревянной доской. Теперь поднесите доску к стакану. Если доска продолжает проходить мимо стакана, как будто его нет, удивляются ли они? Многие шестимесячные дети удивляются, а к году почти все дети интуитивно понимают постоянство предмета, усваивая его посредством наблюдения. Теперь это делают и некоторые модели искусственного интеллекта.

Исследователи разработали систему искусственного интеллекта, которая узнает об мире с помощью видео и демонстрирует понятие «удивление», когда ей предоставляют информацию, противоречащую полученным ею знаниям.

Модель, созданная компанией Meta и получившая название Video Joint Embedding Predictive Architecture (V-JEPA), не делает никаких предположений о физике мира, представленного в видеороликах. Тем не менее, она позволяет понять, как устроен мир.

«Их утверждения априори весьма правдоподобны, а результаты крайне интересны», — говорит Миха Хейлброн, когнитивный ученый из Амстердамского университета, изучающий, как мозг и искусственные системы осмысливают мир.

Высшие абстракции

Как известно инженерам, создающим беспилотные автомобили, добиться от системы искусственного интеллекта надёжного понимания того, что она видит, может быть непросто. Большинство систем, предназначенных для «понимания» видео, чтобы классифицировать их содержание (например, «человек играет в теннис») или определять контуры объекта, например, машины впереди, работают в так называемом «пиксельном пространстве». По сути, эта модель рассматривает каждый пиксель в видео как равнозначный по важности.

Но эти модели в пиксельном пространстве имеют свои ограничения. Представьте, что вы пытаетесь разобраться в пригородной улице. Если в сцене есть машины, светофоры и деревья, модель может слишком сосредоточиться на несущественных деталях, таких как движение листьев. Она может упустить цвет светофора или положение близлежащих автомобилей. «Когда вы работаете с изображениями или видео, вам не нужно работать в [пиксельном] пространстве, потому что там слишком много деталей, которые вы не хотите моделировать», — сказал Рэндалл Балестриеро, специалист по информатике из Университета Брауна .

Портрет мужчины в очках — Ян Лекун, специалист по информатике из Нью-Йоркского университета и директор по исследованиям в области искусственного интеллекта в Meta, в 2022 году создал JEPA — предшественника V-JEPA, работающего с неподвижными изображениями.

Архитектура V-JEPA, представленная в 2024 году, призвана избежать этих проблем. Хотя специфика различных искусственных нейронных сетей, входящих в состав V-JEPA, сложна, базовая концепция проста.

Обычные системы пиксельного пространства проходят процесс обучения, включающий маскирование некоторых пикселей в кадрах видео и обучение нейронных сетей прогнозированию значений этих замаскированных пикселей. V-JEPA также маскирует части видеокадров. Но он не предсказывает, что находится за замаскированными областями на уровне отдельных пикселей. Вместо этого он использует более высокие уровни абстракции, или «скрытые» представления, для моделирования контента.

Скрытые представления фиксируют только существенные детали данных. Например, имея линейные чертежи различных цилиндров, нейронная сеть, называемая энкодером, может научиться преобразовывать каждое изображение в числа, представляющие основные характеристики каждого цилиндра, такие как его высота, ширина, ориентация и местоположение. Таким образом, информация, содержащаяся в сотнях или тысячах пикселей, преобразуется в несколько чисел — скрытые представления. Отдельная нейронная сеть, называемая декодером, затем обучается преобразовывать существенные детали цилиндра в его изображение.

V-JEPA фокусируется на создании и воспроизведении скрытых представлений. На высоком уровне архитектура разделена на три части: кодер 1, кодер 2 и предиктор. Сначала обучающий алгоритм берёт набор видеокадров, маскирует один и тот же набор пикселей во всех кадрах и передаёт кадры кодеру 1. Иногда последние несколько кадров видео полностью замаскированы. Кодер 1 преобразует замаскированные кадры в скрытые представления. Алгоритм также передаёт немаскированные кадры целиком кодеру 2, который преобразует их в другой набор скрытых представлений.

Теперь в дело вступает предиктор. Он использует скрытые представления, созданные кодером 1, для прогнозирования выходных данных кодера 2. По сути, он берёт скрытые представления, сгенерированные из замаскированных кадров, и предсказывает скрытые представления, сгенерированные из не замаскированных кадров. Воссоздавая соответствующие скрытые представления, а не недостающие пиксели предыдущих систем, модель учится видеть автомобили на дороге и не обращать внимания на листья на деревьях.

«Это позволяет модели отбрасывать ненужную… информацию и концентрироваться на более важных аспектах видео», — сказал Квентин Гарридо, научный сотрудник Meta. «Отбрасывание ненужной информации очень важно, и V-JEPA стремится делать это эффективно».

После завершения этапа предобучения следующим шагом будет адаптация V-JEPA для решения конкретных задач, таких как классификация изображений или распознавание действий, изображённых в видео. Этот этап адаптации требует наличия определённых размеченных человеком данных. Например, видео должны быть снабжены информацией о содержащихся в них действиях. Адаптация к финальным задачам требует гораздо меньше размеченных данных, чем если бы вся система была обучена сквозным образом для решения конкретных задач. Кроме того, одни и те же сети кодировщиков и предикторов можно адаптировать для решения различных задач.

Интуиция Имитатор

В феврале команда V-JEPA сообщила, как их системы справились с пониманием интуитивных физических свойств реального мира, таких как постоянство объектов, постоянство формы и цвета, а также влияние гравитации и столкновений. В тесте IntPhys, требующем от моделей ИИ определения физической правдоподобности или неправдоподобности действий, происходящих на видео, точность V-JEPA составила почти 98%. Известная модель, делающая прогнозы в пиксельном пространстве, показала лишь немного лучше случайного результата.

88b5c3325e6efb93e6ffde80be759bc5 — Автономным роботам необходимо что-то вроде физической интуиции, чтобы планировать свои движения и взаимодействовать с физической средой.

Команда V-JEPA также явно количественно оценила «удивление», демонстрируемое их моделью, когда её прогноз не совпадал с наблюдениями. Они взяли модель V-JEPA, предварительно обученную на естественных видео, добавили в неё новые видео, а затем математически рассчитали разницу между тем, что V-JEPA ожидала увидеть в будущих кадрах видео, и тем, что произошло на самом деле. Команда обнаружила, что ошибка предсказания резко возрастала, когда будущие кадры содержали физически невозможные события. Например, если мяч закатывался за какой-либо заслоняющий объект и временно исчезал из поля зрения, модель генерировала ошибку, когда мяч не появлялся из-за объекта в последующих кадрах. Реакция была похожа на интуитивную реакцию, наблюдаемую у младенцев. Можно сказать, что V-JEPA была удивлена.

Хейлброн впечатлён возможностями V-JEPA. «Из литературы по развитию мы знаем, что младенцам не требуется много времени, чтобы освоить эти виды интуитивной физики», — сказал он. «Убедительно, что они показывают, что этому можно научиться изначально, и для этого не обязательно иметь все эти врождённые априорные знания».

Карл Фристон, специалист по вычислительной нейробиологии из Университетского колледжа Лондона, считает, что V-JEPA находится на верном пути, имитируя «способ, которым наш мозг познаёт и моделирует мир». Однако ему всё ещё не хватает некоторых фундаментальных элементов. «В текущем предложении не хватает правильного кодирования неопределённости», — сказал он. Например, если информации в прошлых кадрах недостаточно для точного предсказания будущих кадров, предсказание становится неопределённым, и V-JEPA не оценивает эту неопределённость количественно.

В июне команда V-JEPA в Meta представила свою модель нового поколения V-JEPA 2 с 1,2 миллиарда параметров, предварительно обученную на 22 миллионах видеороликов. Они также применили эту модель к робототехнике: показали, как можно дополнительно настроить новую предикторную сеть, используя всего около 60 часов данных о роботе (включая видеозаписи робота и информацию о его действиях), а затем использовали настроенную модель для планирования следующих действий робота. «Такая модель может быть использована для решения простых задач роботизированной манипуляции и открывает путь для будущих исследований в этом направлении», — сказал Гарридо.

Чтобы продвинуть V-JEPA 2, команда разработала более сложный тест для интуитивного понимания физики под названием IntPhys 2. V-JEPA 2 и другие модели показали лишь немного лучшие результаты, чем случайный выбор, на этих более сложных тестах. Одна из причин, по словам Гарридо, заключается в том, что V-JEPA 2 может обрабатывать всего несколько секунд видео в качестве входных данных и делать прогнозы на несколько секунд вперёд. Всё, что длиннее, забывается. Можно было бы снова провести сравнение с младенцами, но Гарридо имел в виду другое существо. «В каком-то смысле память модели напоминает золотую рыбку», — сказал он.

Источник: www.quantamagazine.org

✅ Найденные теги: Искусственный, новости

Метки:

Искусственный новости

kak-eto-budet-na-samom-dele-rasceneny-razlichnye-varianty-konca-sveta-4ce8302.jpg

ПРЕДЫДУЩАЯ ЗАПИСЬ

04.10.2025

Как это будет на самом деле: расценены различные варианты конца света

СЛЕДУЮЩАЯ ЗАПИСЬ

04.10.2025

Культ Дурова: что скрывается за идеальным образом борца за свободу?

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…

Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.

Структура эффективного запроса Claude с элементами задачи, контекста и референса.

Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.

НОВОСТИ ДРУГИХ РУБРИК

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Архив рубрики ~Лента новостей~

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

ЧИТАТЬ

Мар 2, 2026

Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Архив рубрики ~Лента новостей~

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Мар 2, 2026

Черный углеродное волокно с текстурой плетения, отражающий свет.

Архив рубрики ~Лента новостей~

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений. Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

ЧИТАТЬ

Мар 2, 2026

Круглый экран с изображением замка и горы, рядом электронная плата.

Архив рубрики ~Лента новостей~

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран. Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

ЧИТАТЬ

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Искусственный интеллект понимает мир: как работают видео-аппаратные средства

Введение

Высшие абстракции

Интуиция Имитатор

Похожие записи

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

Присоединяйтесь
к нам в