Image

Новая технология Self-Flow от Black Forest Labs делает обучение многомодальных моделей ИИ в 2,8 раза эффективнее.

Карл Франзен

Молодой человек смотрит на разноцветный монитор в деревьях.

Источник: VentureBeat, создано с помощью Google Gemini 3 Pro.

Для создания связных изображений или видео генеративные модели распространения искусственного интеллекта, такие как Stable Diffusion или FLUX, обычно полагались на внешних «учителей» — замороженные кодировщики, такие как CLIP или DINOv2, — которые обеспечивали семантическое понимание, которое они не могли получить самостоятельно.

Однако эта зависимость имеет свою цену: возникает «узкое место», когда масштабирование модели перестает давать лучшие результаты, поскольку внешний преподаватель достиг своего предела.

Сегодня немецкий стартап Black Forest Labs (разработчик серии моделей обработки изображений FLUX) объявил о потенциальном завершении эры академического заимствования с выпуском Self-Flow — самообучающейся платформы для сопоставления потоков, которая позволяет моделям одновременно изучать представление и генерацию.

Благодаря внедрению инновационного механизма планирования с двумя временными шагами, компания Black Forest Labs продемонстрировала, что одна модель может достигать самых современных результатов при обработке изображений, видео и аудио без какого-либо внешнего контроля.

Технология: преодоление «семантического разрыва»

Основная проблема традиционного генеративного обучения заключается в том, что это задача «удаления шума». Модели показывают шум и просят найти изображение; у нее очень мало стимулов понимать, что это за изображение, а только то, как оно выглядит.

Для решения этой проблемы исследователи ранее «согласовывали» генеративные признаки с внешними дискриминативными моделями. Однако, как утверждает Black Forest Labs, это принципиально ошибочный подход: эти внешние модели часто работают с несовпадающими целями и не способны к обобщению на различные модальности, такие как аудио или робототехника.

Новая методика, разработанная в лабораториях, Self-Flow, использует «информационную асимметрию» для решения этой проблемы. С помощью метода, называемого Dual-Timestep Scheduling, система применяет разные уровни шума к разным частям входных данных. Ученик получает сильно искаженную версию данных, в то время как учитель — версия модели, построенная на основе экспоненциального скользящего среднего (EMA) — видит более «чистую» версию тех же данных.

Затем перед учеником ставится задача не просто сгенерировать конечный результат, но и предсказать, что видит его «более чистая» версия — процесс самосовершенствования, где учитель находится на 20-м слое, а ученик — на 8-м. Такой «двухпроходный» подход заставляет модель развивать глубокое внутреннее семантическое понимание, фактически обучаясь видеть и одновременно создавая.

Влияние на продукт: быстрее, точнее и многомодально

Практические результаты этого сдвига поразительны. Согласно исследовательской работе, Self-Flow сходится примерно в 2,8 раза быстрее, чем метод REpresentation Alignment (REPA), являющийся в настоящее время отраслевым стандартом для выравнивания признаков. Что, возможно, еще важнее, он не достигает плато; по мере увеличения вычислительных ресурсов и параметров Self-Flow продолжает улучшаться, в то время как более старые методы демонстрируют снижение эффективности.

Наилучшим образом повышение эффективности тренировок можно понять, взглянув на количество вычислительных шагов: в то время как стандартная «простая» тренировка традиционно требует 7 миллионов шагов для достижения базового уровня производительности, REPA сократила этот путь всего до 400 000 шагов, что представляет собой ускорение в 17,5 раз.

Разработанная компанией Black Forest Labs платформа Self-Flow выводит этот показатель на новый уровень, работая в 2,8 раза быстрее, чем REPA, и достигая того же рубежа производительности примерно за 143 000 шагов.

В совокупности эти изменения представляют собой почти 50-кратное сокращение общего числа этапов обучения, необходимых для достижения высококачественных результатов, фактически превращая некогда огромные ресурсные затраты в значительно более доступный и оптимизированный процесс.

Компания Black Forest Labs продемонстрировала эти достижения с помощью многомодальной модели с 4 миллиардами параметров. Обученная на огромном наборе данных, включающем 200 миллионов изображений, 6 миллионов видеороликов и 2 миллиона аудио-видео пар, модель показала значительные успехи в трех ключевых областях:

  1. Типографика и отображение текста: одним из наиболее распространенных «признаков» изображений, созданных с помощью ИИ, является искаженный текст. Self-Flow значительно превосходит стандартное сопоставление потоков при отображении сложных, разборчивых знаков и надписей, таких как неоновая вывеска с правильной надписью «FLUX is multimodal».

  2. Временная согласованность: при создании видео Self-Flow устраняет многие «галлюцинаторные» артефакты, характерные для современных моделей, такие как конечности, которые спонтанно исчезают во время движения.

  3. Совместный синтез видео и аудио: поскольку модель обучается представлениям нативно, она может генерировать синхронизированное видео и аудио из одного запроса, задача, в которой внешние «заимствованные» представления часто оказываются неэффективными, поскольку кодировщик изображений не понимает звук.

С точки зрения количественных показателей, Self-Flow продемонстрировал превосходные результаты по сравнению с конкурирующими базовыми моделями. В тесте Image FID модель набрала 3,61 балла против 3,92 у REPA. В тесте видео (FVD) она достигла 47,81 балла против 49,59 у REPA, а в тесте аудио (FAD) — 145,65 балла против 148,87 у базовой модели.

От пикселей к планированию: путь к мировым моделям.

В заключение анонса речь пойдёт о моделях мира — искусственном интеллекте, который не просто генерирует красивые картинки, но и понимает лежащую в основе физику и логику сцены для целей планирования и робототехники.

Благодаря тонкой настройке версии Self-Flow с 675 миллионами параметров на наборе данных робототехники RT-1 исследователи добились значительно более высоких показателей успешности в сложных многоэтапных задачах в симуляторе SIMPLER. В то время как стандартное сопоставление потоков испытывало трудности со сложными задачами типа «Открыть и разместить», часто полностью терпя неудачу, модель Self-Flow поддерживала стабильный уровень успешности, что свидетельствует о достаточной надежности ее внутренних представлений для визуального анализа в реальном мире.

Детали реализации и проектирования

Для исследователей, желающих проверить эти утверждения, Black Forest Labs выпустила на GitHub набор инструментов для вывода результатов, специально предназначенный для генерации изображений ImageNet размером 256×256. Проект, написанный преимущественно на Python, предоставляет архитектуру модели SelfFlowPerTokenDiT на основе SiT-XL/2.

Инженеры могут использовать предоставленный скрипт sample.py для генерации 50 000 изображений для стандартной оценки FID. В репозитории подчеркивается, что ключевое архитектурное изменение в этой реализации — это обусловливание временного шага для каждого токена, что позволяет обусловливать каждый токен в последовательности на основе его специфического шумового временного шага. Во время обучения модель использовала смешанную точность BFloat16 и оптимизатор AdamW с ограничением градиента для поддержания стабильности.

Лицензирование и доступность

Компания Black Forest Labs опубликовала исследовательскую работу и официальный код для вывода результатов через GitHub и свой исследовательский портал. Хотя в настоящее время это предварительная версия для научных исследований, опыт компании с семейством моделей FLUX позволяет предположить, что эти инновации, вероятно, появятся в их коммерческом API и предложениях с открытыми весами в ближайшем будущем.

Для разработчиков отказ от внешних кодировщиков — это огромная победа в плане эффективности. Это устраняет необходимость управления отдельными, ресурсоемкими моделями, такими как DINOv2, во время обучения, упрощая стек и позволяя проводить более специализированное, предметно-ориентированное обучение, не зависящее от чьего-либо «застывшего» понимания мира.

Основные выводы для лиц, принимающих технические решения, и для тех, кто внедряет новые решения в предприятиях.

Для предприятий появление Self-Flow представляет собой существенный сдвиг в анализе соотношения затрат и выгод при разработке собственных решений в области искусственного интеллекта.

Хотя непосредственными бенефициарами являются организации, обучающие крупномасштабные модели с нуля, исследование показывает, что эта технология одинаково эффективна и для высокоточной тонкой настройки. Поскольку метод сходится почти в три раза быстрее, чем существующие стандарты, компании могут достигать самых современных результатов, используя лишь небольшую часть традиционных вычислительных ресурсов.

Такая эффективность позволяет предприятиям отказаться от стандартных готовых решений и разрабатывать специализированные модели, которые тесно связаны с их конкретными областями данных, будь то нишевые медицинские изображения или данные с промышленных датчиков.

Практическое применение этой технологии распространяется на высокорискованные промышленные сектора, в первую очередь на робототехнику и автономные системы. Используя способность этой системы к обучению «моделям мира», предприятия в сфере производства и логистики могут разрабатывать модели визуально-языково-действенный (VLA) алгоритм, обладающие превосходным пониманием физического пространства и способностью к последовательному мышлению.

В ходе имитационных испытаний технология Self-Flow позволила роботизированным контроллерам успешно выполнять сложные задачи с несколькими объектами, например, открывать ящик, чтобы поместить в него предмет, — в то время как традиционные генеративные модели потерпели неудачу. Это говорит о том, что данная технология является основополагающим инструментом для любого предприятия, стремящегося преодолеть разрыв между генерацией цифрового контента и реальной физической автоматизацией.

Помимо повышения производительности, Self-Flow предоставляет предприятиям стратегическое преимущество за счет упрощения базовой инфраструктуры ИИ. Большинство современных генеративных систем представляют собой «франкенштейновские» модели, требующие сложных внешних семантических кодировщиков, часто принадлежащих третьим сторонам и лицензируемых ими.

Объединяя представление и генерацию в единую архитектуру, Self-Flow позволяет предприятиям устранять эти внешние зависимости, сокращая технический долг и устраняя «узкие места», связанные с масштабированием сторонних обучающих моделей. Такая самодостаточность гарантирует, что по мере масштабирования вычислительных ресурсов и данных предприятия производительность модели будет масштабироваться предсказуемо и синхронно, обеспечивая более четкую окупаемость инвестиций в долгосрочный ИИ.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: Black Forest Labs, Self-Flow, Многомодальные Модели, Новая, новости, Обучение, Технология

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Визуализация векторизации данных: ускоренная обработка с использованием колонн.
Человек в клетке с весами вместо решетки, символизирующими зависимость от веса.
Обезьяна в горячем источнике зимой, Япония, снежный пейзаж.
Компания Neuspera сообщает о положительных результатах испытаний устройства для лечения недержания мочи при императивных позывах.
ideipro logotyp
В условиях, когда ставки как никогда высоки, кибербезопасность в здравоохранении должна соответствовать требованиям момента | Новости информационных технологий в здравоохранении
Фасад здания с логотипом Merck, стеклянные окна, голубое небо.
ideipro logotyp
Смартфон с разноцветными иконками приложений на экране, лежащий на ноутбуке.
Image Not Found
Визуализация векторизации данных: ускоренная обработка с использованием колонн.

Почему вам следует прекратить писать циклы в Pandas

Как мыслить в столбик, писать более быстрый код и, наконец, использовать Pandas как профессионал. Делиться Создано с помощью Gemini AI Ладно, признаюсь честно: когда я только начинал использовать Pandas, я постоянно писал циклы вот такого типа: for…

Мар 10, 2026
Человек в клетке с весами вместо решетки, символизирующими зависимость от веса.

Индекс массы тела (ИМТ) мало что может рассказать о вашем здоровье – вот что может.

Люди, классифицируемые как имеющие избыточный вес по индексу массы тела (ИМТ), могут быть совершенно здоровы. Но существуют более точные методы измерения содержания жира, и врачи, наконец, начинают их использовать. Мартин Леон Баррето Я была так рада своей…

Мар 10, 2026
Обезьяна в горячем источнике зимой, Япония, снежный пейзаж.

Что на самом деле делают с телами снежных обезьян горячие ванны?

Когда японские макаки погружаются в горячие источники, они, возможно, не только согреваются, но и ухаживают за своей микрофлорой. Купание незаметно изменило их микрофлору и состав кишечной микрофлоры, не увеличивая при этом количество паразитарных инфекций. Фото: Shutterstock Японские…

Мар 10, 2026
Компания Neuspera сообщает о положительных результатах испытаний устройства для лечения недержания мочи при императивных позывах.

Компания Neuspera сообщает о положительных результатах испытаний устройства для лечения недержания мочи при императивных позывах.

Система Neuspera представляет собой сверхминиатюрный имплант, питаемый от внешнего передатчика. Фото: mi_viri / Shutterstock.com. Компания Neuspera Medical сообщила об обнадеживающих результатах 12-месячного ключевого клинического исследования своей интегрированной системы сакральной нейромодуляции (iSNM) Neuspera SNM у пациентов с императивным…

Мар 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых