Image

Новая технология Self-Flow от Black Forest Labs делает обучение многомодальных моделей ИИ в 2,8 раза эффективнее.

Карл Франзен

Молодой человек смотрит на разноцветный монитор в деревьях.

Источник: VentureBeat, создано с помощью Google Gemini 3 Pro.

Для создания связных изображений или видео генеративные модели распространения искусственного интеллекта, такие как Stable Diffusion или FLUX, обычно полагались на внешних «учителей» — замороженные кодировщики, такие как CLIP или DINOv2, — которые обеспечивали семантическое понимание, которое они не могли получить самостоятельно.

Однако эта зависимость имеет свою цену: возникает «узкое место», когда масштабирование модели перестает давать лучшие результаты, поскольку внешний преподаватель достиг своего предела.

Сегодня немецкий стартап Black Forest Labs (разработчик серии моделей обработки изображений FLUX) объявил о потенциальном завершении эры академического заимствования с выпуском Self-Flow — самообучающейся платформы для сопоставления потоков, которая позволяет моделям одновременно изучать представление и генерацию.

Благодаря внедрению инновационного механизма планирования с двумя временными шагами, компания Black Forest Labs продемонстрировала, что одна модель может достигать самых современных результатов при обработке изображений, видео и аудио без какого-либо внешнего контроля.

Технология: преодоление «семантического разрыва»

Основная проблема традиционного генеративного обучения заключается в том, что это задача «удаления шума». Модели показывают шум и просят найти изображение; у нее очень мало стимулов понимать, что это за изображение, а только то, как оно выглядит.

Для решения этой проблемы исследователи ранее «согласовывали» генеративные признаки с внешними дискриминативными моделями. Однако, как утверждает Black Forest Labs, это принципиально ошибочный подход: эти внешние модели часто работают с несовпадающими целями и не способны к обобщению на различные модальности, такие как аудио или робототехника.

Новая методика, разработанная в лабораториях, Self-Flow, использует «информационную асимметрию» для решения этой проблемы. С помощью метода, называемого Dual-Timestep Scheduling, система применяет разные уровни шума к разным частям входных данных. Ученик получает сильно искаженную версию данных, в то время как учитель — версия модели, построенная на основе экспоненциального скользящего среднего (EMA) — видит более «чистую» версию тех же данных.

Затем перед учеником ставится задача не просто сгенерировать конечный результат, но и предсказать, что видит его «более чистая» версия — процесс самосовершенствования, где учитель находится на 20-м слое, а ученик — на 8-м. Такой «двухпроходный» подход заставляет модель развивать глубокое внутреннее семантическое понимание, фактически обучаясь видеть и одновременно создавая.

Влияние на продукт: быстрее, точнее и многомодально

Практические результаты этого сдвига поразительны. Согласно исследовательской работе, Self-Flow сходится примерно в 2,8 раза быстрее, чем метод REpresentation Alignment (REPA), являющийся в настоящее время отраслевым стандартом для выравнивания признаков. Что, возможно, еще важнее, он не достигает плато; по мере увеличения вычислительных ресурсов и параметров Self-Flow продолжает улучшаться, в то время как более старые методы демонстрируют снижение эффективности.

Наилучшим образом повышение эффективности тренировок можно понять, взглянув на количество вычислительных шагов: в то время как стандартная «простая» тренировка традиционно требует 7 миллионов шагов для достижения базового уровня производительности, REPA сократила этот путь всего до 400 000 шагов, что представляет собой ускорение в 17,5 раз.

Разработанная компанией Black Forest Labs платформа Self-Flow выводит этот показатель на новый уровень, работая в 2,8 раза быстрее, чем REPA, и достигая того же рубежа производительности примерно за 143 000 шагов.

В совокупности эти изменения представляют собой почти 50-кратное сокращение общего числа этапов обучения, необходимых для достижения высококачественных результатов, фактически превращая некогда огромные ресурсные затраты в значительно более доступный и оптимизированный процесс.

Компания Black Forest Labs продемонстрировала эти достижения с помощью многомодальной модели с 4 миллиардами параметров. Обученная на огромном наборе данных, включающем 200 миллионов изображений, 6 миллионов видеороликов и 2 миллиона аудио-видео пар, модель показала значительные успехи в трех ключевых областях:

  1. Типографика и отображение текста: одним из наиболее распространенных «признаков» изображений, созданных с помощью ИИ, является искаженный текст. Self-Flow значительно превосходит стандартное сопоставление потоков при отображении сложных, разборчивых знаков и надписей, таких как неоновая вывеска с правильной надписью «FLUX is multimodal».

  2. Временная согласованность: при создании видео Self-Flow устраняет многие «галлюцинаторные» артефакты, характерные для современных моделей, такие как конечности, которые спонтанно исчезают во время движения.

  3. Совместный синтез видео и аудио: поскольку модель обучается представлениям нативно, она может генерировать синхронизированное видео и аудио из одного запроса, задача, в которой внешние «заимствованные» представления часто оказываются неэффективными, поскольку кодировщик изображений не понимает звук.

С точки зрения количественных показателей, Self-Flow продемонстрировал превосходные результаты по сравнению с конкурирующими базовыми моделями. В тесте Image FID модель набрала 3,61 балла против 3,92 у REPA. В тесте видео (FVD) она достигла 47,81 балла против 49,59 у REPA, а в тесте аудио (FAD) — 145,65 балла против 148,87 у базовой модели.

От пикселей к планированию: путь к мировым моделям.

В заключение анонса речь пойдёт о моделях мира — искусственном интеллекте, который не просто генерирует красивые картинки, но и понимает лежащую в основе физику и логику сцены для целей планирования и робототехники.

Благодаря тонкой настройке версии Self-Flow с 675 миллионами параметров на наборе данных робототехники RT-1 исследователи добились значительно более высоких показателей успешности в сложных многоэтапных задачах в симуляторе SIMPLER. В то время как стандартное сопоставление потоков испытывало трудности со сложными задачами типа «Открыть и разместить», часто полностью терпя неудачу, модель Self-Flow поддерживала стабильный уровень успешности, что свидетельствует о достаточной надежности ее внутренних представлений для визуального анализа в реальном мире.

Детали реализации и проектирования

Для исследователей, желающих проверить эти утверждения, Black Forest Labs выпустила на GitHub набор инструментов для вывода результатов, специально предназначенный для генерации изображений ImageNet размером 256×256. Проект, написанный преимущественно на Python, предоставляет архитектуру модели SelfFlowPerTokenDiT на основе SiT-XL/2.

Инженеры могут использовать предоставленный скрипт sample.py для генерации 50 000 изображений для стандартной оценки FID. В репозитории подчеркивается, что ключевое архитектурное изменение в этой реализации — это обусловливание временного шага для каждого токена, что позволяет обусловливать каждый токен в последовательности на основе его специфического шумового временного шага. Во время обучения модель использовала смешанную точность BFloat16 и оптимизатор AdamW с ограничением градиента для поддержания стабильности.

Лицензирование и доступность

Компания Black Forest Labs опубликовала исследовательскую работу и официальный код для вывода результатов через GitHub и свой исследовательский портал. Хотя в настоящее время это предварительная версия для научных исследований, опыт компании с семейством моделей FLUX позволяет предположить, что эти инновации, вероятно, появятся в их коммерческом API и предложениях с открытыми весами в ближайшем будущем.

Для разработчиков отказ от внешних кодировщиков — это огромная победа в плане эффективности. Это устраняет необходимость управления отдельными, ресурсоемкими моделями, такими как DINOv2, во время обучения, упрощая стек и позволяя проводить более специализированное, предметно-ориентированное обучение, не зависящее от чьего-либо «застывшего» понимания мира.

Основные выводы для лиц, принимающих технические решения, и для тех, кто внедряет новые решения в предприятиях.

Для предприятий появление Self-Flow представляет собой существенный сдвиг в анализе соотношения затрат и выгод при разработке собственных решений в области искусственного интеллекта.

Хотя непосредственными бенефициарами являются организации, обучающие крупномасштабные модели с нуля, исследование показывает, что эта технология одинаково эффективна и для высокоточной тонкой настройки. Поскольку метод сходится почти в три раза быстрее, чем существующие стандарты, компании могут достигать самых современных результатов, используя лишь небольшую часть традиционных вычислительных ресурсов.

Такая эффективность позволяет предприятиям отказаться от стандартных готовых решений и разрабатывать специализированные модели, которые тесно связаны с их конкретными областями данных, будь то нишевые медицинские изображения или данные с промышленных датчиков.

Практическое применение этой технологии распространяется на высокорискованные промышленные сектора, в первую очередь на робототехнику и автономные системы. Используя способность этой системы к обучению «моделям мира», предприятия в сфере производства и логистики могут разрабатывать модели визуально-языково-действенный (VLA) алгоритм, обладающие превосходным пониманием физического пространства и способностью к последовательному мышлению.

В ходе имитационных испытаний технология Self-Flow позволила роботизированным контроллерам успешно выполнять сложные задачи с несколькими объектами, например, открывать ящик, чтобы поместить в него предмет, — в то время как традиционные генеративные модели потерпели неудачу. Это говорит о том, что данная технология является основополагающим инструментом для любого предприятия, стремящегося преодолеть разрыв между генерацией цифрового контента и реальной физической автоматизацией.

Помимо повышения производительности, Self-Flow предоставляет предприятиям стратегическое преимущество за счет упрощения базовой инфраструктуры ИИ. Большинство современных генеративных систем представляют собой «франкенштейновские» модели, требующие сложных внешних семантических кодировщиков, часто принадлежащих третьим сторонам и лицензируемых ими.

Объединяя представление и генерацию в единую архитектуру, Self-Flow позволяет предприятиям устранять эти внешние зависимости, сокращая технический долг и устраняя «узкие места», связанные с масштабированием сторонних обучающих моделей. Такая самодостаточность гарантирует, что по мере масштабирования вычислительных ресурсов и данных предприятия производительность модели будет масштабироваться предсказуемо и синхронно, обеспечивая более четкую окупаемость инвестиций в долгосрочный ИИ.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: Black Forest Labs, Self-Flow, Многомодальные Модели, Новая, новости, Обучение, Технология

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Neuspera сообщает о положительных результатах испытаний устройства для лечения недержания мочи при императивных позывах.
ideipro logotyp
В условиях, когда ставки как никогда высоки, кибербезопасность в здравоохранении должна соответствовать требованиям момента | Новости информационных технологий в здравоохранении
Фасад здания с логотипом Merck, стеклянные окна, голубое небо.
ideipro logotyp
Смартфон с разноцветными иконками приложений на экране, лежащий на ноутбуке.
Маску не удалось заблокировать закон Калифорнии о раскрытии данных, который, как он опасается, погубит xAI.
Код JavaScript и комментарии об аутентификации и безопасности сессии.
ideipro logotyp
Image Not Found
Компания Neuspera сообщает о положительных результатах испытаний устройства для лечения недержания мочи при императивных позывах.

Компания Neuspera сообщает о положительных результатах испытаний устройства для лечения недержания мочи при императивных позывах.

Система Neuspera представляет собой сверхминиатюрный имплант, питаемый от внешнего передатчика. Фото: mi_viri / Shutterstock.com. Компания Neuspera Medical сообщила об обнадеживающих результатах 12-месячного ключевого клинического исследования своей интегрированной системы сакральной нейромодуляции (iSNM) Neuspera SNM у пациентов с императивным…

Мар 10, 2026
ideipro logotyp

Компания Pfizer активизировала планы по разработке триспецифического препарата после победы во второй фазе клинических испытаний против экземы.

Компания Pfizer активизирует планы по разработке препарата тилрекимиг после того, как успешная вторая фаза клинических испытаний вселила надежду на то, что этот препарат, применяемый раз в месяц и содержащий триспецифические антитела, сможет конкурировать с одобренными лекарствами от…

Мар 10, 2026
В условиях, когда ставки как никогда высоки, кибербезопасность в здравоохранении должна соответствовать требованиям момента | Новости информационных технологий в здравоохранении

В условиях, когда ставки как никогда высоки, кибербезопасность в здравоохранении должна соответствовать требованиям момента | Новости информационных технологий в здравоохранении

Времена, когда главной проблемой безопасности медицинских организаций была утечка данных или нарушение HIPAA, прошли. Киберпространство кардинально изменилось с появлением почти ежедневных атак на больницы и системы здравоохранения. Программы-вымогатели стали почти ежедневным явлением и теперь регулярно нарушают работу…

Мар 10, 2026
Фасад здания с логотипом Merck, стеклянные окна, голубое небо.

Влияние пациентов клиники Майо на обучение ИИ Merck: как технологии могут изменить здравоохранение

Вы читаете веб-версию информационного бюллетеня STAT об искусственном интеллекте в прогнозировании. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Adobe/STAT Вы читаете веб-версию информационного бюллетеня STAT о технологиях в здравоохранении —…

Мар 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых