👍 Исследователи представили Fast Byte Latent Transformer — новую архитектуру…
👍 Исследователи представили Fast Byte Latent Transformer — новую архитектуру для byte-level моделей, которые работают напрямую с байтами вместо токенов и словарей.
Проблема таких моделей всегда была в скорости: генерация шла буквально байт за байтом, из-за чего inference становился слишком дорогим и медленным.
📁 Теперь они добавили несколько новых режимов генерации:
— параллельную генерацию нескольких байтов сразу;
— diffusion-подход внутри BLT;
— self-speculative decoding;
— отдельный verification-слой для проверки качества.
В результате модели могут снижать memory bandwidth cost больше чем на 50% во время генерации.
💢 Если такие архитектуры начнут масштабироваться, индустрия может постепенно уйти от привычных tokenizer’ов и BPE-схем к полностью byte-level моделям без фиксированных словарей.


Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.