06.06.2026
Самый старый кирпич трансформера наконец переизобрели. DeepSeek взял матрицу из 1967 года
За attention-механизм с 2017 года брались сотни раз: sparse attention, linear attention, MoE, MLA, скользящие окна, что только не. А вот…


