Nvidia выпускает FlashAttention-4, удваивая производительность ИИ
Чтобы понять, о чём речь, достаточно представить, как работает внимание. Когда языковая модель читает текст, она на каждом шаге сверяется с тем, что было раньше: какие слова связаны между собой, что уточняет смысл, какие фразы важнее. Эта «сверка» и есть механизм внимания. Он точный, но дорогой: чем длиннее входной текст, тем больше пар сравнений нужно сделать. На практике проблема даже не столько в самих вычислениях, сколько в том, что приходится постоянно переносить огромные объёмы промежуточных...