Добавить новость

Google сократила потребление памяти ИИ-моделями в шесть раз без потери точности — с алгоритмом TurboQuant

Исследовательский отдел Google Research опубликовал работу о технологии TurboQuant — алгоритме квантизации, который сокращает разрядность KV-кеша больших языковых моделей до 3 битов без потери точности в ответах и без потребности в дополнительном обучении. В тестах на ускорителях искусственного интеллекта Nvidia H100 4-битный алгоритм TurboQuant (с четвёртым битом на коррекцию ошибок) помог восьмикратно повысить производительность при вычислении логитов внимания в сравнении с неквантованными 32-битными...
Губернаторы России



Заголовки
Заголовки
Moscow.media
Ria.city

Новости России




Rss.plus

Музыкальные новости


Новости тенниса







Новости спорта