Сравниваем скорость генерации LLM локально и по API
По ощущениям, на Хабре одна группа пользователей пользуется LLM локально, а другая - через внешние API.
А третья еще не определилась, и у неё периодически возникают следующие вопросы:
- Что будет, если запускать LLM на CPU вместо GPU? Сильно упадет скорость?
- А как это от размера модели зависит?
- А DeepSeek оригинальный очень большой - а можно его с диска подкачивать, если он в RAM не влезает?
В общем, я пару раз отвечал на данные вопросы в комментариях - но поскольку я периодически натыкаюсь на них вновь и вновь...