Оптимизация параметров языковой модели на основе графа со-встречаемости слов: когда больше — не значит лучше
В последние годы мы привыкли, что прогресс в NLP измеряется гига- и терабайтами параметров. Кажется, единственный путь к улучшению качества модели — увеличение ее размера. Но так ли это для специализированных задач?
Мы решили пойти от обратного: можно ли заранее, еще до обучения, понять, насколько большой должна быть модель, чтобы эффективно решать конкретную задачу классификации?
Эксперимент строится на простой, но мощной гипотезе: структура текстов предметной области, отраженная в графе со-встречаемости слов...