В поисках эмбеддинга личности или Как зарождается личность LLM
Пару месяцев назад я публиковал отчет об эксперименте по созданию языковой модели на базе модульной архитектуры с ядром на латентных представлениях. Данная статья является отчетом о новых аспектах этого эксперимента. Поэтому для тех, кто не в теме, совсем коротко: классические авторегрессивные LLM оперируют токенами, условно говоря думают на токенном уровне. В модульной архитектуре отдельно выделяется языковой интерфейс в виде энкодера и декодера, а само «думающее» ядро работает уже не с токенами напрямую...