Microsoft анонсировала новую нейросеть семейства небольших языковых моделей Phi-3, которая может работать с изображениями. Phi-3-vision — первая мультимодальная модель, объединяющая текст и изображения, она способна анализировать картинки, извлекать текст и другую информацию.
Microsoft утверждает, что Phi-3-vision лучше всего использовать на мобильных устройствах. Нейросеть обладает 4,2 млрд параметров и на текущий момент доступна в предварительной версии. Количество параметров влияет на то...