Исследование: ИИ уязвим к ошибкам в больничных документах
В исследовании протестировано 20 открытых и коммерческих больших языковых моделей, а также ряд медицинских версий, дообученных под клинические задачи. Им предлагались три типа контента: реальные больничные выписки с одной намеренно вставленной ложной рекомендацией, распространенные медицинские мифы из социальных сетей и 300 клинических сценариев, подготовленных врачами. Всего было проанализировано более 1 млн ответов на пользовательские запросы. В среднем модели транслировали недостоверную информацию примерно в 32% случаев.