Компания OpenAI разработала новый инструмент для оценки качества работы искусственного интеллекта (ИИ) в сфере здравоохранения. Набор данных под названием HealthBench содержит 5 000 смоделированных медицинских диалогов, а также критерии для оценки ответов, которые помогут сравнивать разные модели искусственного интеллекта.
Над созданием HealthBench работали 262 врача из 60 стран. Они предложили более 57 000 параметров, по которым можно оценивать точность, полноту и уместность медицинских ответов от ИИ.