Нейросети провалили тесты на правдивость ответов
Компания Google совместно с сообществом IT-специалистов Kaggle представила новый бенчмарк для больших языковых моделей, который оценивает не скорость или производительность, а достоверность ответов ИИ. Результаты оказались неутешительными: тест не смогла пройти ни одна популярная нейросеть.
Комплексный набор испытаний получил название FACTS Benchmark Suite и включает четыре направления. Первый бенчмарк проверяет способность модели отвечать на простые проверяемые вопросы без доступа к интернету. Второй оценивает корректность использования поиска в сети. Третий тестирует достоверность текстовых ответов на основе изображений, а четвёртый — понимание контекста запроса.
В ходе проверки 15 популярных языковых моделей выяснилось, что ни одна из них не смогла набрать 100% правильных ответов. Даже в самой простой дисциплине — фактологических вопросах — лучший результат составил 76,4%.
Проще говоря, ИИ ошибается даже там, где ответы заранее известны и не требуют сложных вычислений — например, при работе с базовыми историческими и научными фактами, отобранными специалистами.
Эксперты связывают проблему с тем, что LLM нередко подменяют точные факты логично звучащими, но недостоверными или поверхностно правдивыми формулировками. Это особенно рискованно при использовании нейросетей в медицине, финансах, юриспруденции, науке и других сферах, где цена ошибки крайне высока.
