|

Нейросети провалили тесты на правдивость ответов

Компания Google совместно с сообществом IT-специалистов Kaggle представила новый бенчмарк для больших языковых моделей, который оценивает не скорость или производительность, а достоверность ответов ИИ. Результаты оказались неутешительными: тест не смогла пройти ни одна популярная нейросеть.

Комплексный набор испытаний получил название FACTS Benchmark Suite и включает четыре направления. Первый бенчмарк проверяет способность модели отвечать на простые проверяемые вопросы без доступа к интернету. Второй оценивает корректность использования поиска в сети. Третий тестирует достоверность текстовых ответов на основе изображений, а четвёртый — понимание контекста запроса.

В ходе проверки 15 популярных языковых моделей выяснилось, что ни одна из них не смогла набрать 100% правильных ответов. Даже в самой простой дисциплине — фактологических вопросах — лучший результат составил 76,4%.

Проще говоря, ИИ ошибается даже там, где ответы заранее известны и не требуют сложных вычислений — например, при работе с базовыми историческими и научными фактами, отобранными специалистами.

Эксперты связывают проблему с тем, что LLM нередко подменяют точные факты логично звучащими, но недостоверными или поверхностно правдивыми формулировками. Это особенно рискованно при использовании нейросетей в медицине, финансах, юриспруденции, науке и других сферах, где цена ошибки крайне высока.

Поделиться:

Интересные

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *