Новая ИИ-модель Anthropic обходит GPT-5.2 почти во всём
Компания Anthropic представила Claude Opus 4.6 — обновлённую версию своего флагманского ИИ. Модель стала лучше писать и разбирать код, дольше удерживать фокус в агентных задачах и увереннее работать с большими проектами. Главная новинка — контекстное окно до 1 миллиона токенов, что облегчает работу с крупными базами данных и объёмными текстами.
При программировании Opus 4.6 аккуратнее планирует задачи, лучше ориентируется в больших кодовых базах и чаще ловит собственные ошибки на этапе ревью и отладки. В результате модель заняла первое место в агентном бенчмарке Terminal-Bench 2.0 и показала лучший результат на тесте Humanity’s Last Exam, проверяющем междисциплинарное мышление.
Anthropic делает упор не только на код: модель умеет финансовый анализ, работу с документами, таблицами и презентациями. В среде Cowork Opus 4.6 может выполнять задачи автономно и параллельно, фактически выступая как цифровой сотрудник. Также улучшилась способность искать редкие и сложные данные в больших массивах текста, а качество работы при длинных диалогах почти не деградирует.
По независимым оценкам, Opus 4.6 лидирует и в экономически значимых задачах. В тесте GDPval-AA, оценивающем полезность ИИ для работы в финансах, праве и аналитике, модель обошла GPT-5.2 на 144 пункта. В бенчмарке MRCR v2, проверяющем поиск информации в миллионном контексте, она набрала 76% против 18,5% у предыдущих решений.
Anthropic также подчёркивает безопасность модели. По итогам масштабных тестов Claude Opus 4.6 демонстрирует низкий уровень проблемного поведения и меньше отказов. Новая версия получила дополнительные защитные механизмы, а сама используется для поиска уязвимостей в открытом ПО.
