|

Новая версия нейросети Qwen обошла Gemini и DeepSeek в тестах

Alibaba представила новую большую языковую модель Qwen3-Max Thinking, которая уже успела превзойти конкурентов в ряде ключевых бенчмарков. Главной особенностью новинки стал нестандартный подход к логическому «мышлению».

В отличие от классических LLM, использующих линейную генерацию токенов, Qwen3-Max Thinking применяет так называемый «тяжёлый режим» рассуждений. Модель задействует многоэтапную накопительную стратегию: анализирует промежуточные выводы, использует собственный опыт и перераспределяет вычислительные ресурсы на нерешённые участки задачи, избегая повторения уже известных шагов. Такой подход имитирует человеческий процесс рассуждения и помогает выходить из логических тупиков. При этом модель умеет одновременно работать как в режиме размышлений, так и в обычном режиме генерации.

В тестах производительности Qwen3-Max Thinking показала высокие результаты. В бенчмарке GPQA она набрала 92,8 балла, в LiveCodeBench v6 — 91,4 балла. В тесте на логическое мышление HMMT результат составил 98 баллов, что выше показателей Gemini 3 Pro (97,5) и DeepSeek V3.2 (92,5). В Humanity’s Last Exam (HLE) модель получила 49,8 балла против 45,8 у Gemini 3 Pro и 45,5 у GPT-5.2-Thinking. В Arena-Hard v2 Qwen3-Max Thinking набрала 90,2 балла, значительно опередив Claude Opus 4.5 с результатом 76,7.

По стоимости использования модель занимает промежуточное положение между Claude Haiku 4.5 и Gemini 3 Pro: 1 млн входных токенов оценивается в $1,2, а выходных — в $6. Попробовать Qwen3-Max Thinking можно через чат-бот Qwen Chat или с помощью API.

Поделиться:

Интересные

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *