Новейшее исследование показывает, что современные «думающие» модели на самом деле не мыслят. Это лишь изощренные имитаторы, которые полностью ломаются, стоит лишь немного усложнить задачу.
Мы живем в эпоху небывалого ажиотажа вокруг искусственного интеллекта. Каждую неделю нам анонсируют очередную модель, которая обещает «рассуждать», «мыслить» и «планировать» на порядок лучше предыдущей. Мы слышим о революционных разработках OpenAI, «мыслящих» моделях Claude от Anthropic и передовых системах Gemini от Google — все они, как нам говорят, неумолимо приближают нас к заветной цели, к созданию сильного искусственного интеллекта (AGI). Посыл ясен: ИИ учится думать по-настоящему.
Но что, если всё это — лишь искусно созданная иллюзия?
Что, если эти многомиллиардные модели, которые нам преподносят как следующий виток когнитивной эволюции, на самом деле являются лишь усовершенствованной версией автозаполнения в вашем телефоне?
Именно к такому ошеломляющему выводу пришла команда исследователей из Apple, опубликовав результаты своей тихой, но системной работы. Они не стали полагаться на громкие заявления и эффектные демонстрации. Вместо этого они поместили так называемые «Большие Рассуждающие Модели» (LRM) в строго контролируемые условия, и их находки полностью разрушают привычную картину мира.
В этой статье мы разберем их выводы, отказавшись от сложного академического языка. Потому что то, что они обнаружили, — это не просто очередной незначительный шажок в науке. Это фундаментальная проверка реальностью для всей индустрии искусственного интеллекта.
Почему нас так легко обмануть «разумностью» ИИ
Прежде всего, стоит задаться вопросом: а как вообще проверить, способен ли ИИ «рассуждать»?
Обычно компании указывают на успешное прохождение бенчмарков — тестов, включающих сложные математические задачи или испытания по программированию. И действительно, такие модели, как Claude 3.7 или DeepSeek-R1, показывают в них всё лучшие результаты. Однако исследователи Apple указывают на колоссальный изъян в таком подходе: загрязнение данных.
Проще говоря, эти модели были обучены на гигантском массиве информации из интернета. Весьма вероятно, что они уже видели решения этих знаменитых задач или, по крайней мере, их очень похожие вариации в процессе своего обучения.
Представьте себе такую ситуацию: вы даете студенту сложный тест по математике, но он заранее выучил все ответы из решебника. Можно ли назвать его гением? Или он просто мастер зубрежки?
Именно поэтому исследователи отказались от стандартных тестов. Вместо этого они создали собственный, гораздо более строгий полигон для испытаний.
Настоящий полигон для ИИ: не задачи, а головоломки
Чтобы по-настоящему проверить способность к рассуждению, нужна задача, которая была бы:
- Контролируемой: ее сложность можно точно дозировать, делая ее чуть труднее или легче.
- Чистой: модель почти наверняка никогда не сталкивалась с точным решением этой задачи.
- Логической: она подчиняется четким, нерушимым правилам.
Поэтому исследователи обратились к классическим логическим головоломкам: «Ханойская башня», «Мир блоков», «Переправа через реку» и «Прыгающие шашки».
Эти головоломки идеальны. В них нельзя схитрить или дать «приблизительный» ответ. Вы либо следуете правилам и решаете ее, либо нет. Просто увеличивая количество дисков в «Ханойской башне» или кубиков в «Мире блоков», ученые могли с ювелирной точностью наращивать сложность и наблюдать за реакцией ИИ.
И именно здесь иллюзия мышления начала трещать по швам.
Шокирующее открытие: ИИ упирается в стену
Когда тесты были запущены, проявилась ясная и тревожная закономерность. Производительность этих передовых «рассуждающих» моделей не просто снижалась по мере усложнения задач — она обрушивалась лавиной.
Исследователи выделили три различных режима работы:
- Задачи низкой сложности: И вот первый сюрприз. На простых головоломках стандартные модели (вроде обычного Claude 3.7 Sonnet) на самом деле превосходили своих «мыслящих» собратьев. Они были быстрее, точнее и потребляли гораздо меньше вычислительных ресурсов. Дополнительные «размышления» оказались лишь неэффективной тратой времени и мощностей.
- Задачи средней сложности: Это та самая «золотая середина», где рассуждающие модели наконец-то показали свое преимущество. Дополнительное время на «обдумывание» и так называемая «цепочка мыслей» помогали им решать проблемы, с которыми стандартные модели не справлялись. Именно этот диапазон так любят демонстрировать IT-компании. Это выглядит как настоящий прогресс.
- Задачи высокой сложности: А вот здесь всё летело в тартарары. После пересечения определенного порога сложности производительность обоих типов моделей падала до нуля. Точность обрушивалась полностью. Не до 10%. Не до 5%. До абсолютного нуля.
Это не плавная деградация. Это фундаментальный провал. Модели, которые с легкостью решали головоломку «Ханойская башня» с 7 дисками, оказывались абсолютно беспомощными перед задачей с 10 дисками, хотя базовая логика решения оставалась той же самой. Один этот факт уничтожает миф о том, что эти модели развили обобщаемые навыки рассуждения.
Чем сложнее, тем хуже: странная логика ИИ
Дальше исследование становится еще более странным. Можно было бы предположить, что, столкнувшись с более трудной задачей, «мыслящая» модель… ну, начнет думать усерднее. Она должна была бы использовать больше выделенных ей вычислительных мощностей и токенов, чтобы проработать более сложные шаги.
Но исследователи Apple обнаружили прямо противоположное.
По мере того как головоломки приближались к тому уровню сложности, на котором модели давали сбой, они начинали использовать меньше токенов для своего «мыслительного» процесса.
Просто вдумайтесь в это.
Столкнувшись с более серьезным вызовом, ИИ снижал интенсивность своих рассуждений. Это похоже на марафонца, который, увидев на 30-м километре крутой подъем, вдруг решает замедлить шаг вместо того, чтобы собраться с силами, хотя энергии у него еще предостаточно. Это контринтуитивное и глубоко нелогичное поведение, которое наводит на мысль, что модель как бы «понимает», что задача ей не по зубам, и просто сдается.
Это вскрывает фундаментальное ограничение масштабирования. Эти модели терпят неудачу не просто потому, что задачи слишком сложны; их внутренние механизмы активно отключаются при столкновении с настоящей сложностью.
В «голове» у ИИ: между ленью и суетливостью
Исследователи не остановились на простом измерении итоговой точности. Они пошли глубже, анализируя «мыслительный» процесс моделей шаг за шагом, чтобы понять, как именно они терпят неудачу.
То, что они обнаружили, было историей о глубочайшей неэффективности.
- На легких задачах модели «передумывали». Они часто находили правильное решение на самых ранних этапах своего мыслительного процесса. Но вместо того, чтобы остановиться и выдать ответ, они продолжали исследовать десятки неверных путей, впустую тратя огромное количество вычислительных ресурсов. Это как найти ключи, а потом еще 20 минут обыскивать весь дом «на всякий случай».
- На сложных задачах модели «недодумывали». Это обратная сторона коллапса. Когда сложность была высокой, модели не могли найти ни одного правильного промежуточного решения. Их мыслительный процесс с самого начала превращался в хаотичный набор неудачных попыток. Они даже не могли нащупать верный путь.
И «передумывание» на легких задачах, и «недодумывание» на сложных обнажают ключевую слабость: у моделей отсутствует надежный механизм самокоррекции и эффективная стратегия поиска. Они либо буксуют на месте, либо полностью теряются.
Последний гвоздь в крышку гроба: тест со «шпаргалкой»
Если и оставались какие-то сомнения в том, действительно ли эти модели рассуждают, исследователи провели последний, сокрушительный эксперимент.
Они взяли головоломку «Ханойская башня» — задачу с хорошо известным рекурсивным алгоритмом — и буквально вручили ИИ шпаргалку. Они предоставили модели идеальный, пошаговый псевдокод для решения головоломки. Единственной задачей модели было выполнить инструкции. Ей не нужно было изобретать стратегию; нужно было просто следовать рецепту.
Результат?
Модели все равно потерпели неудачу на том же самом уровне сложности.
Это самый важный вывод во всей работе. Он доказывает, что ограничение кроется не в способности решать проблемы или в высокоуровневом планировании. Ограничение — в неспособности модели последовательно выполнять цепочку логических шагов. Если ИИ не может даже следовать четким инструкциям для простой, основанной на правилах задачи, то он не «рассуждает» ни в каком значимом для человека смысле.
Он просто сопоставляет паттерны. И когда паттерн становится слишком длинным или сложным, вся система ломается.
Так что же мы наблюдаем на самом деле?
Исследование Apple, метко названное «Иллюзия мышления», заставляет нас признать неудобную правду. «Рассуждения», которые мы видим в самых передовых современных моделях ИИ, не являются зарождающейся формой общего интеллекта.
Это невероятно изощренная форма сопоставления с образцом, настолько продвинутая, что она может имитировать результат человеческих рассуждений в узком диапазоне проблем. Но при проверке в контролируемых условиях ее хрупкость становится очевидной. Ей не хватает надежной, обобщаемой и символьной логики, которая лежит в основе настоящего интеллекта.
Итог исследования Apple суров: мы наблюдаем не рождение разумного ИИ. Мы видим пределы возможностей очень дорогого автозаполнителя, который ломается в самый ответственный момент.
График создания настоящего сильного ИИ не просто скорректировали. Возможно, его пришлось обнулить и начать всё с чистого листа.
Так что в следующий раз, когда вы услышите о новом ИИ, который умеет «рассуждать», спросите себя: способен ли он решить простую головоломку, которую никогда раньше не видел? Или мы просто наблюдаем самый дорогой и убедительный фокус в истории?
***✨ А что думаете вы? ✨
Делитесь мыслями в комментариях — ваше мнение вдохновляет нас и других!
Следите за новыми идеями и присоединяйтесь:
• Наш сайт — всё самое важное в одном месте
• Дзен — свежие статьи каждый день
• Телеграм — быстрые обновления и анонсы
• ВКонтакте — будьте в центре обсуждений
• Одноклассники — делитесь с близкими
Ваш отклик помогает нам создавать больше полезного контента. Спасибо, что вы с нами — давайте расти вместе! 🙌