Нейросети не могут решить простейшую логическую задачу

На дворе 2024 год… Генеративные нейросети успешно «рассуждают» о мировоззрении Достоевского (что в прошлом месяце доказал мой коллега). По сообщениям в разных блогах (сам не проверял) Chat GPT и ему подобные верно отвечают на большинство тестов ЕГЭ, и совершают массу других «словесных подвигов». То есть они существенно поумнели по сравнению с тем, что было на старте.

И вот — фиаско (!!!) — сегодняшний эксперимент показал, что ни одна из тестируемых нейронок не справилась с очень простой задачкой на элементарную логику. Хотя, казалось бы, способность решать логические задачи должны лежать в основе их работы… «Да — нет», «истина — ложь», «ноль — единица» — это же как раз про компьютеры. А выяснилось, что они (нейросети) таким высоким материям не обучены.

Итак, вот задача (сам только что придумал, вы наверняка можете составить десяток подобных за короткое время):

Об Иванове, Петрове и Сорвиголовайкине известно, что кто-то из них работает шталмейстеррм, кто-то капельдинером, и кто-то маркшейдером.
Сорвиголовайкин старше капельдинера.
Капельдинер старше Иванова.
Шталмейстер старше маркшейдера.
Петров — не маркшейдер, Иванов — не шталмейстер.
У кого какая профессия?

Сразу дам правильный ответ, а потом посмотрим, как раскусывали эту «логическую бомбу» нейросети. Рассуждения здесь очень простые:

Сровиголовайкин старше капельдинера, следовательно он сам не капельдинер, т.е. может быть или шталмейстером, или маркшейдером.
Петров — не макшейдер, следовательно может быть или шталмейстером, или капельдинером.
Аналогично, т.к. Иванов — не шталмейстер, то он капельдинер или маркшейдер. Но это противоречит условию о том, что капельдинер старше Иванова. Значит Иванов не может быть капельдинером, и он — однозначно маркшейдер.
Раз Иванов — маркшейдер, предположение о том, что им может быть Сровиголовайкин ложно, и получается, что Сровиголовайкин — шталмейстер.
Две профессии распределены, остается капельдинер — это последний из нашей компании, Петров.
Правильный ответ: Иванов — маркшейдер, Петров — капельдинер, Сорвиголовайкин — шталмейстер.

Кстати, утверждение «шталмейстер старше маркшейдера» избыточно, задачу можно решить и без этой информации. Впрочем, она не противоречит другим условиям.

Переходим к тестированию нейросетей. Состав испытуемых у нас сегодня весьма представительный: Claude 3 Sonnet, GPT Chat, GIGA Chat и Yandex GPT. Ниже по порядку цитирую их ответы.


Claude 3 Sonnet:

Чтобы решить эту логическую задачу, давайте проанализируем данные шаг за шагом:

  1. Есть три человека: Иванов, Петров и Сорвиголовайкин.
  2. Их профессии: шталмейстер, капельдинер и маркшейдер.
  3. Сорвиголовайкин старше капельдинера.
  4. Капельдинер старше Иванова.
  5. Шталмейстер старше маркшейдера.
  6. Петров — не маркшейдер.
  7. Иванов — не шталмейстер.

Из пунктов 6 и 7 следует, что Петров — шталмейстер, а Иванов — капельдинер.

Из пунктов 3 и 4 следует, что Сорвиголовайкин старше Иванова.

Из пункта 5 следует, что Сорвиголовайкин — маркшейдер, так как он младше шталмейстера (Петрова).

Итак, профессии распределились следующим образом:
Петров — шталмейстер
Иванов — капельдинер
Сорвиголовайкин — маркшейдер

«Из пунктов 6 и 7 следует, что Петров — шталмейстер, а Иванов — капельдинер.» — логика нарушена уже здесь, нейросеть даже не рассматривает вариант, что у этих людей могут быть другие профессии. Отсюда — следующие ошибки, и в итоге — неверный ответ.


ChatGPT 3.5:

Давайте разберемся:

  1. Сорвиголовайкин старше капельдинера. Это означает, что Сорвиголовайкин не может быть капельдинером, так как он старше этой профессии.
  2. Капельдинер старше Иванова. Значит, Иванов не может быть капельдинером, так как он младше капельдинера. А значит, Иванов может быть либо маркшейдером, либо шталмейстером.
  3. Шталмейстер старше маркшейдера. Это означает, что шталмейстер не может быть самым молодым из троих, так как маркшейдер самый младший.

Теперь рассмотрим условия:

  • Петров не маркшейдер. Поэтому Петров не может быть младшим, а значит, он либо капельдинер, либо шталмейстер.
  • Иванов не шталмейстер. Поскольку Иванов не может быть капельдинером, значит, он должен быть маркшейдером.

Из этих утверждений следует:

  • Петров — либо капельдинер, либо шталмейстер.
  • Иванов — маркшейдер.
  • Сорвиголовайкин — не капельдинер и не маркшейдер, следовательно, он должен быть шталмейстером.

Таким образом:

  • Петров — капельдинер или шталмейстер.
  • Иванов — маркшейдер.
  • Сорвиголовайкин — шталмейстер.

Надеюсь, это помогло!

Что сказать? Начало было хорошим, и практически совпало с моими собственными рассуждениями… Но вывод!? Иванов — да, правильно, он маркшейдер, Сорвиголовайкин —  да, действительно, шталмейстер. Ребенок бы теперь определил, что оставшийся Петров может быть только капельдинером. Ан нет: «Петров — капельдинер или шталмейстер». Ну что это за… 😕


GigaChat (разработка СБЕРа, он оказался весьма лаконичным):

Поскольку Сорвиголовайкин старше капельдинера, а капельдинер старше Иванова, то Сорвиголовайкин старше Иванова. Так как Петров не является маркшейдером, а шталмейстер старше маркшейдера, то Петров является шталмейстером. Следовательно, Иванов является капельдинером, а Сорвиголовайкин — маркшейдером.

Пальцем в небо. Ни для одного человека не названа верная порофессия. Увы…
Пожалуй, дабы никто не решил, что все это моя выдумка, добавлю скриншот:

Решение логической задачи от GigaChat


Yandex GPT (псевдоним «Алиса» 👩 ):

Алиса - отказ от ответа

А вот это честный ответ — «не могу»! И правильно, не можешь, на заложили в тебя такую способность разработчики, так и не берись.


По итогам этого не сложного (и не претендующего на объективность) теста, я ставлю Яндекс на первое место — за честность. Второе, третье и четвертое места после жаркой дискуссии  решено не присуждать 😉.

Поделиться:

Добавить комментарий