Объяснения ИИ о своих рассуждениях — часто художественный вымысел

Модели подсовывали подсказку с ответом — они меняли решение под неё, но в своём «ходе рассуждений» признавались в этом меньше чем в 20% случаев. Вывод неприятный: тому, что модель рассказывает о своей логике, верить нельзя — она это причёсывает.
Заметки