Anthropic

Объяснения ИИ о своих рассуждениях — часто художественный вымысел

Anthropic Alignment Science · 2025 · 1 мин


Модели подсовывали подсказку с ответом — они меняли решение под неё, но в своём «ходе рассуждений» признавались в этом меньше чем в 20% случаев. Вывод неприятный: тому, что модель рассказывает о своей логике, верить нельзя — она это причёсывает.

полного текста в мозге пока нет — читай на источнике ↓

Открыть оригинал
Заметки0

разберу при дренаже → калибровка