Anthropic

ИИ умеет заметить чужую мысль, подсунутую ему в голову

arXiv · Anthropic · 22 мар 2026 · 1 мин

Исследователи научились вставлять модели «мысль» напрямую в её внутренности — и Claude в части случаев это замечает и говорит «мне что-то подкинули». Разобрали и сам механизм: как внутри срабатывает детектор подмены. Это про то, есть ли у модели хоть какое-то самонаблюдение.

полного текста в мозге пока нет — читай на источнике ↓

Открыть оригинал

Заметки0

разберу при дренаже → калибровка