ИИ умеет заметить чужую мысль, подсунутую ему в голову
Исследователи научились вставлять модели «мысль» напрямую в её внутренности — и Claude в части случаев это замечает и говорит «мне что-то подкинули». Разобрали и сам механизм: как внутри срабатывает детектор подмены. Это про то, есть ли у модели хоть какое-то самонаблюдение.
Заметки