Нейросеть научили рассказывать, что у неё «в голове»
Чтобы понять, что происходит внутри ИИ, раньше приходилось вручную расшифровывать сигналы между его нейронами. Anthropic сделали систему, которая заставляет саму модель описывать своё внутреннее состояние обычным текстом — ИИ как бы проговаривает, что он на самом деле думает.
Заметки