Забывчивый «Трансформер»: почему искусственный интеллект не умеет помнить, как человек

23:07, 31 Мар, 2026
Ирина Валькова
Как устроена память искусственного интеллекта
Иллюстрация: pronedra.ru

Регулярные тренировки помогают человеку поддерживать когнитивные функции и замедлять забывание. На первый взгляд кажется, что для искусственного интеллекта должна работать похожая логика: больше данных — лучше память. Однако в действительности все устроено куда сложнее. Современные нейросети, несмотря на впечатляющие способности, остаются «забывчивыми» системами, чья память принципиально отличается от человеческой.

Об этом в беседе с «Ъ-Наукой» рассказал один из ведущих российских исследователей в области архитектур ИИ Юрий Куратов — руководитель группы «Модели с памятью» в Институте AIRI и старший научный сотрудник МФТИ.

Память без воспоминаний

В отличие от человека, память искусственного интеллекта — это не воспоминания в привычном смысле, а статистические закономерности, зашитые в параметры модели.

Современные языковые модели обучаются на огромных массивах данных — текстах, изображениях, коде — и в процессе обучения формируют связи между входом и ожидаемым результатом. Эти связи фиксируются в весах нейросети.

Фактически, вся «память» модели — это набор чисел. После завершения обучения они не меняются, если модель не дообучается.

Такой подход дает ИИ энциклопедическую широту знаний, но лишает гибкости: если человеку достаточно одного примера, чтобы усвоить новую информацию, нейросети требуется полноценное дообучение.

Три уровня памяти ИИ

Исследователи выделяют три ключевых типа памяти, которые вместе формируют поведение современных моделей.

Параметрическая память

Это «долговременное хранилище» — знания, зашитые в параметрах модели. Именно здесь находятся факты, язык и обобщенные представления о мире.

Такая память формируется на этапе предобучения и может включать сотни миллиардов параметров. Но у нее есть недостаток: она почти не обновляется.

Контекстная (рабочая) память

Это аналог кратковременной памяти человека. Сюда входит все, что модель «видит» прямо сейчас: запрос пользователя, текст диалога, промежуточные вычисления.

Работа с этим типом памяти обеспечивается архитектурой Трансформер — ключевой технологией современных языковых моделей.

Однако именно здесь возникает одно из главных ограничений: чем больше контекст, тем дороже вычисления. Причем зависимость — квадратичная, что делает длинные диалоги и большие документы серьезным вызовом.

Внешняя память

Это любые дополнительные источники: базы данных, интернет, файлы.

Если модели не хватает собственных знаний, она может «подсмотреть» ответ извне и использовать его в текущем контексте.

Фактически, современные ИИ-системы уже работают как гибрид: часть знаний хранится внутри, часть — за пределами модели.

Главная проблема: консолидация памяти

Ключевое ограничение современных ИИ — неспособность эффективно переносить информацию из кратковременной памяти в долговременную.

В нейронауках это называется консолидацией памяти — процессом, благодаря которому человек закрепляет новые знания.

У людей он работает относительно стабильно. У нейросетей — пока нет.

Это означает, что модели плохо учатся «на лету» и не умеют полноценно накапливать опыт без переобучения.

Катастрофическое забывание

Еще одна фундаментальная проблема — так называемое «катастрофическое забывание».

Если нейросеть обучить новой задаче, она может утратить навыки, приобретенные ранее.

Классический пример: модель, различавшая кошек и собак, после дообучения на фруктах начинает хуже справляться с исходной задачей.

Причина проста: все знания хранятся в одном и том же наборе параметров. Обновляя их, модель неизбежно «переписывает» старую информацию.

Как учат ИИ не забывать

Исследователи предлагают несколько решений — ни одно из них пока не является идеальным:

  1. Смешивание данных — обучение одновременно на старых и новых примерах
  2. Дистилляция знаний — сохранение прежнего поведения модели
  3. Разделение параметров — добавление новых «слоев памяти» под разные задачи
  4. Метод LoRA — адаптация модели с минимальными изменениями параметров

Все эти подходы — компромисс между стабильностью (сохранением знаний) и пластичностью (способностью учиться новому).

Память на миллионы страниц

Одно из направлений исследований — работа с длинным контекстом.

Команда Куратова разработала архитектуры, способные обрабатывать до десятков миллионов токенов — это сопоставимо с десятками тысяч страниц текста.

Такие технологии нужны не столько для чтения длинных книг, сколько для реальных задач:

  • анализа больших массивов корпоративной переписки
  • работы с кодовыми базами
  • обработки научных данных

Особенно перспективным направлением стала биология: например, анализ ДНК, где важные зависимости могут находиться на огромном расстоянии друг от друга.

От текста — к длительным задачам

Сегодняшние тесты ИИ постепенно отходят от простой проверки «найди факт в тексте».

На первый план выходит способность:

  • связывать разрозненную информацию
  • работать с длинными диалогами
  • удерживать цель на протяжении длительного времени

Иными словами, важен не объем прочитанного, а устойчивость мышления.

Будущее: память как система

По мнению исследователей, будущее ИИ — за гибридной иерархической памятью.

Она будет включать:

  • быструю рабочую память
  • компактную рекуррентную память для долгосрочных зависимостей
  • механизмы поиска и обращения к внешним данным

Ключевая идея — не хранить все подряд, а уметь выделять главное.

Не помнить все — значит быть умнее

Парадоксально, но идеальная память для ИИ — это не максимальный объем хранения.

Как и человек, эффективная система должна:

  • отбрасывать лишнее
  • сохранять важное
  • быстро находить нужную информацию
  • учиться на ошибках

Современные нейросети пока далеки от этого уровня. Но именно работа с памятью сегодня становится одним из главных направлений развития искусственного интеллекта.

И, возможно, именно здесь лежит ключ к созданию по-настоящему «мыслящих» машин.

Ранее журналисты сайта «Пронедра» писали, что один интерфейс для всех ИИ: как новые агрегаторы меняют работу с нейросетями

Поделитесь этой новостью