Команда учёных из Университетского колледжа Лондона разработала новую модель машинного обучения. Главной новинкой этой модели является её умение не только обучаться, но и забывать накопленную информацию. Исследователи показали, что умение забывать помогает гораздо быстрее обучаться новым языкам, имея навыки работы с основными — английским и испанским. Учёные считают, что модель приближает нас к созданию ИИ-моделей, которые понимают язык. Исследование опубликовано на arXiv.
Сегодня языковые ИИ-модели в основном работают на основе искусственных нейронных сетей. Каждый «нейрон» в сети представляет собой математическую функцию, которая получает сигналы (информацию) от других таких же нейронов (предыдущего слоя), выполняет некоторые вычисления и отправляет сигналы нейронам следующего слоя.
Первоначальное состояние слоёв более или менее случайно, но в процессе обучения поток информации между нейронами постепенно улучшает состояние нейросети, и она адаптируется к обучающим данным. Например, если исследователь ИИ хочет создать двуязычную модель (скажем, переводчик), он обучит модель на большом наборе тестов на обоих языках. Это позволит нейросети настроить связи между нейронами таким образом, чтобы связать текст на одном языке с эквивалентным значением слов и предложений на другом.
Но такой процесс обучения требует больших вычислительных мощностей. Если модель работает не очень хорошо или потребности пользователя в дальнейшем меняются, модель сложно адаптировать. Учёные попытались обойти эти ограничения и обучили нейронную сеть одному языку, а затем удалили параметры, связанные со строительными блоками слов, так называемыми токенами. Они хранятся в специальном слое нейронной сети, так называемом вставочном слое (embedding layer). Все остальные слои модели учёные не тронули. После стирания токенов первого языка они переобучили модель на втором языке. В результате вставочный слой заполнился токенами второго языка.
Input layer (входной слой) отвечает за приём входных данных и передачу их следующему слою. Это первый слой в нейронной сети. Hidden layers (скрытые слои) можно найти почти в каждом типе нейронных сетей, за исключением некоторых однослойных типов, таких как перцептрон. В нейронной сети может быть несколько скрытых слоёв. Количество скрытых слоев и число нейронов в каждом слое может варьироваться в зависимости от сложности решаемой задачи. Output layer (Выходной слой) — последний слой в нейронной сети, который производит вывод или предсказание. Embedding Layers (вставочные слои) — коротко говоря, этот слой переводит входную информацию из многомерного, сильно разрежённого пространства в пространство более низкой размерности, что позволяет сети узнать больше о взаимосвязи между входными данными и обрабатывать их более эффективно.
Хотя модель с забыванием оказалась достаточно эффективной, чтобы добавить новый язык к уже обученной модели по-прежнему требовалось много лингвистических данных и большие вычислительные мощности. Учёные попытались научить модель правильно забывать: вместо обучения, однократного стирания вставочного слоя и последующего повторного обучения, они решили периодически сбрасывать вставочный слой во время первоначального обучения. Благодаря этому вся модель обучается забывать. Это означает, что когда вы хотите добавить к модели ещё один язык, это сделать проще, потому что вы уже обучали модель правильно забывать и заново доучиваться на пустом слое. Она к этому готова.
Исследователи взяли широко используемую языковую модель RoBERTa, обучили её, используя свою технику периодического забывания, и сравнили с производительностью той же модели, но обученной с использованием стандартного подхода, то есть, без забывания. Модель с забыванием показала себя немного хуже, чем обычная, получив оценку 85,1 по сравнению с 86,1 по общему показателю языковой точности. Затем учёные переобучили модели на других языках, используя гораздо меньшие наборы данных — всего 5 миллионов токенов, а не 70 миллиардов, которые они использовали во время обучения первому языку. Точность стандартной модели снизилась в среднем до 53,3, а модели с забыванием упала только до 62,7. То есть модель с забыванием показала себя несколько лучше.
Модель с забыванием показала себя намного лучше, когда команда ввела вычислительные ограничения во время переобучения. Когда исследователи сократили продолжительность обучения со 125 000 шагов до всего лишь 5 000, точность модели с забыванием снизилась в среднем до 57,8, в то время как точность стандартной модели упала до 37,2, что не лучше, чем случайная выборка. Команда пришла к выводу, что периодическое забывание, по-видимому, улучшает модель. Поскольку модель забывает и переучивается во время обучения, обучать сеть чему-то новому становится легче. Это говорит о том, что когда языковые модели обучаются понимать язык, они делают это на более глубоком уровне, чем просто сопоставление значений слов.
Этот подход аналогичен тому, как работает наш мозг. Человеческая память в целом не очень хороша для точного сохранения больших объёмов информации. Вместо этого люди склонны запоминать суть нашего опыта, абстрагируя и экстраполируя его. Включение в искусственный интеллект процессов, похожих на происходящие в мозге человека, таких как адаптивное забывание, — это один из способов добиться более гибкой работы ИИ-модели. Эта модель может многое сказать и о том, что такое вообще «понимание». Учёные надеются, что модели с забыванием помогут применить последние достижения в области искусственного интеллекта к большему количеству языков.