20.04.2024
Подписывайтесь на Telegram-канал по ссылке

Нейросеть научилась удерживать плазму в токамаке

Удерживать плазму в токамаке научилась Н

Исследователи из DeepMind вместе с коллегами из Швейцарии создали алгоритм машинного обучения для удержания плазмы в токамаке. Они обучили его на высокоточном симуляторе, а затем показали работоспособность подхода на реальном токамаке в Швейцарии. Статья опубликована в журнале Nature.

Термоядерный реактор предполагает создание плазмы, в которой происходит управляемый термоядерный синтез — слияние ядер с выделением огромного количества энергии. Для термоядерных реакторов предлагались разные конструкции, но на данный момент лидирует токамак — эту конструкцию разработали советские физики Тамм и Сахаров. Она же используется в международном реакторе ITER, который должен начать работу и получить первую плазму в 2025 году. Токамак состоит из тороидальной камеры, вокруг которой расположены магнитные катушки. Они позволяют удерживать плазму с помощью магнитного поля, не давая ей столкнуться со стенками токамака и разрушить их.

Ещё в середине XX века стало ясно, что удержание плазмы магнитным полем — крайне сложная задача, потому что в ней неминуемо возникают неустойчивости. В итоге даже лучшие токамаки удерживают её в течение очень небольшого времени: в прошлом году китайский EAST установил рекорд, удержав горячую плазму (120 миллионов градусов) в течение 101 секунды, а создатели ITER рассчитывают на 400-600 секунд.

Исследователи из DeepMind во главе с Йонасом Бюхли (Jonas Buchli) и Бренданом Трейси (Brendan Tracey) вместе с коллегами из Швейцарского центра плазмы Федеральной политехнической школы Лозанны под руководством Федерико Феличи (Federico Felici) показали, что алгоритм машинного обучения можно обучить управлять параметрами магнитных катушек токамака и удерживать в нём плазму. Традиционно для этой задачи используется набор алгоритмов-контроллеров, каждый из которых отвечает за отдельный целевой параметр: вертикальное и горизонтальное положение плазмы, её форма (профиль), ток.

Авторы новой работы предложили использовать единый и обучаемый нейросетевой контроллер. Ему необходимо задать желаемые параметры плазмы, которых может быть множество, а также их критические величины, позволяющие сформировать функцию потерь. Исследователи использовали метод максимальной апостериорной оптимизации, способный находить оптимальный режим работы (policy) в условиях недостаточного объёма данных. Он устроен по принципу «исполнитель-критик», где исполнитель принимает решение, а критик сообщает ему, насколько хороший результат оно дало. В данном случае авторы реализовали асимметричный вариант метода: при обучении в симуляции используется большая нейросеть-критик, а обучаемая ей нейросеть-исполнитель для реального токамака имеет гораздо меньший размер. Это обусловлено ограничениями по вычислительной мощности: контроллер должен работать с частотой 10 килогерц и тратить на вычисление новых параметров для катушек не дольше 50 микросекунд.

Нейросеть-исполнитель построена по типу многослойного перцептрона с двумя скрытыми слоями по 256 элементов, а в критике перед перцептроном стоит рекуррентная LSTM-нейросеть. Алгоритмы обучались на высокоточном симуляторе токамака, разработанном специалистами Швейцарского центра плазмы. После обучения авторы проверили работу нейросети-исполнителя на реальном токамаке в этом центре и подтвердили, что он способен удерживать плазму и поддерживать разные её конфигурации, в том числе двойную, при котором в токамаке формируется два отдельных плазменных шнура.