29.03.2024
Подписывайтесь на Telegram-канал по ссылке

Нейросеть смогла оцифровать астрономические рукописи о солнечной активности

Reconstruction of the Solar Activity

Российские учёные смогли перевести в цифровой формат тысячи рукописей о солнечной активности конца XIX — начала XX веков из обсерватории в Цюрихе. В этом им помогла нейросетевая модель, которая способна с высокой точностью читать написанные от руки тексты. В результате авторы смогли детально восстановить картину солнечной активности за более чем 30 лет наблюдений, что позволит астрономам уточнить представления о характере солнечной активности и особенностях солнечных циклов того времени. Результаты работы опубликованы в журнале Solar Physics.

Человечество наблюдает солнечные пятна с помощью телескопов уже более четырёх веков. В те далекие времена записи велись от руки, а в наше время специалисты занимаются их расшифровкой и оцифровкой. Занятие этим вручную — долгий и трудоёмкий процесс, а потому специалисты прибегают к помощи искусственного интеллекта. В своей новой работе исследователи Московского университета совместно с коллегами из Института механики сплошных сред УрО РАН (Пермь) и Потсдамского астрофизического института имени Лейбница (Германия) занялись переведением в цифровой формат рукописей о солнечной активности конца XIX — начала XX веков из обсерватории в Цюрихе.

«Мы разработали нейросетевую модель, которая с высокой точностью читает рукописный текст. В нашем случае текстом были координаты активных областей Солнца, записанные в таблицы. Примечательно, что ни одна из готовых программ, которые мы тестировали в начале процесса, не показывала удовлетворительного качества. Поэтому пришлось разрабатывать собственную модель — за это отвечали сотрудники МГУ», — рассказал Егор Илларионов, кандидат физико-математических наук, доцент кафедры теории вероятностей механико-математического факультета МГУ.

Несколько особенностей делают модель уникальной. Во-первых, помимо результата распознавания, она возвращает оценку уверенности как в числе целиком, так и в каждом отдельном символе, составляющем число, и предлагает набор возможных интерпретаций. Это помогает при дополнительной проверке результатов. Во-вторых, удалось разработать процедуру, которая позволяет модели «в режиме онлайн» адаптироваться под новые стили почерка (наблюдатели, заполнявшие каталог, неоднократно менялись за 30 лет) и особенности страниц. Это позволило значительно повысить точность по сравнению с моделью, которая работает с фиксированными предобученными параметрами.

С помощью разработанной нейросетевой модели удалось впервые оцифровать (прочесть) более десяти тысяч страниц рукописных каталогов по солнечной активности на рубеже XIX—XX веков. В результате удалось восстановить детальную картину положений солнечных пятен, факелов и протуберанцев за более чем 30 лет наблюдений. Это позволит астрономам лучше узнать прошлое Солнца, уточнить представления о характере солнечной активности и особенностях солнечных циклов в историческом периоде.

«В работе нужно выделить два аспекта. Во-первых, опубликован новый детальный датасет, охватывающий более чем 30 лет наблюдений, проводимых Цюрихской обсерваторией (одной из старейших в мире) в конце XIX — начале XX веков. Этот набор данных существенно уточняет наше представление о характере солнечной активности в историческом периоде и теперь доступен для исследования специалистам по солнечной физике. Во-вторых, предложенная технология распознавания текста в документах может быть адаптирована к самым разным задачам, в частности там, где ручная обработка оказывается слишком трудоёмкой из-за больших объёмов текстов», — подытожил Егор Илларионов.