01.03.2024
Подписывайтесь на Telegram-канал по ссылке

Нейросеть научилась анализировать научные тексты

Sci Rus tiny

Учёные Московского государственного университета обучили и опубликовали в открытом доступе нейронную сеть SciRus-tiny для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке. С её помощью можно решать множество прикладных задач, начиная с поиска и классификации и заканчивая извлечением научных терминов. Модель показывает высокие значения метрик, имея при этом небольшое количество параметров, а значит, гораздо меньшие требования к вычислительным ресурсам. Данное свойство делает SciRus-tiny эффективной моделью для использования в условиях высокой нагрузки.

Для общеязыковых тематик существует множество мультиязычных бенчмарков (наборов тестовых задач) для оценки качества эмбеддингов, полученных с помощью разных моделей. С помощью этих бенчмарков можно сравнивать модели и выбирать подходящую для своей задачи. К сожалению, в области эмбеддингов научных текстов выбор не такой широкий, особенно для русского языка. Для английского языка существует бенчмарк SciDocs и его расширенная версия SciRepEval. Для русского языка первый бенчмарк ruSciDocs был опубликован около года назад вместе с моделью ruSciBERT и состоял из небольшого количества данных на русском языке, которые смогли собрать в открытом доступе.

В этом году учёные смогли сделать следующий шаг и подготовили бенчмарк ruSciBench, который состоит из 14 задач, выполняемых на почти 400 тыс. параллельных аннотациях на русском и английском языках. Авторы отмечают, что опубликованная модель – первая в планируемой линейке. Разработанная нейросеть ляжет в основу поисково-рекомендательной системы для учёных, тестирование которой начнётся уже в начале следующего года. В дальнейшем планируется разработка моделей большего размера, что позволит достичь ещё более высокого качества.