Нейросеть научилась анализировать научные тексты

Учёные Московского государственного университета обучили и опубликовали в открытом доступе нейронную сеть SciRus-tiny для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке. С её помощью можно решать множество прикладных задач, начиная с поиска и классификации и заканчивая извлечением научных терминов. Модель показывает высокие значения метрик, имея при этом небольшое количество параметров, а значит, гораздо меньшие требования к вычислительным ресурсам. Данное свойство делает SciRus-tiny эффективной моделью для использования в условиях высокой нагрузки.

Для общеязыковых тематик существует множество мультиязычных бенчмарков (наборов тестовых задач) для оценки качества эмбеддингов, полученных с помощью разных моделей. С помощью этих бенчмарков можно сравнивать модели и выбирать подходящую для своей задачи. К сожалению, в области эмбеддингов научных текстов выбор не такой широкий, особенно для русского языка. Для английского языка существует бенчмарк SciDocs и его расширенная версия SciRepEval. Для русского языка первый бенчмарк ruSciDocs был опубликован около года назад вместе с моделью ruSciBERT и состоял из небольшого количества данных на русском языке, которые смогли собрать в открытом доступе.

В этом году учёные смогли сделать следующий шаг и подготовили бенчмарк ruSciBench, который состоит из 14 задач, выполняемых на почти 400 тыс. параллельных аннотациях на русском и английском языках. Авторы отмечают, что опубликованная модель – первая в планируемой линейке. Разработанная нейросеть ляжет в основу поисково-рекомендательной системы для учёных, тестирование которой начнётся уже в начале следующего года. В дальнейшем планируется разработка моделей большего размера, что позволит достичь ещё более высокого качества.

Алексей Клёсов

Вам также может понравиться

Сбер запустил платформу для создания виртуальных персонажей Visper

Машинное обучение поможет предсказать рак лёгких

Созданы роботы для опыления растений