08.10.2024
Подписывайтесь на Telegram-канал по ссылке

Сбер выложил русскоязычную модель GPT-3 в открытый доступ

ruGPT-3

Сбер выложил в открытый доступ на GitHub русскоязычную модель GPT-3 Large с 760 миллионами параметров. Об этом рассказал Сергей Марков, управляющий директор департамента SberDevices.

28 мая 2020 года группа учёных и инженеров из OpenAI представила алгоритм GPT-3, который умеет работать с текстом, например, писать стихи, новости, придумывать шутки, отвечать на вопросы и так далее. До недавних пор все возможности GPT-3 могли по достоинству оценить лишь англоязычные пользователи. Специалисты Сбера решили исправить эту ситуацию. Совместно с коллегами из команды AGI NLP им удалось собрать первую версию русскоязычного обучающего корпуса суммарным объёмом свыше 600 Гб. В него вошла огромная коллекция русской литературы, снапшоты русской и английской Википедии, коллекция снапшотов новостных и вопрос-ответных сайтов, публичные разделы Pikabu, полная коллекция материалов научно-популярного портала 22century.ru и банковского портала banki.ru, а также корпус Omnia Russica.

В 2020 году году в рамках AI Journey команда Sberbank.AI запустила конкурс «AI 4 Humanities: ruGPT-3». Участникам предлагается представить прототипы решений для любой бизнес- или социальной задачи, созданных с помощью предобученной модели ruGPT-3. Участникам специальной номинации «AIJ Junior» предлагается на базе ruGPT-3 создать решение по генерации осмысленного эссе по четырем гуманитарным предметам (русский язык, история, литература, обществознание) уровня 11 класса (ЕГЭ) по заданной теме/тексту задания.

Специально для этих соревнований специалисты Сбера обучили три версии модели GPT-3:

  1. GPT-3 Medium,
  2. GPT-3 Large с чередованием sparse и dense-блоков трансформера,
  3. наиболее «мощную» GPT-3 Large, составленную из одних только dense-блоков.

Ссылка на русскоязычную модель ruGPT-3.