03.05.2024
Подписывайтесь на Telegram-канал по ссылке

Митап «Салют, GigaChat» про речевые технологии и большие языковые модели

Салют GigaChat митап

4 декабря 2023 года состоится встреча с командами разработки GigaChat и речевых технологий, на которую приглашаются ML-разработчики и Data Science-специалисты. На мероприятии можно будет не только участвовать в дискуссиях с другими участниками митапа, но и задавать вопросы спикерам во время докладов. Для участия во встрече необходимо зарегистрироваться по ссылке.

Программа

  • Что мы улучшили в процессе pre-training LLM. Расскажут о деталях новой модели, обсудят сбор данных для предобучения и метрики, которых достигают 7B и 29B модели. Поговорят о планах на будущее и улучшениях для новых высот в обработке естественного языка.
  • Наш путь в процессе Alignment для совершенства моделей глубокого обучения. Поделятся своим путём в развитии Alignment и покажут, как делать основной его шаг — SFT (Supervised Fine-tuning). Расскажут, как улучшали качество модели, а также стратегии для дальнейшего совершенствования.
  • Speech-only Pre-training: обучение универсального аудиоэнкодера. Покажут перспективный путь создания моделей распознавания: speech-only self-supervised learning. Поделятся опытом обучения Wav2Vec2-like моделей, рассмотрят подводные камни подхода. Обсудят дообучение для задач распознавания речи и эмоций.
  • Intended Query Detection: распознаём только нужные запросы. Рассмотрят задачу детекции направленной в устройство речи. Обсудят важность компоненты для взаимодействия пользователя с устройством. Расскажут, как улучшить качество production-системы на десятки процентов с помощью transfer learning, semi-supervised и multi-task подходов.
  • Как мы заставили модель синтеза речи 2023 года говорить лучше модели 2018 года. Доклад об архитектуре VITS. И о том, какие модификации сделаны в обучении, архитектуре и инференсе модели, чтобы победить прод и научить модель разговаривать лучше.