16.06.2025
Подписывайтесь на Telegram-канал по ссылке

Учёные выяснили, как искусственный интеллект принимает решения

SAE Match

Российские учёные разработали новый метод, который помогает понять, почему ИИ-модель приняла то или иное решение в процессе вычисления, и при необходимости повлиять на неё. По мнению экспертов, этот метод, названный SAE Match, может помочь преодолеть эффект «чёрного ящика» для бизнеса и потенциально подтолкнуть вперёд весь рынок, поскольку компании начнут больше доверять технологии. Исследование опубликовано по ссылке.

Современные языковые модели состоят из нескольких слоёв, каждый из которых использует результат предыдущего: так модель старается улучшить свои предсказания слой за слоем. Однако иногда модель может выдавать недостоверную или даже оскорбительную информацию. Ранее не существовало метода, который позволял бы проследить, как концепции изменяются от слоя к слою. SAE Match стал первым инструментом, который не просто фиксирует концепции на отдельных слоях, а анализирует их эволюцию в процессе вычислений.

Эксперименты на ряде моделей показали, что новый метод помогает отслеживать признаки, которые остаются неизменными на нескольких слоях сети. Это делает поведение искусственного интеллекта более предсказуемым и понятным, в том числе даёт возможность контролировать процесс генерации текста, а не просто накладывать внешние ограничения или обучать модель на новых данных, что дорого и требует больших вычислительных ресурсов.

SAE Match не требует дополнительных данных или дообучения модели, что делает его гораздо более доступным, чем другие методы контроля работы ИИ. Это особенно важно для небольших команд, которые не могут позволить себе сбор и обработку больших наборов данных. Также метод позволяет отслеживать, когда модель начинает предсказывать нежелательные или потенциально опасные фразы, и предотвращать их появление — это поможет создавать более безопасные и этичные решения на базе искусственного интеллекта.