Статьи / Учебный центр Rasa: Предвзятость в векторном представлении слов
07.04.2024 г., перевод статьи из блога Rasa, Sonam Pankaj
Планируете запускать модель в работу? А как насчет предвзятости — сексизм, шовинизм — в данных и, соответственно, в обученной модели? Эта серия уроков в учебном центре Rasa посвящена такому важному вопросу, как предвзятость в эмбеддингах. Вы сможете узнать, как ее измерить и познакомитесь со способами ее смягчения.
Как измерить предвзятость в векторном представлении слов (эмбеддингах)
В этом уроке рассмотрим векторное представление слов и векторы слов. Векторы слов можно измерять по направлению и частотности в двумерных векторных представлениях слов. К примеру, направление между парами [он] и [она], а также [король] и [королева] является параллельным и имеет гендерное направление
Если у нас есть гендерное направление, мы можем знать, что должно соотноситься с этим полом, например, в сопоставлении со стереотипными профессиями, такими как доктор и медсестра. На корреляционной диаграмме, где мы сопоставили гендер со стереотипными профессиями и не связанными с ними вещами, — собаками и кошками, — мы видим высокую корреляцию между мужчинами и докторами.
Смягчение предвзятости
Этот урок основан на статье об устранении предвзятости с помощью проекции. Он демонстрирует, как использование проекции, перпендикулярной гендерной оси, уменьшает предвзятость.
В предыдущем уроке мы говорили о гендерной оси — в этом методе перпендикулярно ей рисуется нейтральная ось, и все векторы проецируются на эту ось. А как мы знаем, косинус перпендикулярных осей равен нулю. Таким образом, гендерная ось перестает оказывать значительное влияние.
Ниже показан график корреляции между стереотипными профессиями и полом, который показывает слабое соотношение между мужчинами и докторами.
Губная помада на свинье (поверхностные изменения в продукте, которые вносят, чтобы скрыть серьезные проблемы или отвлечь внимание от его недостатков)
Этот урок основан на статье Хилы Гонен (Hila Gonen), в которой говорится, что проецирование на ось просто скрывает предвзятость, а не снижает ее. Слова, связанные с полом, продолжат группироваться вместе, если проекции были нарисованы в двумерных векторных представлениях.
Проведем эксперимент, в котором попытаемся установить, может ли классификатор дать 50-процентную классификацию с различными настройками векторных представлений слов и моделей.
Метод 1: Предвзятые векторные представления и предвзятая модель
В этом методе модель обучается на предвзятых данных, а затем тестируется на предвзятых данных для сравнения.
В результатах классификатор дает оценку F1 в 90% точности. Теперь, когда мы устраняем предвзятость векторных представлений или модели, этот показатель должен стать равным 50%, поскольку существует только две гендерные классификации.
Теперь давайте посмотрим, улучшит ли модель обучение на непредвзятых данных.
Метод 2: Непредвзятые векторные представления и предвзятая модель
Во втором методе мы используем непредвзятые векторные представления слов и ожидаем, что старая модель больше не сможет предсказывать пол. Ниже приведена схема метода.
Однако, после получения результатов, гендерный классификатор по-прежнему дает точность 81%, что далеко от ожидаемых 50%.
Метод 3: Непредвзятые векторные представления и непредвзятая модель
В этом случае мы обучаем модель на непредвзятых тренировочных данных и прогнозируем пол на основе непредвзятых тестовых данных. Надеемся, что модель не сможет классифицировать пол.
Кроме этого, мы можем создать модель, которая будет использовать непредвзятые векторы.
Получаем следующий результат.
Вывод: классификатор по-прежнему довольно хорошо предсказывает пол, а методы устранения предвзятости не сработали.
В проекционной математике
В этом уроке мы узнаем, почему проекции не работают. Все дело в том, что даже если мы проецируем векторные вложения на плоскость, все равно останется возможность классифицировать мужской и женский пол, поскольку они образуют разные кластеры.
Косинусное расстояние предполагает, что мы можем удалить гендерное «направление» из векторных представлений, используя линейные проекции в качестве метода устранения предвзятости. Но евклидово расстояние не показывает таких же результатов.
Трудно количественно оценить предвзятости в языковых моделях. Если у вас есть векторные вложения из модели, обученной на большом корпусе из интернета, устранить их будет непросто. Необходимо ответственно подходить к разработке и просчитывать все заранее.