Новый взгляд на оценку алгоритмов: исправляем предвзятость NMI

Ученые представили новый подход к оценке производительности алгоритмов, способный исправить искажения в широко используемом показателе Normalized Mutual Information (NMI). Этот метрика, применяемая для анализа результатов сортировки и классификации данных, как оказалось, может давать предвзятые результаты, что чревато неверными научными выводами.

Исследователи из Санта-Феского института, совместно с коллегами из Гонконгского университета и Мичиганского университета, опубликовали результаты своего исследования, в котором демонстрируется, что NMI, несмотря на свою популярность в области науки о данных и сетевых исследований, способен искажать реальную картину.

«Normalized Mutual Information используется или упоминается в тысячах научных работ с момента его первого предложения, — отмечает один из авторов исследования, профессор Марк Ньюман. — Однако оказалось, что он может давать некорректные результаты, причем ошибки настолько велики, что в ряде случаев способны изменять научные заключения».

Для иллюстрации проблемы приведем пример. Представьте, что ученые разрабатывают алгоритмы для классификации медицинских состояний на основе симптомов пациентов. Одна модель может успешно диагностировать диабет, но не различает его типы. Другая модель, хотя и лучше справляется с дифференциацией диабета 1-го и 2-го типа, иногда пропускает саму диагностику диабета, имея большую погрешность.

В подобных сценариях исследователям необходимо иметь инструмент, который мог бы определить, чьи предсказания дают больше информации о реальном состоянии. Показатель mutual information помогает в этом, измеряя, насколько выход модели уменьшает неопределенность относительно правильных классификаций. Часто этот показатель нормализуют, приводя к значению от 0 до 1, что упрощает сравнение различных задач.

Однако, как выяснили исследователи, такая нормализация вводит два основных вида искажений. Во-первых, она может неоправданно поощрять алгоритмы, которые чрезмерно дробят данные, создавая дополнительные категории и создавая ложное впечатление большей точности. Во-вторых, распространенные методы нормализации могут искусственно отдавать предпочтение более простым алгоритмам. Оба эффекта способны искажать сравнения, особенно при решении сложных задач, где истинная структура данных не очевидна.

Чтобы решить эти проблемы, команда разработала асимметричную, сокращенную версию метрики mutual information, которая устраняет оба источника предвзятости. Применив свой новый метод к популярным алгоритмам обнаружения сообществ, ученые обнаружили, что в то время как стандартный NMI может указывать на различные «лучшие» алгоритмы в зависимости от способа расчета, их пересмотренная метрика предлагает более последовательное и надежное сравнение.

Корректируя эту метрику, авторы надеются повысить надежность сравнений в любых областях, где кластеризация или классификация играют центральную роль.

«Ученые используют NMI как своего рода измерительную линейку для сравнения алгоритмов, — говорит Макс Джерди. — Но если сама линейка изогнута, можно сделать неверный вывод о том, какой метод работает лучше».

Комментарии

Комментариев пока нет.