Новый метод повышает надежность статистических оценок
Исследователи из Массачусетского технологического института (MIT) разработали инновационный подход, который значительно улучшает точность оценки неопределенности в ряде статистических расчетов. Это открытие обещает повысить надежность анализа данных в таких областях, как экономика, эпидемиология и науки об окружающей среде.
Представьте, что эколог изучает связь между загрязнением воздуха и низкой массой тела новорожденных в определенном районе. Для этого он может использовать модель машинного обучения, способную оценить степень этой связи, поскольку такие методы отлично справляются с выявлением сложных зависимостей. Стандартные алгоритмы машинного обучения преуспевают в прогнозировании и иногда предоставляют интервалы неопределенности для этих прогнозов. Однако, когда речь заходит об определении взаимосвязи между переменными, они часто оказываются бессильны.
Существующие методы, предназначенные для решения проблемы пространственных зависимостей и предоставления доверительных интервалов, могут давать совершенно неверные результаты в пространственных сценариях. Когда такие параметры, как уровень загрязнения воздуха или количество осадков, меняются в зависимости от местоположения, распространенные методы генерации доверительных интервалов могут утверждать высокую степень уверенности, тогда как на самом деле оценка не соответствует реальному значению. Эти ошибочные доверительные интервалы могут ввести пользователя в заблуждение, заставив его доверять неверной модели.
Осознав этот недостаток, ученые MIT создали новый метод, специально разработанный для генерации достоверных доверительных интервалов в задачах, связанных с данными, изменяющимися в пространстве. В ходе моделирования и экспериментов с реальными данными их метод оказался единственным, который последовательно демонстрировал точные доверительные интервалы.
Исследование опубликовано на сервере препринтов arXiv. Эта работа может помочь ученым в таких областях, как науки об окружающей среде, экономика и эпидемиология, лучше понять, когда можно доверять результатам определенных экспериментов.
«Существует множество задач, где люди заинтересованы в понимании явлений в пространстве, таких как погода или управление лесами. Мы показали, что для этого широкого класса проблем существуют более подходящие методы, которые могут обеспечить лучшую производительность, более глубокое понимание происходящего и более достоверные результаты», — отмечает Тамара Бродерик, доцент кафедры электротехники и информатики MIT, член Лаборатории информационных систем и систем принятия решений (LIDS), Института данных, систем и общества, аффилированный член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и старший автор исследования.
К соавторам статьи относятся ведущие исследователи Дэвид Р. Берт (постдок) и Ренато Берлингьери (аспирант EECS), а также Стивен Бейтс, доцент EECS и член LIDS. Исследование было недавно представлено на Конференции по системам нейронной обработки информации.
Недействительные предположения
Пространственная ассоциация включает изучение того, как переменная и определенный результат связаны в географической области. Например, можно изучать связь между покрытием деревьями на территории США и высотой над уровнем моря. Для решения таких задач ученые могут собирать данные из множества мест и использовать их для оценки ассоциации в другом месте, где у них нет данных.
Исследователи MIT обнаружили, что в таких случаях существующие методы часто генерируют совершенно неверные доверительные интервалы. Модель может заявить о 95% уверенности, что ее оценка отражает истинную связь между покровом деревьев и высотой, хотя на самом деле эта связь полностью упущена.
Изучив эту проблему, исследователи пришли к выводу, что предположения, на которых основаны эти методы доверительных интервалов, не выдерживают проверки при пространственном изменении данных. Предположения — это правила, которые должны соблюдаться для обеспечения достоверности результатов статистического анализа. Распространенные методы генерации доверительных интервалов работают на основе различных предположений. Во-первых, они предполагают, что исходные данные (собранные для обучения модели) являются независимыми и одинаково распределенными. Это означает, что включение одного местоположения в данные никак не влияет на включение другого. Однако, например, датчики загрязнения воздуха Агентства по охране окружающей среды США (EPA) размещаются с учетом расположения других датчиков.
Во-вторых, существующие методы часто предполагают, что модель абсолютно верна, хотя на практике это никогда не бывает так. Наконец, они предполагают, что исходные данные схожи с целевыми данными, которые нужно оценить. Но в пространственных сценариях исходные данные могут принципиально отличаться от целевых, поскольку целевые данные находятся в другом месте, отличном от того, где были собраны исходные данные.
Например, ученый может использовать данные мониторов загрязнения EPA для обучения модели машинного обучения, способной прогнозировать последствия для здоровья в сельской местности, где нет мониторов. Однако мониторы EPA, вероятно, расположены в городских районах с интенсивным движением и тяжелой промышленностью, поэтому собранные ими данные о качестве воздуха будут сильно отличаться от данных о качестве воздуха в сельской местности. В этом случае оценки ассоциации, основанные на городских данных, страдают от смещения, поскольку целевые данные систематически отличаются от исходных.
Гладкое решение
Новый метод генерации доверительных интервалов явно учитывает потенциальное смещение. Вместо того чтобы предполагать схожесть исходных и целевых данных, исследователи предполагают, что данные плавно изменяются в пространстве. Например, применительно к мелкодисперсным загрязнителям воздуха, уровень загрязнения на одном городском квартале не будет кардинально отличаться от уровня загрязнения на соседнем квартале. Скорее, уровни загрязнения будут плавно снижаться по мере удаления от источника.
«Для таких типов задач это предположение о пространственной гладкости более уместно. Оно лучше соответствует тому, что на самом деле происходит с данными», — говорит Бродерик. Сравнивая свой метод с другими распространенными техниками, они обнаружили, что он единственный, кто способен последовательно обеспечивать надежные доверительные интервалы для пространственных анализов. Кроме того, их метод остается надежным даже при искажении исходных данных случайными ошибками. В будущем исследователи планируют применить этот анализ к различным типам переменных и изучить другие области применения, где он может дать более надежные результаты.
*Признаны экстремистскими организациями и запрещены на территории РФ.
Комментарии
Комментариев пока нет.