Уязвимость анонимных данных: риски повторной идентификации
Мы постоянно создаем и потребляем данные. Эти данные уникальны для каждого из нас, но в совокупности они могут представлять огромную ценность. Эта ценность не ограничивается лишь анализом на уровне населения.
Например, известно, что данные, которыми располагает австралийское правительство, являются стратегическим национальным ресурсом, способным стимулировать экономический рост, повышать эффективность предоставления услуг и оказывать фундаментальное влияние на результаты и направление политики. По сути, данные важны для всех.
С другой стороны, если данные созданы нами или относятся к нам, иногда кто-то, увидев их, может связать их с конкретной личностью. Этот процесс называется «повторной идентификацией» (re-identification), и именно так можно получить доступ к очень личной и конфиденциальной информации об отдельных людях.
Это, очевидно, легко, когда в данных присутствует личная информация, такая как имя и адрес. Поэтому, как правило, при общедоступном выпуске наборов данных, содержащих личную информацию, ставится цель удалить «личный» элемент из «информации» с помощью процесса, часто называемого «деидентификацией» (de-identification).
Деидентификация данных использует различные статистические методы, такие как агрегация, маскирование или возмущение, для группировки или скрытия индивидуальных деталей, но при этом позволяет выпускать данные на благо общества или для обмена информацией. Фактически, Data61 сыграл ключевую роль в разработке систем принятия решений по деидентификации в партнерстве с Управлением австралийского уполномоченного по информации (OAIC).
Но постойте, возможно, вы задаетесь вопросом: если мои данные были деидентифицированы, значит ли это, что информация в безопасности? Предотвращает ли деидентификация повторную идентификацию?
В настоящее время утечки данных привлекают больше внимания, чем повторная идентификация. Однако даже после применения методов деидентификации риск повторной идентификации остается очень реальным. Одно исследование показало, что две трети населения США могут быть индивидуально идентифицированы по базовым данным, таким как пол, дата рождения и почтовый индекс, которые легко доступны из данных переписи населения, а для многих — из Facebook. Это описывается как «арифметика уникальности», хотя существуют некоторые нюансы в этих расчетах, например, переписные листы в упомянутом исследовании были не на 100% точны.
Риск повторной идентификации реален; фактически, правительство даже предложило тюремное заключение для лиц, которые были уличены в преднамеренных попытках повторной идентификации личной информации.
Таким образом, оказывается, что «деидентификация» может быть не совсем точным термином, и «деидентификация» (по крайней мере, в том виде, в каком она часто осуществляется) не всегда может предотвратить повторную идентификацию.
Недавно (в августе 2019 года) был выявлен случай упущенного риска повторной идентификации в «деидентифицированных» данных, когда выяснилось, что Public Transport Victoria нарушил Закон о конфиденциальности и защите данных после утечки набора данных, содержащего записи примерно о 1,5 миллиардах поездок myki. Утечка данных привела к возможной повторной идентификации действий отдельных лиц за последние три года.
Эксперты по данным из CSIRO Data61 консультировали по техническим аспектам расследования, и результаты показали, что личная информация может быть получена из набора данных PTV без специальных навыков или ресурсов. «Наше исследование показало, что когда известны два сканирования карты myki по времени и месту остановки, более трех из пяти таких пар сканирований являются уникальными и, следовательно, с большей вероятностью могут быть лично идентифицированы», — сказал доктор Пол Тайлер, руководитель группы защиты данных в CSIRO's Data61. «Так называемые «деидентифицированные» данные все еще могут нести риск повторной идентификации, особенно в связанных транзакционных данных».
Data61 рассматривает повторную идентификацию под новым углом. В рамках наших инвестиций в конфиденциальность разработан инструмент Re-identification Risk Ready Reckoner (R4), основанный на новаторских исследованиях группы информационной безопасности и конфиденциальности Data61. Мы перевели теоретические исследования в рабочий дашборд, который позволяет кураторам данных понимать риск повторной идентификации набора данных, а затем предоставляет пользователям варианты его снижения. R4 использовался для анализа набора данных PTV.
Не существует универсального решения для конфиденциальности. Каждый метод включает в себя свои тонкие компромиссы между полезностью данных и защитой конфиденциальности людей, к которым относятся данные. Наша работа по повторной идентификации направлена на количественную оценку и снижение связанных с этим рисков.
Комментарии
Комментариев пока нет.