Утечка данных Mixpanel: Что скрывает аналитика?

Инцидент в сфере кибербезопасности, затронувший поставщика аналитических услуг Mixpanel, произошел незадолго до начала длинных выходных, посвященных Дню благодарения в США. Это событие может задать новый стандарт того, как не следует сообщать об утечке данных.

Суть произошедшего: в минувшую среду компания Mixpanel опубликовала краткое сообщение в блоге, в котором генеральный директор Джен Тейлор уведомила о выявлении инцидента безопасности 8 ноября, затронувшего некоторых клиентов. Однако в сообщении не уточнялось, каким образом клиенты пострадали, сколько их, и какие именно меры были приняты для «устранения несанкционированного доступа».

Генеральный директор Mixpanel, Джен Тейлор, не ответила на многочисленные запросы TechCrunch, включавшие более дюжины вопросов об утечке данных. Мы спрашивали, получала ли компания какие-либо сообщения от злоумышленников, например, требования выкупа, а также о мерах защиты учетных записей сотрудников, таких как использование многофакторной аутентификации.

Одним из пострадавших клиентов Mixpanel оказалась компания OpenAI. Через два дня после сообщения Mixpanel, OpenAI опубликовала собственное заявление, подтвердив то, что Mixpanel не указала явно: из систем компании были похищены клиентские данные.

OpenAI сообщила, что пострадала из-за использования программного обеспечения от Mixpanel, которое помогало анализировать взаимодействие пользователей OpenAI с определенными разделами сайта, например, с документацией для разработчиков.

Пользователи OpenAI, затронутые утечкой Mixpanel, скорее всего, являются разработчиками, чьи приложения или веб-сайты полагаются на продукты OpenAI. OpenAI заявила, что среди украденных данных были имена, адреса электронной почты, примерное местоположение (город и штат на основе IP-адреса) и некоторые данные об устройствах, такие как операционная система и версия браузера. Часть этой информации аналогична той, которую Mixpanel собирает с устройств пользователей во время их активности в приложениях и на веб-сайтах.

Представитель OpenAI Нико Феликс сообщил TechCrunch, что украденные данные «не содержали идентификаторов, таких как рекламный идентификатор Android или Apple IDFA», которые могли бы облегчить личную идентификацию пользователей OpenAI или связать их активность с использованием других приложений и веб-сайтов.

OpenAI также отметила, что инцидент не затронул пользователей ChatGPT напрямую, и в результате утечки компания прекратила использование Mixpanel.

Несмотря на ограниченность деталей утечки, данный инцидент вновь привлек внимание к индустрии анализа данных, которая зарабатывает на сборе огромных объемов информации о том, как люди используют веб-сайты и приложения.

Как Mixpanel отслеживает ваши нажатия, клики и действия на экране

Mixpanel — одна из крупнейших компаний, занимающихся веб-аналитикой и аналитикой мобильных приложений, о которой вы, возможно, никогда не слышали, если только вы не работаете в сфере разработки приложений или маркетинга. По данным компании, у нее 8 000 корпоративных клиентов — теперь на одного меньше, после раннего ухода OpenAI.

Учитывая, что у каждого клиента Mixpanel может быть миллионы собственных пользователей, количество обычных людей, чьи данные были украдены в результате утечки, может быть весьма значительным. Тип украденных данных, вероятно, варьируется в зависимости от каждого клиента Mixpanel, завися от того, как был настроен сбор данных и сколько пользовательских данных было собрано.

Компании, подобные Mixpanel, являются частью бурно развивающейся отрасли, предоставляющей технологии отслеживания, которые позволяют компаниям понимать, как их клиенты и пользователи взаимодействуют с их приложениями и веб-сайтами. Аналитические компании могут собирать и хранить огромные объемы информации, включая миллиарды точек данных, о рядовых потребителях.

Например, разработчик приложений или веб-сайтов может встроить фрагмент кода от аналитической компании, такой как Mixpanel, в свое приложение или веб-сайт для получения такой видимости. Для пользователя приложения или посетителя веб-сайта это похоже на то, как если бы кто-то наблюдал за вами без вашего ведома, пока вы просматриваете веб-сайт или используете приложение, постоянно передавая информацию о каждом клике, нажатии, свайпе и нажатии на ссылку компании-разработчика.

В случае с Mixpanel легко понять, какие типы данных компания собирает из приложений и веб-сайтов, в которые встроен ее код. Используя инструменты с открытым исходным кодом, такие как Burp Suite, TechCrunch проанализировал сетевой трафик, поступающий и исходящий из нескольких приложений с кодом Mixpanel — таких как Imgur, Lingvano, Neon и Park Mobile. В ходе различных тестов мы наблюдали загрузку в Mixpanel различной степени информации о наших устройствах и действиях в приложениях.

Эти данные могут включать активность пользователя, такую как открытие приложения, нажатие на ссылку, пролистывание страницы или вход в систему с использованием имени пользователя и пароля. Эти данные о событиях затем привязываются к информации о пользователе и его устройстве, включая тип устройства (например, iPhone или Android), ширину и высоту экрана, подключение к сотовой сети или Wi-Fi, оператора сотовой связи, уникальный идентификатор пользователя для данного сервиса (который может быть связан с пользователем приложения) и точное время события.

Собранные данные иногда могут включать информацию, которая не должна попадать в руки аналитиков. В 2018 году Mixpanel признала, что ее аналитический код непреднамеренно собирал пароли пользователей.

Данные, собираемые аналитическими компаниями, должны быть псевдонимизированы — по сути, зашифрованы таким образом, чтобы они не содержали идентифицирующей информации, такой как имя человека. Вместо этого собранная информация приписывается уникальному, но кажущемуся случайным идентификатору, который используется вместо имени человека — по-видимому, более конфиденциальный способ хранения данных. Однако псевдонимизированные данные могут быть дешифрованы и использованы для установления реальных личностей людей. А данные, собранные об устройстве человека, могут быть использованы для его уникальной идентификации, известной как «цифровой отпечаток» (fingerprinting), который также может использоваться для отслеживания активности пользователя в различных приложениях и в Интернете.

Отслеживая ваши действия на устройстве в различных приложениях, аналитические компании облегчают своим клиентам создание профилей пользователей и их активности.

Mixpanel также позволяет своим клиентам собирать «повторы сеансов» (session replays), которые визуально реконструируют взаимодействие пользователей компании с приложением или веб-сайтом, чтобы разработчик мог выявлять ошибки и проблемы. Повторы сеансов должны исключать лично идентифицирующую или конфиденциальную информацию, такую как пароли и номера кредитных карт, из любого собранного сеанса пользователя, но и этот процесс не идеален.

По собственному признанию Mixpanel, повторы сеансов иногда могут включать конфиденциальную информацию, которая не должна была быть записана, но была собрана непреднамеренно. Apple приняла меры против приложений, использующих код для записи экрана, после того как TechCrunch разоблачил эту практику в 2019 году.

Сказать, что у Mixpanel есть вопросы, на которые нужно ответить касательно этой утечки, — значит, вероятно, преуменьшить масштабы проблемы. Не зная конкретных типов затронутых данных, сложно оценить, насколько велика эта утечка и сколько людей могло пострадать. Возможно, Mixpanel еще не знает этого.

Что ясно, так это то, что компании, подобные Mixpanel, хранят огромные массивы информации о людях и их поведении в приложениях, и они определенно становятся мишенью для злонамеренных хакеров.

Знаете больше об утечке данных Mixpanel? Работаете в Mixpanel или в компании, пострадавшей от инцидента? Мы хотели бы услышать ваше мнение. Чтобы безопасно связаться с репортером, вы можете использовать Signal по имени пользователя: zackwhittaker.1337.