Теневая сторона ИИ: в гигантской базе CommonPool для обучения популярных ИИ-генераторов изображений содержатся миллиарды образцов персональных данных

ixbt 20.07.2025 14:41 22

Новое исследование выявило серьёзную проблему конфиденциальности в одном из крупнейших открытых наборов данных для обучения моделей генерации изображений — DataComp CommonPool. В этом наборе, содержащем на 2023 год 12,8 миллиардов образцов данных, обнаружены миллионы изображений паспортов, кредитных карт, свидетельств о рождении и других документов, содержащих персональную информацию (PII).

Исследование сосредоточилось на небольшой части (0,1%) данных. Даже в этой выборке были найдены тысячи изображений, включая распознаваемые лица и документы, удостоверяющие личность. Исходя из этого, учёные оценили общее количество изображений с PII в сотнях миллионов. В частности, было обнаружено более 800 подтверждённых документов о трудоустройстве (резюме и сопроводительные письма), многие из которых содержали конфиденциальную информацию, такую как данные о состоянии здоровья, результаты проверок биографических данных, даты рождения и места рождения иждивенцев. Связывание резюме с онлайн-профилями людей позволило исследователям получить доступ к контактной информации, государственным идентификаторам, социодемографическим данным, фотографиям лиц, домашним адресам и контактной информации других людей (например, рекомендателей).

Иллюстрация: Sora

Набор DataComp CommonPool, созданный как продолжение набора данных LAION-5B (использованного для обучения таких моделей, как Stable Diffusion и Midjourney), собирал данные путём веб-скрейпинга в период с 2014 по 2022 год. Хотя создатели CommonPool заявляли о его предназначении для академических исследований, лицензия не запрещала коммерческое использование. Учитывая, что набор данных был скачан более 2 миллионов раз за последние два года, и что источники данных CommonPool и LAION-5B схожи, вероятно, что аналогичная информация присутствует и в LAION-5B, а также в других моделях, обученных на тех же данных.

Авторы исследования отмечают, что автоматическое размытие лиц, применённое создателями CommonPool, оказалось неэффективным: алгоритм пропустил более 800 лиц в исследуемой выборке, что указывает на пропуск около 102 миллионов лиц во всём наборе данных. Кроме того, не применялись фильтры для распознавания текстовых строк PII, таких как адреса электронной почты или номера социального страхования. Хотя платформа Hugging Face, распространяющая CommonPool, предоставляет инструмент для удаления личной информации, это требует, чтобы люди знали о существовании своих данных в наборе.

Проблема усугубляется тем, что даже удаление данных из набора не гарантирует полной защиты конфиденциальности, если модель уже обучена на этих данных. Авторы исследования призывают сообщество специалистов по машинному обучению переосмыслить распространённую практику неконтролируемого веб-скрейпинга и указать на возможные нарушения действующих законов о защите данных, а также на ограничения возможностей этих законов в защите конфиденциальности. В частности, действующие законы о защите данных в Европе и Калифорнии не всегда распространяются на исследователей, создающих и курирующих такие наборы данных, а также содержат исключения для «общедоступной» информации.

Original: iXBT.com: новости

Средний рейтинг 0

Публичные новости

Теневая сторона ИИ: в гигантской базе CommonPool для обучения популярных ИИ-генераторов изображений содержатся миллиарды образцов персональных данных

Комментарии:

Здесь нет комментариев.

Добавить комментарий