Новое исследование выявило серьёзную проблему конфиденциальности в одном из крупнейших открытых наборов данных для обучения моделей генерации изображений — DataComp CommonPool. В этом наборе, содержащем на 2023 год 12,8 миллиардов образцов данных, обнаружены миллионы изображений паспортов, кредитных карт, свидетельств о рождении и других документов, содержащих персональную информацию (PII).
Исследование сосредоточилось на небольшой части (0,1%) данных. Даже в этой выборке были найдены тысячи изображений, включая распознаваемые лица и документы, удостоверяющие личность. Исходя из этого, учёные оценили общее количество изображений с PII в сотнях миллионов. В частности, было обнаружено более 800 подтверждённых документов о трудоустройстве (резюме и сопроводительные письма), многие из которых содержали конфиденциальную информацию, такую как данные о состоянии здоровья, результаты проверок биографических данных, даты рождения и места рождения иждивенцев. Связывание резюме с онлайн-профилями людей позволило исследователям получить доступ к контактной информации, государственным идентификаторам, социодемографическим данным, фотографиям лиц, домашним адресам и контактной информации других людей (например, рекомендателей).