Великі мовні моделі та особиста інформація: проблеми безпеки та шляхи їх вирішення за допомогою анонімізації

1
Національний університет «Львівська політехніка», кафедра Електронно Обчислювальних Машин
2
Національний університет «Львівська політехніка»

У світлі зростаючих можливостей великих мовних моделей (ВММ) виникає нагальна потреба в ефективних методах захисту персональних даних у онлайн-текстах. Існуючі методи анонімізації часто виявляються неефективними проти складних алгоритмів аналізу ВММ, особливо при обробці чутливої інформації, такої як медичні дані. Це дослідження пропонує інноваційний підхід до анонімізації, який поєднує k-анонімність та адверсаріальні методи. Наш підхід спрямований на підвищення ефективності та швидкості анонімізації при збереженні високого рівня захисту даних. Експериментальні результати на наборі з 10,000 коментарів показали зменшення часу обробки на 40% (з 250 мс до 150 мс на коментар) порівняно з традиційним адверсаріальним методом, підвищення точності анонімізації медичних даних на 5% (з 90% до 95%), та покращення збереження корисності даних на 7% (з 85% до 92%). Особлива увага приділяється застосуванню методу в контексті взаємодії з чат-ботами на основі ВММ та обробки медичної інформації. Ми проводимо експериментальну оцінку нашого методу, порівнюючи його з існуючими промисловими анонімізаторами на реальних та синтетичних наборах даних. Результати демонструють значне покращення як в збереженні корисності даних, так і в забезпеченні приватності. Наш метод також враховує вимоги GDPR, встановлюючи новий стандарт у галузі анонімізації даних для AI-взаємодій. Це дослідження пропонує практичне рішення для захисту приватності користувачів в епоху ВММ, особливо в чутливих областях, таких як охорона здоров'я.

  1. California Consumer Privacy Act (CCPA). [Online]. Available: https://oag.ca.gov/privacy/ccpa. Accessed: Oct. 2018.
  2. EU, “General data protection regulation,” 2016. [Online]. Available: https://gdpr-info.eu. Accessed: Oct. 2024.
  3. U.S. Department of Labor, “DOL,” 2023. [Online]. Available: https://www.dol.gov/general/ppii. Accessed: Oct. 2024.
  4. N. Carlini, D. Ippolito, M. Jagielski, K. Lee, F. Tramer, and C. Zhang, “Quantifying memorization across neural language models,” arXiv:2202.07646, Mar. 06, 2023. doi: 10.48550/arXiv.2202.07646.
  5. S. Vimercati, S. Foresti, G. Livraga, and P. Samarati, “k-Anonymity: From Theory to Applications,” Trans. Data Priv., 2023. [Online]. Available: https://www.tdp.cat/issues21/tdp.a460a22.pdf. Accessed: Oct. 23, 2024.
  6. “Differential privacy for deep and federated learning: A survey,” IEEE Access, vol. 10, pp. 8602–8616, 2022. doi: 10.1109/ACCESS.2022.3151670. Accessed: Oct. 16, 2024.
  7. Y. Zhao and J. Chen, “A survey on differential privacy for unstructured data content,” ACM Comput. Surv., vol. 54, no. 10s, pp. 207:1–207:28, Sep. 2022. doi: 10.1145/3490237.
  8. P. R. Silva, J. Vinagre, and J. Gama, “Towards federated learning: An overview of methods and applications,” WIREs Data Min. Knowl. Discov., vol. 13, no. 2, p. e1486, 2023. doi: 10.1002/widm.1486.
  9. J. Li, Y. Yang, Z. Wu, V. G. Vydiswaran, and C. Xiao, “ChatGPT as an attack tool: Stealthy textual backdoor attack via blackbox generative model trigger,” arXiv:2304.14475, 2023. doi: 10.48550/arXiv.2304.14475.
  10. DPIA, 2019. [Online]. Available: https://gdpr.eu/wp-content/uploads/2019/03/dpia-template-v1.pdf. Accessed: Oct. 2024.
  11. R. Staab, M. Vero, M. Balunović, and M. Vechev, “Large language models are advanced anonymizers,” arXiv:2402.13846, 2024. [Online]. Available: https://arxiv.org/abs/2402.13846. doi: 10.48550/arXiv.2402.13846. Accessed: Oct. 03, 2024.
  12. R. Staab, M. Vero, M. Balunović, and M. Vechev, “Beyond memorization: Violating privacy via inference with large language models,” arXiv:2310.07298, May 06, 2024. [Online]. Available: http://arxiv.org/abs/2310.07298. doi: 10.48550/arXiv.2310.07298. Accessed: Oct. 03, 2024.