Le projet s'appuie sur une collaboration entre le CERDI de l'Université Paris-Saclay spécialisé en droit de la propriété intellectuelle et en droit du numérique, et l'équipe-projet PETSCRAFT commune entre Inria Saclay et l'INSA CVL spécialisée en protection de la vie privée et en sécurité des données. D'autres collaborateurs incluent le COSEC de l'UC3M, spécialisée en cybersécurité de l'IA, dans le cadre de l'Equipe Associée PETsAI d'Inria. Contexte. Notre analyse des atteintes aux droits d'auteur et à la vie privée par les modèles de langage (LLMs) part de cas juridiques concrets, examinés sous un angle juridique, et repose sur des méthodologies techniques telles que les attaques par inférence d'appartenance (Membership Inference Attacks, MIAs). Les MIAs constituent une approche prometteuse pour détecter l'utilisation non autorisée de données dans les modèles d'apprentissage automatique. Introduites en 2017, ces attaques exploitent la tendance des modèles à mémoriser leurs données d'entraînement [1], ce qui permet de distinguer les données membres du jeu d'entraînement de celles qui ne le sont pas. Etat de l'art. Bien que les MIAs aient été adaptées aux LLMs dans des travaux antérieurs [2], des recherches récentes ont révélé d'importantes limites dans les méthodes actuelles [3]. Dans le contexte des atteintes au droit d'auteur (où les LLMs ne révèlent généralement pas leurs sources d'entraînement), l'évaluation rigoureuse est rendue difficile par des biais structurels, notamment des décalages temporels, entre les ensembles de données supposées membres et non membres utilisés pour l'évaluation. Ces biais soulèvent des doutes quant à la validité des résultats, appelant à des améliorations méthodologiques [4, 5]. Objectifs de la thèse. L'objectif est d'améliorer la détection et la remédiation des atteintes aux droits individuels et aux droits de propriété intellectuelle dans les technologies d'IA, afin d'encourager leur intégration éthique dans la société. Plus précisément, il s'agit de développer un outil conforme au RGPD et à la directive DSM permettant aux citoyens de l'UE d'identifier d'éventuelles violations de leur vie privée ou de leurs droits d'auteur par des LLMs. Feuille de route synthétique : 1. Amélioration des méthodologies MIA pour les LLMs et validation ex-post 2. Extension des MIA à la détection des atteintes à la vie privée 3. Développement d'un outil à destination des citoyens, leur permettant de vérifier si leurs données personnelles ont été utilisées par des services basés sur des LLMs La thèse est financée par le programme DATAIA de l'Université Paris-Saclay et par le PEPR Cybersécurité de l'ANR, dans le cadre du projet iPoP. Références : [1] Shokri, R., Stronati, M., Song, C., & Shmatikov, V. Membership inference attacks against machine learning models. IEEE SP'17. [2] Meeus, M., Jain, S., Rei, M., & de Montjoye, Y.-A. Did the neurons read your book? Document-level membership inference for large language models*. USENIX Security'24. [3] Duan, M. et al. Do membership inference attacks work on large language models? arXiv preprint (2024). [4] Eichler, C. et al. Nob-mias: Non-biased membership inference attacks assessment on large language models. WISE'24. [5] Das, D., Zhang, J., & Tramèr, F. Blind baselines beat membership inference attacks for foundation models. arXiv preprint (2024). [6] Farquhar, S. et al. Detecting hallucinations in large language models using semantic entropy. Nature 630, 625630 (2024). [7] Li, H. et al. Digger: Detecting copyright content mis-usage in large language model training. arXiv preprint (2024). [8] Ortu, F. et al. Competition of mechanisms: Tracing how language models handle facts and counterfactuals. ACL Annual Meeting (2024). [9] Nakka, K. K. et al. PII-scope: A benchmark for training data PII leakage assessment in LLMs. arXiv preprint (2024). [10] CNIL, Protéger la voix et l'image des personnes à l'heure de l'IA, 23 janvier 2025