La bataille juridique autour de l’utilisation des données pour entraîner des modèles d’intelligence artificielle générative demeure intense. Cette fois, c’est Anthropic, créatrice de l’assistant Claude, qui fait la une en acceptant un accord de 1,5 milliard de dollars pour clore une plainte l’accusant d’avoir entraîné son système sur millions de livres piratés.
Le litige, porté par les écrivains Andrea Bartz, Charles Graeber et Kirk Wallace, alléguait que l’entreprise aurait téléchargé illégalement plus de 7 millions d’œuvres. L’accord prévoit également des paiements additionnels de 3 000 dollars par tranche de 500 000 livres téléchargées et l’engagement de supprimer toutes les copies utilisées.
Pas un cas isolé : OpenAI, Stability AI et Midjourney sous surveillance
La controverse autour d’Anthropic s’ajoute à un historique de contentieux qui mettent à mal les géants de l’IA :
- OpenAI : poursuivie par le New York Times et par des dizaines d’écrivains, qui affirment que leurs articles et livres ont été utilisés pour entraîner GPT sans autorisation.
- Stability AI : accusée d’avoir alimenté Stable Diffusion avec des œuvres d’artistes sans consentement.
- Midjourney : accusée d’utiliser du matériel graphique provenant d’auteurs professionnels et de catalogues de divertissements pour entraîner ses générateurs d’images.
Ces actions en justice cherchent non seulement une compensation financière, mais aussi à établir un précédent sur la légalité de l’usage des données dans la formation des modèles d’IA.
Le dilemme technique et juridique : fair use ou violation massive ?
Au cœur du débat se trouve la distinction entre apprendre à partir d’un jeu de données et copier une œuvre. Les entreprises soutiennent que l’entraînement constitue un processus statistique protégé par le principe de fair use aux États-Unis, tandis que les plaignants argumentent que les modèles peuvent reproduire des fragments identiques de textes ou imiter des styles artistiques, ce qui constituerait une violation directe du droit d’auteur.
En Europe, la situation est encore plus complexe : la directive sur le droit d’auteur de 2019 limite explicitement l’utilisation d’œuvres protégées, sauf à des fins de recherche. En théorie, des entreprises comme OpenAI ou Anthropic devraient obtenir des licences commerciales pour entraîner leurs modèles dans l’UE.
Impact sur l’industrie : coûts croissants et ralentissement
L’accord d’Anthropic met en évidence un facteur clé : le coût réel de l’entraînement de modèles avec des données protégées. Si les entreprises doivent payer des licences ou réaliser des compensations de plusieurs milliards, le développement de nouveaux modèles deviendra plus coûteux, ce qui pourrait :
- Freiner l’innovation et limiter l’émergence de nouveaux concurrents.
- Favoriser les grandes entreprises disposant d’un important pouvoir financier, au détriment des startups.
- Créer un nouveau marché de licences de jeux de données, susceptible d’établir la nouvelle norme.
Quelles perspectives se dessinent ?
Le futur de l’IA générative dépendra de la manière dont seront résolues ces affaires judiciaires. Un scénario envisageable est celui d’un modèle hybride : l’utilisation de jeux de données publics et open source, complété par des catalogues sous licence d’éditeurs, médias et producteurs.
En attendant, le cas Anthropic envoie un message clair : les créateurs ne restent pas passifs. L’équilibre entre innovation et respect des droits d’auteur sera sans doute le plus grand défi réglementaire et technique pour l’IA dans cette décennie.
Questions fréquentes
1. Pourquoi Anthropic a-t-elle payé 1,5 milliard de dollars ?
Pour mettre fin à une plainte l’accusant d’avoir utilisé des millions de livres piratés pour entraîner son modèle Claude.
2. Quelles autres entreprises sont concernées par des procédures similaires ?
OpenAI, Stability AI, et Midjourney font face à des accusations pour l’utilisation non autorisée d’œuvres de créateurs, artistes et médias.
3. Quelles sont les différences entre les États-Unis et l’Europe sur ce sujet ?
Aux États-Unis, le débat tourne autour du fair use, tandis qu’en Europe, la réglementation exige des licences explicites pour l’utilisation d’œuvres protégées.
4. Quel impact ces enjeux auront-ils sur l’avenir de l’IA générative ?
Ils pourraient faire augmenter les coûts d’entraînement, ralentir l’innovation, et conforter un marché basé principalement sur les licences de jeux de données.
via : Noticias de abogados