Piratage littéraire : Mistral AI dans la tourmente, enquête Mediapart accablante

Dans un réquisitoire aussi passionné que documenté, le fondateur de Nouveau Monde éditions interpelle directement les dirigeants du fleuron français de l’intelligence artificielle. Au cœur du débat : l’utilisation massive d’œuvres littéraires pour entraîner les modèles d’IA sans compensation pour les créateurs. Une controverse qui soulève des questions fondamentales sur l’économie de la création à l’ère numérique.

Une accusation étayée par une enquête journalistique

Selon une investigation approfondie publiée par Mediapart le 22 décembre dernier, Guillaume Lample, directeur scientifique de Mistral AI et ancien cadre de Meta, aurait activement encouragé l’utilisation de contenus piratés pour entraîner les modèles d’intelligence artificielle.

Les journalistes Clément Pouré et Soizic Pénicaud affirment sans détour : « Les documents publics démontrent que le chercheur et entrepreneur est à l’initiative du piratage de plusieurs dizaines de téraoctets (To, soit mille gigaoctets) de données ».

Plus troublant encore, Lample aurait justifié ces pratiques dans un message interne en déclarant : « Tout le monde utilise LibGen », « C’est ce qu’Open AI fait avec GPT3, ce que Google fait avec [le LLM] Palm, ce que DeepMind fait avec Chinchilla. Donc on va le faire aussi. »

Le préjudice pour les créateurs

Yannick Dehée, à la fois victime en tant qu’auteur et éditeur, souligne la valeur réelle du travail créatif. Un livre représente des centaines, parfois des milliers d’heures de labeur intellectuel et implique une prise de risque économique considérable.

L’édition de livres de savoir, déjà fragile financièrement, se trouve particulièrement menacée par ces pratiques. La situation est d’autant plus préoccupante que Mistral AI, entreprise partiellement financée par des fonds publics, semble ignorer délibérément ses obligations légales.

Un cadre réglementaire contourné

Depuis l’été 2024, la réglementation européenne exige que les entreprises d’IA générative publient les données utilisées pour l’entraînement de leurs modèles. Pourtant, Mistral AI ne se conforme pas à cette obligation de transparence.

Cette opacité alimente les soupçons, d’autant que selon Mediapart, il est « plus que probable que M. Lample a fait bénéficier Mistral AI de LibGen », une bibliothèque numérique pirate contenant des millions d’ouvrages.

Un appel à la responsabilité

Tout en saluant l’émergence d’un champion européen de l’intelligence artificielle, Yannick Dehée rappelle que Mistral AI, en tant qu’entreprise française, ne peut se soustraire au droit national et aux principes éthiques fondamentaux.

Il adresse un message direct aux dirigeants : indemniser rapidement et à l’amiable les ayants droit français, sans attendre une éventuelle contrainte judiciaire qui pourrait survenir dans « cinq ou dix ans ».

Ce plaidoyer soulève une question cruciale pour l’avenir : comment concilier innovation technologique et juste rémunération des créateurs dont les œuvres alimentent ces technologies révolutionnaires?