La sortie de la version 7.0 de la bibliothèque Python open source chardet a suscité une controverse sur la possibilité pour une réécriture assistée par l’IA de changer sa licence restrictive d’origine. Le mainteneur Dan Blanchard a utilisé l’outil Claude d’Anthropic pour créer une version plus rapide sous licence MIT, mais l’auteur original Mark Pilgrim argue qu’elle viole les termes de la LGPL. Ce cas met en lumière les questions juridiques et éthiques émergentes concernant le code généré par l’IA.
La bibliothèque chardet, d’abord développée par Mark Pilgrim en 2006 et publiée sous la GNU Lesser General Public License (LGPL), détecte les encodages de caractères dans les textes. Dan Blanchard en a assumé la maintenance en 2012 et a dévoilé la semaine dernière la version 7.0, qu’il décrit comme une réécriture complète sous la licence MIT plus permissive. Réalisée avec l’assistance de l’outil de codage Claude d’Anthropic, cette mise à jour promet une amélioration des performances par un facteur de 48 et une plus grande précision, obtenues en environ cinq jours. Blanchard visait à rendre chardet apte à l’inclusion dans la bibliothèque standard de Python en résolvant les problèmes liés à sa licence, sa vitesse et sa précision. Il a commencé avec un dépôt vide, a rédigé un document de conception décrivant l’architecture, et a instruit Claude d’éviter de baser le code sur du matériel sous licence LGPL ou GPL. Après la génération, Blanchard a examiné, testé et itéré sur chaque partie sans rédiger le code à la main. Cependant, un commentateur GitHub sous le nom de Mark Pilgrim a contesté le changement de licence, affirmant que la nouvelle version dérive du code LGPL original malgré la réécriture. « Leur affirmation qu’il s’agit d’une ‘réécriture complète’ est sans objet, puisqu’ils ont eu une exposition abondante au code sous licence originale (c’est-à-dire que ce n’est pas une implémentation en ‘salle blanche’), » a écrit Pilgrim. « Ajouter un générateur de code sophistiqué au mélange ne leur confère pas de droits supplémentaires. J’insiste respectueusement pour qu’ils remettent le projet sous sa licence originale. » Blanchard a reconnu sa familiarité avec l’ancien codebase mais a maintenu que la sortie de l’IA est structurellement indépendante. Une analyse de similarité via JPlag a montré au plus 1,29 pour cent de chevauchement entre les fichiers de la version 7.0 et leurs prédécesseurs, contre jusqu’à 80 pour cent dans les mises à jour précédentes. Il a noté la dépendance à des fichiers de métadonnées des anciennes versions et l’entraînement de Claude sur des données publiques, potentiellement incluant le code de chardet, comme complications potentielles. Le différend a alimenté des discussions plus larges au sein de la communauté open source. La directrice exécutive de la Free Software Foundation, Zoë Kooyman, a déclaré à The Register : « Il n’y a rien de ‘propre’ dans un grand modèle de langage qui a ingéré le code qu’on lui demande de réimplémenter. » Le développeur open source Armin Ronacher a argué dans un billet de blog que supprimer tout le code original crée une nouvelle œuvre, la comparant au Navire de Thésée. Le codeur italien Salvatore « antirez » Sanfilippo a suggéré de s’adapter à l’impact transformateur de l’IA sur le logiciel, tandis que l’évangéliste Bruce Perens a averti de profonds bouleversements économiques, les comparant aux effets de l’imprimerie.