La publicación de la versión 7.0 de la biblioteca Python de código abierto chardet ha generado controversia sobre si una reescritura asistida por IA puede cambiar su licencia original restrictiva. El mantenedor Dan Blanchard utilizó la herramienta Claude de Anthropic para crear una versión más rápida con licencia MIT, pero el autor original Mark Pilgrim sostiene que viola los términos de la LGPL. El caso destaca preguntas legales y éticas emergentes en el código generado por IA.
La biblioteca chardet, desarrollada inicialmente por Mark Pilgrim en 2006 y publicada bajo la GNU Lesser General Public License (LGPL), detecta codificaciones de caracteres en texto. Dan Blanchard asumió el mantenimiento en 2012 y la semana pasada presentó la versión 7.0, describiéndola como una reescritura completa bajo la licencia MIT más permisiva. Construida con la asistencia de la herramienta de codificación Claude de Anthropic, la actualización promete una mejora de rendimiento de 48 veces y mayor precisión, lograda en unos cinco días. Blanchard buscó hacer que chardet fuera adecuada para su inclusión en la biblioteca estándar de Python abordando problemas con su licencia, velocidad y precisión. Comenzó con un repositorio vacío, elaboró un documento de diseño que delineaba la arquitectura e instruyó a Claude para evitar basar el código en material con licencia LGPL o GPL. Después de la generación, Blanchard revisó, probó e iteró en cada parte sin escribir el código a mano. Sin embargo, un comentarista en GitHub con el nombre Mark Pilgrim cuestionó el cambio de licencia, afirmando que la nueva versión deriva del código original LGPL a pesar de la reescritura. «Su afirmación de que es una ‘reescritura completa’ es irrelevante, ya que tuvieron amplia exposición al código originalmente licenciado (es decir, esto no es una implementación de ‘habitación limpia’)», escribió Pilgrim. «Añadir un generador de código sofisticado a la mezcla no les otorga de alguna manera derechos adicionales. Insisto respetuosamente en que reviertan el proyecto a su licencia original.» Blanchard reconoció su familiaridad con el código base anterior, pero mantuvo que la salida de la IA es estructuralmente independiente. Un análisis de similitud mediante JPlag mostró como máximo un 1,29 % de superposición entre los archivos de la versión 7.0 y sus predecesores, en comparación con hasta un 80 % en actualizaciones anteriores. Notó la dependencia de archivos de metadatos de versiones antiguas y el entrenamiento de Claude en datos públicos, que posiblemente incluyen el código de chardet, como complicaciones potenciales. La disputa ha alimentado discusiones más amplias en la comunidad de código abierto. La directora ejecutiva de la Free Software Foundation, Zoë Kooyman, dijo a The Register: «No hay nada ‘limpio’ en un Modelo de Lenguaje Grande que ha ingerido el código que se le pide que reimplemente». El desarrollador de código abierto Armin Ronacher argumentó en una entrada de blog que descartar todo el código original crea una obra nueva, comparándolo con el Barco de Teseo. El programador italiano Salvatore «antirez» Sanfilippo sugirió adaptarse al impacto transformador de la IA en el software, mientras que el evangelista Bruce Perens advirtió sobre profundos cambios económicos, comparándolo con los efectos de la imprenta.