Utgivningen av version 7.0 av det öppna källkods-Python-biblioteket chardet har väckt kontrovers kring om en AI-assisterad omskrivning kan ändra dess ursprungliga restriktiva licens. Underhållaren Dan Blanchard använde Anthropics Claude-verktyg för att skapa en snabbare, MIT-licensierad version, men originalförfattaren Mark Pilgrim hävdar att det bryter mot LGPL-villkoren. Fallet belyser framväxande juridiska och etiska frågor kring AI-genererad kod.
Chardet-biblioteket, först utvecklat av Mark Pilgrim 2006 och släppt under GNU Lesser General Public License (LGPL), upptäcker teckenkodningar i text. Dan Blanchard tog över underhållet 2012 och avslöjade förra veckan version 7.0, som han beskriver som en komplett omskrivning under den mer tillåtande MIT-licensen. Byggd med hjälp av Anthropics Claude-kodningsverktyg lovar uppdateringen en 48-faldig prestandaförbättring och högre noggrannhet, uppnådd på cirka fem dagar. Blanchard syftade till att göra chardet lämpligt för inkludering i Python standardbiblioteket genom att åtgärda problem med licens, hastighet och noggrannhet. Han började med ett tomt repository, utarbetade ett designdokument som beskrev arkitekturen, och instruerade Claude att undvika att basera koden på LGPL- eller GPL-licensierat material. Efter genereringen granskade, testade och itererade Blanchard på varje del utan att skriva koden för hand. Däremot ifrågasatte en GitHub-kommentator under namnet Mark Pilgrim omlicensieringen och hävdade att den nya versionen härstammar från den ursprungliga LGPL-koden trots omskrivningen. „Deras påstående att det är en ’komplett omskrivning’ är irrelevant, eftersom de haft riklig exponering för den ursprungligen licensierade koden (d.v.s. detta är inte en ’clean room’-implementering)“, skrev Pilgrim. „Att lägga till en fancy kodgenerator i mixen ger dem inte några ytterligare rättigheter på något sätt. Jag insisterar respektfullt på att de återställer projektet till dess ursprungliga licens.“ Blanchard erkände sin bekantskap med den tidigare kodbasen men hävdade att AI-utdata är strukturellt oberoende. Likhetsanalys via JPlag visade högst 1,29 procents överlappning mellan version 7.0-filer och deras föregångare, jämfört med upp till 80 procent i tidigare uppdateringar. Han noterade beroende av metadatafiler från gamla versioner och Claudes träning på offentlig data, inklusive möjligen chardets kod, som potentiella komplikationer. Tvisten har eldat på bredare diskussioner i open source-communityn. Free Software Foundation exekutiva direktör Zoë Kooyman sade till The Register: „Det finns inget ’rent’ med en stor språkmodell som har intagit koden den uppmanas att återimplementera.“ Öppen källkodsutvecklare Armin Ronacher argumenterade i ett blogginlägg att att kasta bort all originalkod skapar ett nytt verk, liknande Skeppet Theseus. Italienska kodaren Salvatore „antirez“ Sanfilippo föreslog att anpassa sig till AI:s transformerande inverkan på mjukvara, medan evangelisten Bruce Perens varnade för djupgående ekonomiska skiften och jämförde det med tryckpressens effekter.