Arbetare som får betalt för att träna avancerade AI-modeller förlitar sig i allt högre grad på chattbotar som ChatGPT för att generera de krävda konversationerna och testerna. Denna genväg, som beskrivs som utbredd av flera källor, riskerar att försämra kvaliteten på framtida modeller genom rekursiv träning på syntetisk data.
Flera visselblåsare berättar för New Scientist att praktiken förekommer trots explicita företagspolicyer mot den. Låga löner och korttidskontrakt för tredjepartsanställda skapar incitament att utföra uppgifter snabbare med hjälp av AI-verktyg. En arbetare, här kallad Alice, säger att hon inte känner någon skuld och undviker upptäckt genom att instruera chattbotar att hoppa över vanliga AI-skrivmarkörer som tankstreck. Hon noterade att det bara är de minst försiktiga användarna som åker fast. En annan arbetare, Bob, använde inledningsvis AI medan han tränade modeller för Outlier, en plattform som ägs av Scale AI, och befordrades senare till att upptäcka liknande aktivitet via skärmdumpar från skrivbordet tagna av övervakningsprogramvara. En tredje arbetare, Carol, började använda stora språkmodeller för att kontrollera att hennes output följde riktlinjerna och använder dem nu för att generera scenarier och filer. Mark Lee vid University of Birmingham varnar för att modeller som tränas tungt på AI-genererat innehåll kan förlora kapacitet, även om begränsad mängd mänsklig data kan minska effekten.