Les travailleurs rémunérés pour entraîner des modèles d'IA avancés s'appuient de plus en plus sur des chatbots comme ChatGPT pour générer les conversations et les tests requis. Ce raccourci, décrit comme largement répandu par plusieurs sources, risque de dégrader la qualité des futurs modèles en raison de l'entraînement récursif sur des données synthétiques.
Plusieurs lanceurs d'alerte ont confié au New Scientist que cette pratique a cours malgré les politiques explicites des entreprises l'interdisant. Les bas salaires et les contrats à court terme des travailleurs tiers créent des incitations à accomplir les tâches plus rapidement en utilisant des outils d'IA.
Une travailleuse, appelée Alice, a déclaré qu'elle ne ressent aucune culpabilité et évite d'être détectée en demandant aux chatbots d'omettre les marqueurs d'écriture courants de l'IA, tels que les tirets cadratins. Elle a précisé que seuls les utilisateurs les moins prudents se font prendre.
Un autre travailleur, Bob, a d'abord utilisé l'IA pour entraîner des modèles pour Outlier, une plateforme appartenant à Scale AI, avant d'être promu pour détecter des activités similaires via des captures d'écran prises par un logiciel de surveillance. Une troisième travailleuse, Carol, a commencé par utiliser des grands modèles de langage pour vérifier si ses résultats respectaient les directives et les utilise désormais pour générer des scénarios et des fichiers.
Mark Lee, de l'université de Birmingham, a averti que les modèles entraînés massivement sur du contenu généré par l'IA peuvent perdre certaines capacités, bien qu'une quantité limitée de données humaines puisse atténuer cet effet.