OpenAI a lancé GPT-Rosalind, un grand modèle linguistique spécifiquement entraîné pour les flux de travail en biologie. Baptisé en hommage à la scientifique Rosalind Franklin, le modèle vise à relever les défis liés à la gestion de jeux de données biologiques massifs et de sous-domaines spécialisés. L'accès est actuellement limité aux entités basées aux États-Unis pour des raisons de sécurité.
OpenAI a annoncé GPT-Rosalind jeudi, le distinguant des modèles plus généralistes axés sur la science développés par d'autres entreprises technologiques. Le modèle cible des obstacles clés dans la recherche biologique, notamment le volume écrasant de données issues du séquençage du génome et de la biochimie des protéines, ainsi que la nature technique du jargon dans des domaines comme la génétique et la neurobiologie. Yunyun Wang, responsable produit des sciences de la vie chez OpenAI, a mis en évidence ces problèmes lors d'un point presse, tel que rapporté par Ars Technica. Wang a expliqué qu'un généticien étudiant des gènes liés au cerveau pourrait éprouver des difficultés avec la littérature neurobiologique sans outils spécialisés. Le système a été entraîné sur 50 flux de travail biologiques courants et des méthodes d'accès aux bases de données publiques. Il peut suggérer des voies biologiques, hiérarchiser des cibles médicamenteuses et relier le génotype au phénotype via des mécanismes connus. « Nous relions le génotype au phénotype par le biais de voies et de mécanismes de régulation connus, nous déduisons les propriétés structurelles ou fonctionnelles probables des protéines et nous tirons véritablement parti de cette compréhension mécaniste », a déclaré Wang. OpenAI a ajusté GPT-Rosalind pour qu'il soit plus sceptique, contrecarrant ainsi les tendances à la complaisance observées dans d'autres grands modèles linguistiques. L'entreprise décrit son raisonnement comme capable de gérer des processus complexes en plusieurs étapes et ses capacités comme étant de niveau expert sur la base de tests de référence. Cependant, des préoccupations subsistent quant aux risques d'hallucinations. L'accès est restreint via une structure de déploiement sécurisée réservée aux entités américaines, en raison de risques tels que l'optimisation de l'infectivité virale. Un plugin de recherche en sciences de la vie limité sera bientôt disponible pour le public.