OpenAI har lanserat GPT-Rosalind, en storskalig språkmodell som tränats specifikt för biologiska arbetsflöden. Modellen, som är uppkallad efter vetenskapsmannen Rosalind Franklin, syftar till att hantera utmaningar med enorma biologiska datamängder och specialiserade delområden. Tillgången är för närvarande begränsad till amerikanska aktörer på grund av säkerhetsskäl.
OpenAI presenterade GPT-Rosalind på torsdagen och särskiljer den från mer generiska vetenskapsfokuserade modeller som utvecklats av andra teknikföretag. Modellen riktar sig mot centrala hinder inom biologisk forskning, inklusive den överväldigande datamängden från genomsekvensering och proteinbiokemi, samt det terminologitunga språket inom områden som genetik och neurobiologi. Yunyun Wang, produktchef för Life Sciences på OpenAI, lyfte fram dessa problem under en pressbriefing, vilket rapporterats av Ars Technica. Wang förklarade att en genetiker som studerar hjärnrelaterade gener kan ha svårt att ta till sig neurobiologisk litteratur utan specialiserade verktyg. Systemet har tränats på 50 vanliga biologiska arbetsflöden och metoder för åtkomst till publika databaser. Det kan föreslå biologiska signalvägar, prioritera läkemedelsmål och koppla genotyp till fenotyp via kända mekanismer. ”Vi kopplar samman genotyp med fenotyp genom kända signalvägar och regulatoriska mekanismer, härleder sannolika strukturella eller funktionella egenskaper hos proteiner och drar verkligen nytta av denna mekanistiska förståelse”, sade Wang. OpenAI har trimmat GPT-Rosalind för att vara mer skeptisk och motverka tendenser till inställsamhet som finns i andra storskaliga språkmodeller. Företaget beskriver modellens resonemangsförmåga som kapabel att hantera komplexa processer i flera steg och dess expertisnivå som baserad på olika referenstester. Det kvarstår dock farhågor kring potentiella hallucinationer. Tillgången är begränsad till en strukturerad och betrodd miljö endast för amerikanska aktörer, på grund av risker såsom optimering av virusinfektivitet. Ett begränsat insticksprogram för biovetenskaplig forskning kommer inom kort att göras tillgängligt för allmänheten.