A OpenAI lançou o GPT-Rosalind, um modelo de linguagem de grande escala treinado especificamente para fluxos de trabalho em biologia. O modelo, batizado em homenagem à cientista Rosalind Franklin, visa solucionar desafios no processamento de enormes conjuntos de dados biológicos e subáreas especializadas. O acesso está atualmente limitado a entidades sediadas nos EUA devido a preocupações de segurança.
A OpenAI anunciou o GPT-Rosalind na quinta-feira, diferenciando-o de modelos científicos mais genéricos desenvolvidos por outras empresas de tecnologia. O modelo tem como alvo obstáculos fundamentais na pesquisa biológica, incluindo o volume esmagador de dados provenientes do sequenciamento do genoma e da bioquímica de proteínas, bem como a natureza técnica de subáreas como genética e neurobiologia. Yunyun Wang, líder de produtos de Ciências da Vida da OpenAI, destacou essas questões durante uma coletiva de imprensa, conforme relatado pela Ars Technica. Wang explicou que um geneticista que estuda genes relacionados ao cérebro pode ter dificuldades com a literatura neurobiológica sem ferramentas especializadas. O sistema foi treinado em 50 fluxos de trabalho biológicos comuns e métodos para acessar bancos de dados públicos. Ele pode sugerir vias biológicas, priorizar alvos de medicamentos e conectar genótipo a fenótipo por meio de mecanismos conhecidos. “Estamos conectando o genótipo ao fenótipo através de vias e mecanismos regulatórios conhecidos, inferindo propriedades estruturais ou funcionais prováveis de proteínas e realmente alavancando esse entendimento mecanístico”, disse Wang. A OpenAI ajustou o GPT-Rosalind para ser mais cético, combatendo tendências à bajulação observadas em outros modelos de linguagem. A empresa descreve seu raciocínio como capaz de lidar com processos complexos de várias etapas e suas habilidades como de nível especialista com base em benchmarks. No entanto, preocupações persistem quanto a potenciais alucinações. O acesso é restrito por meio de uma estrutura de implantação confiável apenas para entidades dos EUA, devido a riscos como a otimização da infectividade de vírus. Um plugin limitado de Pesquisa em Ciências da Vida estará disponível ao público em breve.