OpenAI ha lanzado GPT-Rosalind, un modelo de lenguaje extenso entrenado específicamente en flujos de trabajo biológicos. El modelo, nombrado en honor a la científica Rosalind Franklin, tiene como objetivo abordar los desafíos en el manejo de conjuntos de datos biológicos masivos y subcampos especializados. El acceso está actualmente limitado a entidades con sede en EE. UU. debido a preocupaciones de seguridad.
OpenAI anunció GPT-Rosalind el jueves, diferenciándolo de otros modelos centrados en la ciencia más genéricos desarrollados por otras empresas tecnológicas. El modelo aborda obstáculos clave en la investigación biológica, incluido el volumen abrumador de datos provenientes de la secuenciación del genoma y la bioquímica de proteínas, así como la naturaleza cargada de tecnicismos de subcampos como la genética y la neurobiología. Yunyun Wang, jefa de producto de Ciencias de la Vida de OpenAI, destacó estos problemas durante una conferencia de prensa, según informó Ars Technica. Wang explicó que un genetista que estudia genes relacionados con el cerebro podría tener dificultades con la literatura neurobiológica sin herramientas especializadas. El sistema fue entrenado con 50 flujos de trabajo y métodos biológicos comunes para acceder a bases de datos públicas. Puede sugerir rutas biológicas, priorizar objetivos farmacológicos y conectar el genotipo con el fenotipo a través de mecanismos conocidos. “Estamos conectando el genotipo con el fenotipo a través de rutas y mecanismos reguladores conocidos, infiriendo propiedades estructurales o funcionales probables de las proteínas y aprovechando realmente esta comprensión mecanicista”, dijo Wang. OpenAI ajustó a GPT-Rosalind para ser más escéptico, contrarrestando las tendencias a la complacencia en otros modelos de lenguaje extensos. La empresa describe su razonamiento como capaz de manejar procesos complejos de múltiples pasos y sus capacidades como de nivel experto según los puntos de referencia. Sin embargo, persisten las preocupaciones sobre posibles alucinaciones. El acceso está restringido a través de una estructura de despliegue confiable solo para entidades estadounidenses, debido a riesgos como la optimización de la infectividad de virus. Un complemento limitado de Investigación en Ciencias de la Vida estará disponible pronto para el público.