OpenAIは、生物学のワークフローに特化して学習させた大規模言語モデル「GPT-Rosalind」を発表した。科学者ロザリンド・フランクリンの名を冠したこのモデルは、膨大な生物学的データセットや専門的なサブ分野を扱う際の課題解決を目指す。安全上の懸念から、現時点での利用は米国内の組織に限定されている。
OpenAIは木曜日、他社が開発した一般的な科学向けモデルとは一線を画す「GPT-Rosalind」を発表した。このモデルは、ゲノムシーケンシングやタンパク質生化学から得られる圧倒的なデータ量や、遺伝学や神経生物学といった専門用語の多いサブ分野など、生物学研究における主要な障壁に対処する。Ars Technicaの報道によると、OpenAIのライフサイエンス製品リードであるユンユン・ワン氏は、記者会見でこれらの課題を強調した。ワン氏は、脳関連の遺伝子を研究する遺伝学者が、専門的なツールなしでは神経生物学の文献を理解するのに苦労する可能性があると説明した。同システムは、一般的な生物学のワークフロー50種と、公開データベースにアクセスするための手法を用いて学習されている。生物学的経路の提案や創薬ターゲットの優先順位付け、既知のメカニズムを通じた遺伝子型と表現型の関連付けが可能だ。ワン氏は「我々は既知の経路や制御メカニズムを通じて遺伝子型と表現型を繋ぎ、タンパク質の構造的または機能的な特性を推論し、こうした機械的な理解を真に活用している」と語った。OpenAIはGPT-Rosalindを、他の大規模言語モデルに見られる追従性(sycophancy)の傾向を抑え、より懐疑的になるよう調整した。同社は、複雑な多段階プロセスを扱う同モデルの推論能力を専門家レベルだと位置づけているが、ハルシネーション(もっともらしい嘘)の発生可能性については懸念が残っている。ウイルスの感染性を最適化するリスクなどを考慮し、利用は米国内の組織のみを対象とした信頼できるデプロイメント構造を通じて制限されている。近日中に、一般向けに限定的な「ライフサイエンス研究プラグイン」が提供される予定である。