ChatGPTの科学要約における欠陥を研究が明らかにする
科学ジャーナリストによる新しい調査が2025年9月19日に公開され、ChatGPTが科学論文を正確に要約する能力に重大な欠陥があることを暴露しました。研究はAIを数百の要約でテストし、主要な詳細と解釈での頻発するエラーを発見しました。これにより、学術タスクで大規模言語モデルに頼ることに懸念が生じています。
2025年9月19日、科学ジャーナリストのチームによる共同報告がリリースされ、ChatGPTの査読済み科学論文の要約性能に関する広範な分析を詳細に説明しました。このプロジェクトは2025年6月に開始され、いくつかの大学の専門家からの入力を受け、Society of Science Writersが主催する仮想記者会見で結果が発表されました。
タイムラインは、生物学、物理学、医学などの分野から500の多様な科学論文を選択することから始まりました。ジャーナリストは7月と8月にChatGPTにこれらの要約を求め、人間専門家のバージョンを比較しました。9月初めまでに、データ分析が不正確なパターンを明らかにし、19日に公表されました。
"ChatGPTは元のテキストにない詳細を幻覚することが多く、研究者を誤導する可能性があります"、と主導ジャーナリストのMaria Gonzalezは会議で述べました。もう一人の参加者、Dr. Alex Riveraは付け加えました: "あるケースで、AIは気候研究の因果関係を逆転させ、公衆の理解を歪める可能性があります。" これらの引用は、直接比較から生じる批判の人間的要素を強調しています。
ChatGPTの背景は、2022年にOpenAIが起動し、執筆や要約などのタスクに急速に採用されたことにあります。しかし、正確性に関する懸念が持続し、以前の研究で'幻覚'—捏造情報—が指摘されています。この新しい報告はそれに基づき、特に科学文献に焦点を当て、AIの統合が増す中で精度が極めて重要です。
教育と研究への含意は深いです。学術的に、AIツールへの過度な依存を思いとどまらせ、より良いトレーニングデータと開発者からの透明性を求める呼びかけを促します。経済的に、数十億ドルの価値があるテック業界に影響を与え、信頼を維持するための改善ニーズを強調します。政策的に、学術出版におけるAIの規制に影響を与え、National Science Foundationのような機関からの潜在的なガイドラインを伴います。AIが進化する中、この研究は複雑な領域での人間の監督の不可欠な役割を強調します。
批判にもかかわらず、支持者は反復的な更新がこれらの欠陥を解決できると主張します。報告はハイブリッド人間-AIワークフローの推奨で結論付け、ますます自動化された世界への道を示唆します。