Mistral AIがDevstral 2コーディングモデルとVibeツールをリリース

フランスのスタートアップMistral AIは、コーディング向け1230億パラメータのオープンウェイトAIモデルDevstral 2をリリースし、SWE-bench Verifiedベンチマークで72.2%を記録した。これに伴い、同社は自律型ソフトウェアエンジニアリングタスク向けCLIツールMistral Vibeを導入した。また、消費者向けハードウェアでのローカル使用を想定した小型版Devstral Small 2も登場した。

2025年12月10日、Mistral AIは自律型ソフトウェアエンジニアリングエージェント内で動作するよう設計されたDevstral 2を発表した。このモデルは実際のGitHubイシューを解決することに優れ、人気のPythonリポジトリからの500問の問題を含むSWE-bench Verifiedで72.2%のスコアを達成した。このベンチマークでは、AIがイシュー記述を読み込み、コードベースをナビゲートし、ユニットテストに合格するパッチを生成する必要があり、経験豊富なエンジニアにとっては単純なバグ修正と見なされるタスクである。

モデルを補完するのがApache 2.0ライセンスのCLIツールMistral Vibeだ。開発者はターミナル上でDevstralモデルと直接やり取りでき、ファイル構造やGitステータスをスキャンしてプロジェクト全体のコンテキストを得られる。このツールは複数のファイルを修正したり、シェルコマンドを独立して実行したりでき、Claude CodeやOpenAI Codexのようなインターフェースに類似している。

Mistralはまた、ベンチマークで68%を記録した240億パラメータのバリエーションDevstral Small 2もリリースした。これはラップトップでオフライン動作可能で、両モデルとも大規模コードベース向けに256,000トークンのコンテキストウィンドウを扱う。Devstral 2は修正MITライセンスを使用し、小型版はApache 2.0だ。

価格はMistralのAPI経由で無料から始まり、Devstral 2では入力トークンあたり100万で0.40ドル、出力トークンあたり2.00ドルに移行—AnthropicのClaude Sonnet 4.5(それぞれ3ドルと15ドル)より7倍効率的とされる。

このリリースは2025年2月にAndrej Karpathyが造語した「vibe coding」と結びつき、深いレビューなしにAI生成コードのための自然言語プロンプトを指す。開発者のSimon Willisonはプロトタイピングで称賛:「vibe codingは本当に楽しい。アイデアを試して動作するかを証明する素晴らしい方法だ。」しかし警告:「vibe codingで本番コードベースに至るのは明らかにリスクが高い」と、進化するシステムでのコード品質の必要性を強調した。

Mistralによると、Devstral 2はプロジェクトの整合性を維持し、バグ修正、レガシーコードの近代化、大規模依存関係管理が可能で、vibe codingをプロトタイプを超えて拡張する可能性がある。

関連記事

Photo illustration of Google executives unveiling the Gemini 3 AI model and Antigravity IDE in a conference setting.
AIによって生成された画像

GoogleがGemini 3 AIモデルとAntigravity IDEを発表

AIによるレポート AIによって生成された画像

Googleは、最新のフラッグシップAIモデルであるGemini 3 Proをリリースし、推論の改善、視覚出力、コーディング機能に重点を置いています。同社はまた、AI優先の統合開発環境であるAntigravityも導入しました。両者は本日より限定プレビューで利用可能です。

OpenAI、Anthropic、Googleなどの企業のAIコーディングエージェントは、人間の監督下でソフトウェアプロジェクトの長期作業を可能にし、アプリの作成やバグ修正を含みます。これらのツールは大規模言語モデルに依存しますが、文脈処理の制限や高い計算コストなどの課題に直面しています。それらの仕組みを理解することで、開発者は効果的に展開するタイミングを判断できます。

AIによるレポート

CNETの実験では、GoogleのGemini 3 ProとGemini 2.5 Flashモデルをvibe codingで比較しました。これはAIチャット経由でコードを生成するカジュアルなアプローチです。思考モデルはより簡単で包括的でした。一方、高速モデルは手動介入をより多く必要としました。結果から、モデルの選択が開発体験に大きく影響することが示唆されます。

In 2025, AI agents became central to artificial intelligence progress, enabling systems to use tools and act autonomously. From theory to everyday applications, they transformed human interactions with large language models. Yet, they also brought challenges like security risks and regulatory gaps.

AIによるレポート

主要AIモデルの比較評価で、GoogleのGemini 3.2 FastはOpenAIのChatGPT 5.2に対し、事実精度で優位性を示した。特に情報タスクで顕著だった。これらのテストは、AppleがGoogleと提携してSiriを強化したことを受けて行われ、2023年以来の生成AIの進化を強調している。結果は僅差だったが、GeminiはChatGPTの信頼性を損なう重大な誤りを避けた。

マウントサイナイのアイカーン医学校の研究者らが、V2Pと呼ばれる人工知能システムを開発した。このシステムは、遺伝子変異が有害である可能性を評価するだけでなく、それらが引き起こす可能性のある広範な疾患カテゴリを予測する。Nature Communicationsに掲載された論文で記述されたこの手法は、特に希少で複雑な疾患に対する遺伝子診断を加速し、より個別化された治療を支援することを目的としている。

AIによるレポート

GoogleはProject Genieという新しいAI「ワールドモデル」を発表し、すでにゲーム業界に影響を与えています。しかし、一部の人々が嫌う人工知能の側面に対して批判を呼んでいます。この開発は2026年2月2日に公開されたTechRadarの記事で取り上げられました。

 

 

 

このウェブサイトはCookieを使用します

サイトを改善するための分析にCookieを使用します。詳細については、プライバシーポリシーをお読みください。
拒否