コンテンツにスキップ

LLM モデル

最終更新: 2026-05-11 — この領域は数週間で動く。古い情報の可能性あり。

フロンティアラボ

ラボ 旗艦モデル (2026-05) 強み 弱み コーディング用途
Anthropic Claude Opus 4.7 / Sonnet 4.6 / Haiku 4.5 コーディング・推論・長期タスク 単発精度では Codex に肉薄される Claude Code の中心
OpenAI GPT-5.5 / GPT-5.5-Codex 単発精度 (SWE-bench)・コンテナ実行 エコシステムが OpenAI 縛り Codex CLI のバックエンド
Google DeepMind Gemini 3.0 Pro (1M context) / Deep Think 長コンテキスト・マルチモーダル ライブラリ APIの幻覚が出やすい 大規模コードベース要約・無料枠での探索
Meta Llama 4 系 (オープンウェイト) 自前ホスト・改変可 単独だと最先端に劣る ローカル / ZDR 要件向け
Mistral Mistral Medium 3.5 / Vibe 連携 EU 拠点・軽量モデルの完成度 旗艦は控えめ 安価ルーチン処理
DeepSeek DeepSeek V4 Pro / V4 Flash / Reasoner Opus の 1/10 コストで高性能 中国拠点・データ流出懸念 コスト最適化、Claude Code バックエンド差替
xAI Grok リアルタイム検索・X 連携 業務利用は控えめ 速報性が要る調査

ベンチマーク (2026-05 時点の参考値)

SWE-bench Verified (コーディング実務性能の事実上の指標):

  • GPT-5.5-Codex: 88.7%
  • Claude Opus 4.7: 87.6%
  • Claude Sonnet 4.6: ~80%
  • Gemini 3.0 Pro: ~75%

注意: ベンチマークはハーネス(エージェントの足場)込みのスコア。素のモデル力ではなく「ツール使用と組み合わせた結果」を見ている。

ローカル LLM

2026 年は 「ローカル LLM がコーディングに使える」 が現実視野に入った年。

モデル パラメータ 使い所
Qwen 3.6 27B / Qwen Coder 27B Reddit で「機内モードで Opus に肉薄」報告
Llama 4 系 8B / 70B 軽量タスク、ローカルファインチューン
DeepSeek-V4 (オープンウェイト版) 大型 自前 GPU で本格運用するなら

ハーネスは Ollama / llama.cpp / vLLM。Claude Code に繋ぐなら claude-code-router や Ollama 直結。

モデルを選ぶ実用基準

状況 推し
設計・難所判断 Claude Opus or GPT-5.5
日常コーディング Claude Sonnet or GPT-5.5-Codex
大規模コードベース要約 Gemini 3.0 Pro (1M context)
単純ルーチン (要約・コミットメッセージ) DeepSeek-Flash or Haiku
機密データ・オフライン Ollama + Qwen Coder or Llama 4
セカンドオピニオン 「主用と別社のモデル」を1つ

注意

  • モデル切替で prompt cache が壊れる: メイン会話で /model を頻繁に切り替えるとキャッシュ再構築でかえって高くなる。切替は subagent 経由 hand-off で
  • コスト ≠ 品質: 用途次第。コードベース要約は Gemini が圧倒、難バグは Opus、安いルーチンは Haiku/DeepSeek
  • ベンダーロックを避けるなら Anthropic API 形式と OpenAI Chat Completions 形式を相互変換できる Bifrost などのゲートウェイ経由が便利

出典