Github Copilot有料モデル比較

7種類のモデル

Github Copilot は現在 7 種類のモデルを提供しています。

  • Claude 3.5 Sonnet
  • Claude 3.7 Sonnet
  • Claude 3.7 Sonnet Thinking
  • Gemini 2.0 Flash
  • GPT-4o
  • o1
  • o3-mini

公式サイトではこれらの 7 モデルの詳細な説明が不足しているため、本稿では各モデルが得意とする分野を把握しやすくするため、公開評価データ(一部は推定値と異なるソースからの換算値)に基づく多面的比較を簡潔に述べます。

モデル比較

コード(SWE‑Bench Verified)、数学(AIME'24)、推論(GPQA Diamond)の 3 つの主要指標に基づく、公開評価データ(一部は推定値と異なるソースからの換算値)を用いた多面的比較表:

モデルコード表現
(SWE‑Bench Verified)
数学表現
(AIME'24)
推論表現
(GPQA Diamond)
Claude 3.5 Sonnet70.3%49.0%77.0%
Claude 3.7 Sonnet (標準モード)≈83.7%
(約 19% 向上)
≈58.3%
(約 19% 向上)
≈91.6%
(約 19% 向上)
Claude 3.7 Sonnet Thinking≈83.7%
(標準とほぼ同等)
≈64.0%
(思考モードで更に向上)
≈95.0%
(より強力な推論能力)
Gemini 2.0 Flash≈65.0%
(推定値)
≈45.0%
(推定値)
≈75.0%
(推定値)
GPT‑4o38.0%36.7%71.4%
o148.9%83.3%78.0%
o3‑mini49.3%87.3%79.7%

説明:

  • 表の数値は、部分的に公開評価(例:Vellum プラットフォームの比較レポート VELLUM.AI)と、Claude 3.7 が 3.5 に対して約 19% 向上するといった換算値に基づいています。Gemini 2.0 Flash の一部数値は推定値です。
  • 「Claude 3.7 Sonnet Thinking」は、内部推論ステップを延長する「思考モード」を有効にした場合を指し、数学と推論タスクでのパフォーマンスが顕著に改善します。

優劣勢まとめと適用分野

Claude シリーズ(3.5/3.7 Sonnet とその Thinking 変種)

  • 優位点:
    • コードと多段階推論タスクで高い正確性を示し、特に 3.7 は 3.5 に対して顕著な向上がある。
    • 「Thinking」モードでは数学と推論のパフォーマンスが大幅に改善し、複雑なロジックや詳細な計画が必要なタスクに適する。
    • ツール呼び出しと長文脈処理に優位性がある。
  • 劣位点:
    • 標準モードでは数学指標がやや低く、延長推論を有効にしないと顕著な改善が見られない。
    • 特定シナリオでコストと応答時間が多くなる可能性がある。
  • 適用分野:
    • ソフトウェアエンジニアリング、コード生成・デバッグ、複雑問題解決、多段階意思決定、企業向け自動化ワークフロー。

Gemini 2.0 Flash

  • 優位点:
    • 大規模文脈ウィンドウを持ち、長文書処理やマルチモーダル入力(画像解析など)に適する。
    • 部分テストで推論とコード表現が良好で、応答速度も速い。
  • 劣位点:
    • 複雑なコードタスクなどで「止まる」現象が見られ、安定性の検証が必要。
    • 部分指標は推定値であり、全体的な性能はさらなる公開データで確認が必要。
  • 適用分野:
    • マルチモーダルタスク、リアルタイムインタラクション、長文書処理が必要なシナリオ(長文書要約、動画解析、情報検索など)。

GPT‑4o

  • 優位点:
    • 言語理解と生成が自然で流暢で、オープンエンドな対話と汎用テキスト処理に適する。
  • 劣位点:
    • コードや数学といった専門タスクでのパフォーマンスが相対的に低く、一部指標は同クラスモデルより劣る。
    • コストが高め(GPT‑4.5 と類似)、コストパフォーマンスが競合他社に比べ劣る。
  • 適用分野:
    • 汎用対話システム、コンテンツ制作、文案作成、日常的な質問応答タスク。

o1 と o3‑mini(OpenAI シリーズ)

  • 優位点:
    • 数学的推論で顕著なパフォーマンスを示し、AIME 系タスクで o1 が 83.3%、o3‑mini が 87.3% を達成。
    • 推論能力が安定しており、高精度の数学と論理分析が必要なアプリケーションに適する。
  • 劣位点:
    • コード表現は中程度で、Claude シリーズに比べやや劣る。
    • 異なるタスクでの性能バランスがやや不均一。
  • 適用分野:
    • 科学計算、数学問題解決、論理推論、教育指導、専門データ分析領域。