Vergleich der kostenpflichtigen Github Copilot Modelle

Tuesday, March 04, 2025

Categories:

Bewertungen

7 Modelle

Github Copilot bietet derzeit 7 Modelle an:

Claude 3.5 Sonnet
Claude 3.7 Sonnet
Claude 3.7 Sonnet Thinking
Gemini 2.0 Flash
GPT-4o
o1
o3-mini

Es fehlen offizielle Vorstellungen zu diesen 7 Modellen. Dieser Artikel gibt eine kurze Beschreibung ihrer Bewertungen in verschiedenen Bereichen, um ihre Stärken zu verdeutlichen und den Lesern zu helfen, bei spezifischen Problemen zu einem geeigneteren Modell zu wechseln.

Modellvergleich

Eine multidimensionale Vergleichstabelle basierend auf öffentlichen Bewertungsdaten (einige Daten sind Schätzungen oder wurden aus verschiedenen Quellen umgerechnet), die die drei Schlüsselindikatoren Codierung (SWE‑Bench Verified), Mathematik (AIME’24) und Schlussfolgern (GPQA Diamond) abdeckt:

Modell	Codierungsleistung (SWE‑Bench Verified)	Mathematikleistung (AIME'24)	Schlussfolgerungsleistung (GPQA Diamond)
Claude 3.5 Sonnet	70,3 %	49,0 %	77,0 %
Claude 3.7 Sonnet (Standardmodus)	≈83,7 % (Steigerung um ≈19 %)	≈58,3 % (Steigerung um ≈19 %)	≈91,6 % (Steigerung um ≈19 %)
Claude 3.7 Sonnet Thinking	≈83,7 % (ähnlich wie Standard)	≈64,0 % (Weitere Steigerung im Denkmodus)	≈95,0 % (Stärkere Schlussfolgerungsfähigkeit)
Gemini 2.0 Flash	≈65,0 % (geschätzt)	≈45,0 % (geschätzt)	≈75,0 % (geschätzt)
GPT‑4o	38,0 %	36,7 %	71,4 %
o1	48,9 %	83,3 %	78,0 %
o3‑mini	49,3 %	87,3 %	79,7 %

Hinweis:

Die Werte in der obigen Tabelle stammen teilweise aus öffentlichen Bewertungen (z. B. dem Vergleichsbericht VELLUM.AI der Vellum-Plattform) sowie aus Datenumrechnungen (z. B. ist Claude 3.7 im Vergleich zu 3.5 etwa 19 % besser); einige Werte für Gemini 2.0 Flash sind geschätzt.
„Claude 3.7 Sonnet Thinking“ bezieht sich auf die Leistung des Modells bei Mathematik- und Schlussfolgerungsaufgaben, wenn der „Denkmodus“ (d. h. Verlängerung der internen Schlussfolgerungsschritte) aktiviert ist, was sich signifikant verbessert.

Zusammenfassung von Vor- und Nachteilen sowie Anwendungsbereiche

Claude-Serie (3.5/3.7 Sonnet und deren Thinking-Varianten)

Vorteile: Hohe Genauigkeit bei Codierungs- und mehrstufigen Schlussfolgerungsaufgaben, insbesondere Version 3.7 zeigt im Vergleich zu 3.5 eine deutliche Verbesserung; Bessere Leistung in Mathematik und Schlussfolgern im „Thinking“-Modus, geeignet für die Verarbeitung komplexer Logik oder Aufgaben, die eine detaillierte Planung erfordern; Eingebaute Vorteile bei Tool-Calls und der Verarbeitung von langem Kontext.
Nachteile: Mathematische Kennzahlen sind im Standardmodus relativ niedrig und verbessern sich erst signifikant bei aktivierter verlängerter Schlussfolgern; Kosten und Antwortzeiten können in bestimmten Szenarien höher sein. Anwendungsbereiche: Softwaretechnik, Code-Generierung und -Debugging, Lösung komplexer Probleme, mehrstufige Entscheidungsfindung und unternehmensweite Automatisierungs-Workflows.

Gemini 2.0 Flash

Vorteile: Verfügt über ein großes Kontextfenster, geeignet für die Bearbeitung langer Dokumente und multimodale Eingaben (z. B. Bildanalyse); Die Fähigkeit zum Schlussfolgern und die Codierungsleistung sind in einigen Tests gut und die Reaktionsgeschwindigkeit ist hoch.
Nachteile: In einigen Szenarien (z. B. bei komplexen Codierungsaufgaben) kann ein „Hängenbleiben“ auftreten; die Stabilität muss noch validiert werden; Einige Kennzahlen sind vorläufige Schätzungen; die Gesamtleistung muss noch durch mehr öffentliche Daten bestätigt werden. Anwendungsbereiche: Multimodale Aufgaben, Echtzeitinteraktion, Anwendungsszenarien, die viel Kontext benötigen, wie Zusammenfassungen langer Dokumente, Videoanalyse und Informationsabruf.

GPT‑4o

Vorteile: Sprachverständnis und -generierung sind natürlich und flüssig, geeignet für offene Gespräche und allgemeine Textverarbeitung.
Nachteile: Die Leistung bei spezialisierten Aufgaben wie Codierung und Mathematik ist relativ schwach; einige Kennzahlen liegen weit unter denen vergleichbarer Modelle; Hohe Kosten (ähnlich wie bei GPT‑4.5), das Preis-Leistungs-Verhältnis ist nicht so gut wie bei einigen Mitbewerbern. Anwendungsbereiche: Allgemeine Dialogsysteme, Content-Erstellung, Textverfassung und alltägliche Frage-Antwort-Aufgaben.

o1 und o3‑mini (OpenAI-Serie)

Vorteile: Exzellente Leistung beim mathematischen Schlussfolgern; o1 und o3‑mini erreichen bei AIME-ähnlichen Aufgaben 83,3 % bzw. 87,3 %; Die Schlussfolgerungsfähigkeit ist relativ stabil, geeignet für Anwendungen, die hohe Präzision in Mathematik und logischer Analyse erfordern.
Nachteile: Die Codierungsleistung ist mittelmäßig und etwas schlechter als bei der Claude-Serie; Die Gesamtleistung ist auf verschiedenen Aufgaben etwas unausgewogen. Anwendungsbereiche: Wissenschaftliches Rechnen, Lösung mathematischer Probleme, logisches Schlussfolgern, Nachhilfe in Bildung und professionelle Datenanalyse.