Porównanie płatnych modeli Github Copilot

Tuesday, March 04, 2025

Categories:

Recenzje

7种模型

Github Copilot obecnie oferuje 7 modeli:

Claude 3.5 Sonnet
Claude 3.7 Sonnet
Claude 3.7 Sonnet Thinking
Gemini 2.0 Flash
GPT-4o
o1
o3-mini

Brakuje oficjalnego opisu tych 7 modeli; niniejszy artykuł zawiera zwięzły opis ich ocen w poszczególnych dziedzinach, aby wyraźnie wskazać obszary, w których się wyróżniają, co ułatwi czytelnikom przełączanie się na bardziej odpowiedni model w przypadku konkretnych problemów.

Porównanie modeli

Tabela porównawcza oparta na publicznie dostępnych danych testowych (część danych to oszacowania i przeliczenia z różnych źródeł) w wielu wymiarach, obejmująca trzy kluczowe wskaźniki: kodowanie (SWE‑Bench Verified), matematyka (AIME'24) i rozumowanie (GPQA Diamond):

Model	Wydajność Kodowania (SWE‑Bench Verified)	Wydajność Matematyczna (AIME'24)	Wydajność Rozumowania (GPQA Diamond)
Claude 3.5 Sonnet	70.3%	49.0%	77.0%
Claude 3.7 Sonnet (tryb standardowy)	≈83.7% (wzrost ≈19%)	≈58.3% (wzrost ≈19%)	≈91.6% (wzrost ≈19%)
Claude 3.7 Sonnet Thinking	≈83.7% (podobne do standardowego)	≈64.0% (tryb myślenia dalszy wzrost)	≈95.0% (lepsza zdolność rozumowania)
Gemini 2.0 Flash	≈65.0% (szacunki)	≈45.0% (szacunki)	≈75.0% (szacunki)
GPT‑4o	38.0%	36.7%	71.4%
o1	48.9%	83.3%	78.0%
o3‑mini	49.3%	87.3%	79.7%

Objaśnienia:

Wartości w powyższej tabeli pochodzą z części publicznych testów (np. raportu porównawczego z platformy Vellum VELLUM.AI) oraz części przeliczonych danych (np. Claude 3.7 w porównaniu do 3.5 ma wzrost o około 19%); niektóre wartości Gemini 2.0 Flash są oszacowane.
“Claude 3.7 Sonnet Thinking” oznacza tryb “myślenia” (czyli wydłużenia kroków wewnętrznego rozumowania), w którym model znacząco poprawia wydajność w zadaniach matematycznych i rozumowania.

Podsumowanie zalet i wad oraz obszary zastosowania

Seria Claude (3.5/3.7 Sonnet oraz wariant Thinking)

Zalety: Wysoki poziom dokładności w zadaniach kodowania i wieloetapowego rozumowania, szczególnie w wersji 3.7, która wyraźnie poprawia się w stosunku do 3.5; Tryb “Thinking” daje lepszą wydajność w matematyce i rozumowaniu, nadaje się do rozwiązywania złożonych logik lub zadań wymagających szczegółowego planowania; Wbudowane zalety w wywoływaniu narzędzi i przetwarzaniu długich kontekstów.
Wady: W trybie standardowym wskaźniki matematyczne są stosunkowo niskie; znacząca poprawa następuje tylko po włączeniu wydłużonego rozumowania; Koszt i czas odpowiedzi mogą być wyższe w niektórych scenariuszach. Obszary zastosowania: Inżynieria oprogramowania, generowanie i debugowanie kodu, rozwiązywanie złożonych problemów, wieloetapowe decyzje oraz zautomatyzowane procesy robocze na poziomie przedsiębiorstwa.

Gemini 2.0 Flash

Zalety: Posiada dużą długość okna kontekstowego, nadaje się do przetwarzania długich dokumentów i wejść wielomodalnych (np. analiza obrazów); Wydajność rozumowania i kodowania w niektórych testach jest solidna, a szybkość odpowiedzi wysoka.
Wady: W niektórych scenariuszach (np. złożone zadania kodowania) może występować “blokowanie”, stabilność wymaga weryfikacji; Część wskaźników to wstępne oszacowania, ogólna wydajność wymaga więcej publicznych danych. Obszary zastosowania: Zadania wielomodalne, interakcja w czasie rzeczywistym, scenariusze wymagające dużego kontekstu, takie jak streszczenia długich dokumentów, analiza wideo i wyszukiwanie informacji.

GPT‑4o

Zalety: Naturalne i płynne rozumienie i generowanie języka, nadaje się do otwartych dialogów i ogólnego przetwarzania tekstu.
Wady: Wydajność w zadaniach kodowania i matematyki jest stosunkowo słaba, niektóre wskaźniki znacznie niższe niż u modeli konkurencyjnych; Koszt wysoki (podobny do GPT‑4.5), stosunek jakości do ceny gorszy niż u niektórych konkurentów. Obszary zastosowania: Systemy dialogowe ogólnego przeznaczenia, tworzenie treści, pisanie tekstów reklamowych oraz codzienne zadania typu Q&A.

o1 i o3‑mini (seria OpenAI)

Zalety: Wyjątkowo dobre w rozumowaniu matematycznym; o1 i o3‑mini osiągają odpowiednio 83.3% i 87.3% w zadaniach typu AIME; Stabilna wydajność rozumowania, nadają się do aplikacji wymagających wysokiej precyzji matematycznej i analizy logicznej.
Wady: Wydajność kodowania średnia, nieco gorsza niż seria Claude; Całkowita wydajność lekko niezrównoważona w różnych zadaniach. Obszary zastosowania: Obliczenia naukowe, rozwiązywanie zadań matematycznych, rozumowanie logiczne, pomoc edukacyjna oraz specjalistyczna analiza danych.