Github Copilot पेड मॉडल तुलना

7 मॉडल

Github Copilot वर्तमान में 7 मॉडल प्रदान करता है,

  • Claude 3.5 Sonnet
  • Claude 3.7 Sonnet
  • Claude 3.7 Sonnet Thinking
  • Gemini 2.0 Flash
  • GPT-4o
  • o1
  • o3-mini

अधिकारी के पास इन 7 मॉडल का परिचय नहीं है, इस लेख में उनके विभिन्न क्षेत्रों में स्कोर का संक्षिप्त विवरण है, उनके क्षेत्रों को अलग करने के लिए, ताकि पाठक विशिष्ट समस्याओं को हल करते समय उपयुक्त मॉडल में स्विच कर सकें.

मॉडल तुलना

तीन महत्वपूर्ण मापदंडों - कोडिंग (SWE‑Bench Verified), गणित (AIME'24) और तर्क (GPQA Diamond) पर आधारित बहु-आयामी तुलना तालिका, जिसमें सार्वजनिक मूल्यांकन डेटा (कुछ डेटा अनुमानित और विभिन्न स्रोतों से परिवर्तित) शामिल हैं:

मॉडलकोडिंग प्रदर्शन
(SWE‑Bench Verified)
गणित प्रदर्शन
(AIME'24)
तर्क प्रदर्शन
(GPQA Diamond)
Claude 3.5 Sonnet70.3%49.0%77.0%
Claude 3.7 Sonnet (स्टैंडर्ड मोड)≈83.7%
(वृद्धि ≈19%)
≈58.3%
(वृद्धि ≈19%)
≈91.6%
(वृद्धि ≈19%)
Claude 3.7 Sonnet Thinking≈83.7%
(स्टैंडर्ड के समान)
≈64.0%
(थिंकिंग मोड में और सुधार)
≈95.0%
(तर्क क्षमता मजबूत)
Gemini 2.0 Flash≈65.0%
(अनुमानित)
≈45.0%
(अनुमानित)
≈75.0%
(अनुमानित)
GPT‑4o38.0%36.7%71.4%
o148.9%83.3%78.0%
o3‑mini49.3%87.3%79.7%

स्पष्टीकरण:

  • उपर्युक्त मान Vellum प्लेटफॉर्म की तुलना रिपोर्ट (VELLUM.AI) और कुछ डेटा परिवर्तन (उदाहरण के लिए Claude 3.7 की तुलना 3.5 से लगभग 19% वृद्धि) से लिए गए हैं, और कुछ Gemini 2.0 Flash मान अनुमानित हैं।
  • “Claude 3.7 Sonnet Thinking” का अर्थ है “थिंकिंग मोड” (यानी आंतरिक तर्क कदमों का विस्तार) चालू करने की स्थिति में, जहां मॉडल गणित और तर्क कार्यों पर उल्लेखनीय रूप से बेहतर प्रदर्शन करता है।

ताकत और कमजोरियों का सारांश और अनुप्रयोग क्षेत्र

Claude श्रृंखला (3.5/3.7 Sonnet और उनके Thinking वेरिएंट)

  • ताकत: कोडिंग और बहु-कदम तर्क कार्यों में उच्च सटीकता दिखाती है, विशेष रूप से 3.7 संस्करण 3.5 की तुलना में स्पष्ट सुधार दिखाता है; “Thinking” मोड में गणित और तर्क प्रदर्शन में और सुधार होता है, जो जटिल तर्क या विस्तृत योजना की आवश्यकता वाले कार्यों के लिए उपयुक्त है; टूल कॉल और लंबे संदर्भ संसाधन में लाभ है।
  • कमजोरियां: स्टैंडर्ड मोड में गणित संकेतक अपेक्षाकृत कम होते हैं, केवल विस्तृत तर्क चालू करने पर ही उल्लेखनीय सुधार होता है; कुछ परिदृश्यों में लागत और प्रतिक्रिया समय अधिक हो सकता है। उपयुक्त क्षेत्र: सॉफ्टवेयर इंजीनियरिंग, कोड उत्पादन और डीबगिंग, जटिल समस्या समाधान, बहु-कदम निर्णय और उद्यम स्तरीय स्वचालित कार्य प्रवाह।

Gemini 2.0 Flash

  • ताकत: बड़े संदर्भ विंडो के साथ, लंबे दस्तावेज़ संसाधन और बहु-मोडल इनपुट (उदाहरण के लिए छवि विश्लेषण) के लिए उपयुक्त है; कुछ परीक्षणों में तर्क क्षमता और कोडिंग प्रदर्शन अच्छा है, और प्रतिक्रिया गति तेज़ है।
  • कमजोरियां: कुछ परिदृश्यों में (जटिल कोडिंग कार्य आदि) “अटकने” की घटना हो सकती है, स्थिरता की पुष्टि की आवश्यकता है; कुछ संकेतक प्रारंभिक अनुमान हैं, समग्र प्रदर्शन की पुष्टि के लिए और अधिक सार्वजनिक डेटा की आवश्यकता है। उपयुक्त क्षेत्र: बहु-मोडल कार्य, रियल-टाइम इंटरैक्शन, बड़े संदर्भ की आवश्यकता वाले अनुप्रयोग, जैसे लंबे दस्तावेज़ सारांश, वीडियो विश्लेषण और जानकारी पुनःप्राप्ति।

GPT‑4o

  • ताकत: भाषा समझ और उत्पादन प्राकृतिक और सुगम है, खुले संवाद और सामान्य टेक्स्ट संसाधन के लिए उपयुक्त है।
  • कमजोरियां: कोडिंग, गणित आदि विशेषज्ञ कार्यों में प्रदर्शन अपेक्षाकृत कमजोर है, कुछ संकेतक समकालीन मॉडल से काफी कम हैं; लागत अधिक है (GPT‑4.5 के समान), कुछ प्रतियोगियों की तुलना में मूल्य-प्रभावशीलता कम है। उपयुक्त क्षेत्र: सामान्य संवाद प्रणाली, सामग्री निर्माण, प्रस्ताव लेखन और दैनिक प्रश्नोत्तर कार्य।

o1 और o3‑mini (OpenAI श्रृंखला)

  • ताकत: गणित तर्क में उत्कृष्ट प्रदर्शन, AIME जैसे कार्यों में o1 और o3‑mini क्रमशः 83.3% और 87.3% तक पहुंचते हैं; तर्क क्षमता स्थिर है, उच्च परिशुद्धता वाले गणित और तार्किक विश्लेषण की आवश्यकता वाले अनुप्रयोग के लिए उपयुक्त है।
  • कमजोरियां: कोडिंग प्रदर्शन मध्यम है, Claude श्रृंखला से थोड़ा कमजोर; विभिन्न कार्यों में समग्र प्रदर्शन में थोड़ा असंतुलन है। उपयुक्त क्षेत्र: वैज्ञानिक गणना, गणित समस्या समाधान, तार्किक तर्क, शिक्षा मार्गदर्शन और विशेषज्ञ डेटा विश्लेषण क्षेत्र।