Github Copilot पेड मॉडल तुलना

Tuesday, March 04, 2025

Categories:

समीक्षा

7 मॉडल

Github Copilot वर्तमान में 7 मॉडल प्रदान करता है,

Claude 3.5 Sonnet
Claude 3.7 Sonnet
Claude 3.7 Sonnet Thinking
Gemini 2.0 Flash
GPT-4o
o1
o3-mini

अधिकारी के पास इन 7 मॉडल का परिचय नहीं है, इस लेख में उनके विभिन्न क्षेत्रों में स्कोर का संक्षिप्त विवरण है, उनके क्षेत्रों को अलग करने के लिए, ताकि पाठक विशिष्ट समस्याओं को हल करते समय उपयुक्त मॉडल में स्विच कर सकें.

मॉडल तुलना

तीन महत्वपूर्ण मापदंडों - कोडिंग (SWE‑Bench Verified), गणित (AIME'24) और तर्क (GPQA Diamond) पर आधारित बहु-आयामी तुलना तालिका, जिसमें सार्वजनिक मूल्यांकन डेटा (कुछ डेटा अनुमानित और विभिन्न स्रोतों से परिवर्तित) शामिल हैं:

मॉडल	कोडिंग प्रदर्शन (SWE‑Bench Verified)	गणित प्रदर्शन (AIME'24)	तर्क प्रदर्शन (GPQA Diamond)
Claude 3.5 Sonnet	70.3%	49.0%	77.0%
Claude 3.7 Sonnet (स्टैंडर्ड मोड)	≈83.7% (वृद्धि ≈19%)	≈58.3% (वृद्धि ≈19%)	≈91.6% (वृद्धि ≈19%)
Claude 3.7 Sonnet Thinking	≈83.7% (स्टैंडर्ड के समान)	≈64.0% (थिंकिंग मोड में और सुधार)	≈95.0% (तर्क क्षमता मजबूत)
Gemini 2.0 Flash	≈65.0% (अनुमानित)	≈45.0% (अनुमानित)	≈75.0% (अनुमानित)
GPT‑4o	38.0%	36.7%	71.4%
o1	48.9%	83.3%	78.0%
o3‑mini	49.3%	87.3%	79.7%

स्पष्टीकरण:

उपर्युक्त मान Vellum प्लेटफॉर्म की तुलना रिपोर्ट (VELLUM.AI) और कुछ डेटा परिवर्तन (उदाहरण के लिए Claude 3.7 की तुलना 3.5 से लगभग 19% वृद्धि) से लिए गए हैं, और कुछ Gemini 2.0 Flash मान अनुमानित हैं।
“Claude 3.7 Sonnet Thinking” का अर्थ है “थिंकिंग मोड” (यानी आंतरिक तर्क कदमों का विस्तार) चालू करने की स्थिति में, जहां मॉडल गणित और तर्क कार्यों पर उल्लेखनीय रूप से बेहतर प्रदर्शन करता है।

ताकत और कमजोरियों का सारांश और अनुप्रयोग क्षेत्र

Claude श्रृंखला (3.5/3.7 Sonnet और उनके Thinking वेरिएंट)

ताकत: कोडिंग और बहु-कदम तर्क कार्यों में उच्च सटीकता दिखाती है, विशेष रूप से 3.7 संस्करण 3.5 की तुलना में स्पष्ट सुधार दिखाता है; “Thinking” मोड में गणित और तर्क प्रदर्शन में और सुधार होता है, जो जटिल तर्क या विस्तृत योजना की आवश्यकता वाले कार्यों के लिए उपयुक्त है; टूल कॉल और लंबे संदर्भ संसाधन में लाभ है।
कमजोरियां: स्टैंडर्ड मोड में गणित संकेतक अपेक्षाकृत कम होते हैं, केवल विस्तृत तर्क चालू करने पर ही उल्लेखनीय सुधार होता है; कुछ परिदृश्यों में लागत और प्रतिक्रिया समय अधिक हो सकता है। उपयुक्त क्षेत्र: सॉफ्टवेयर इंजीनियरिंग, कोड उत्पादन और डीबगिंग, जटिल समस्या समाधान, बहु-कदम निर्णय और उद्यम स्तरीय स्वचालित कार्य प्रवाह।

Gemini 2.0 Flash

ताकत: बड़े संदर्भ विंडो के साथ, लंबे दस्तावेज़ संसाधन और बहु-मोडल इनपुट (उदाहरण के लिए छवि विश्लेषण) के लिए उपयुक्त है; कुछ परीक्षणों में तर्क क्षमता और कोडिंग प्रदर्शन अच्छा है, और प्रतिक्रिया गति तेज़ है।
कमजोरियां: कुछ परिदृश्यों में (जटिल कोडिंग कार्य आदि) “अटकने” की घटना हो सकती है, स्थिरता की पुष्टि की आवश्यकता है; कुछ संकेतक प्रारंभिक अनुमान हैं, समग्र प्रदर्शन की पुष्टि के लिए और अधिक सार्वजनिक डेटा की आवश्यकता है। उपयुक्त क्षेत्र: बहु-मोडल कार्य, रियल-टाइम इंटरैक्शन, बड़े संदर्भ की आवश्यकता वाले अनुप्रयोग, जैसे लंबे दस्तावेज़ सारांश, वीडियो विश्लेषण और जानकारी पुनःप्राप्ति।

GPT‑4o

ताकत: भाषा समझ और उत्पादन प्राकृतिक और सुगम है, खुले संवाद और सामान्य टेक्स्ट संसाधन के लिए उपयुक्त है।
कमजोरियां: कोडिंग, गणित आदि विशेषज्ञ कार्यों में प्रदर्शन अपेक्षाकृत कमजोर है, कुछ संकेतक समकालीन मॉडल से काफी कम हैं; लागत अधिक है (GPT‑4.5 के समान), कुछ प्रतियोगियों की तुलना में मूल्य-प्रभावशीलता कम है। उपयुक्त क्षेत्र: सामान्य संवाद प्रणाली, सामग्री निर्माण, प्रस्ताव लेखन और दैनिक प्रश्नोत्तर कार्य।

o1 और o3‑mini (OpenAI श्रृंखला)

ताकत: गणित तर्क में उत्कृष्ट प्रदर्शन, AIME जैसे कार्यों में o1 और o3‑mini क्रमशः 83.3% और 87.3% तक पहुंचते हैं; तर्क क्षमता स्थिर है, उच्च परिशुद्धता वाले गणित और तार्किक विश्लेषण की आवश्यकता वाले अनुप्रयोग के लिए उपयुक्त है।
कमजोरियां: कोडिंग प्रदर्शन मध्यम है, Claude श्रृंखला से थोड़ा कमजोर; विभिन्न कार्यों में समग्र प्रदर्शन में थोड़ा असंतुलन है। उपयुक्त क्षेत्र: वैज्ञानिक गणना, गणित समस्या समाधान, तार्किक तर्क, शिक्षा मार्गदर्शन और विशेषज्ञ डेटा विश्लेषण क्षेत्र।