لماذا تعد مؤشرات معدل الاسترجاع للنماذج الكبيرة مهمة
Categories:
قرأت بعض أوامر النظام، وكانت في الغالب طويلة جدًا وغير مكثفة. بعض الأوامر تركز أساسًا على تعليم النموذج كيفية أداء المهام.
كما لاحظت في roo code وجود مفتاح لإعادة إرسال أوامر النظام إلى النموذج بشكل متكرر، مما يشير إلى إمكانية تعزيز ضبط الشخصية واتباع التعليمات. لكن هذا يؤدي إلى زيادة استهلاك الـ tokens.
ربما السبب هو أن الأمور المهمة تحتاج إلى التكرار عدة مرات لرفع الوزن الحسابي وزيادة احتمالية التأكيد والحصول على نتائج أصح. للأسف، هذه النتائج لا تزال صحيحة احتماليًا.
من استخدم نموذج claude وgpt5high لفترة طويلة قد يشعر أن gpt5high بطيء جدًا ولكنه دقيق للغاية.
هل من الممكن أن يكون ذلك مرتبطًا بوصول معدل استرجاع gpt5 إلى 100%؟
عند استخدام AGENTS.md لتوجيه gpt5، لاحظت أنه يمكن توجيه codex cli بأبسط العبارات المكثفة. أما عند استخدام claude code، فأجد نفسي غالبًا مضطرًا لكتابة CLAUDE.md بأسلوب “مطول” جدًا، ومع ذلك لا يزال claude يتجاهل بعض المتطلبات المحددة. لا يكون التحسين ضروريًا بالضرورة من خلال تكرار نفس الطلب، بل باستخدام مفردات مختلفة مثل “يجب”، “مهم”، واستخدام الأقواس، أو تنسيق markdown للعريض (**) يمكن تعزيز الامتثال.
بمعنى آخر، عند التعاون مع نموذج claude، تكون متطلبات الأوامر عالية، حيث أن أي تغيير بسيط في المفردات قد يؤثر على أداء النموذج. أما عند استخدام gpt5، تكون متطلبات الأوامر منخفضة،只要精炼的表达不存在逻辑矛盾之处, codex cli就可以做的很好. إذا存在逻辑矛盾之处, gpt5会指出来.
我现在对和claude模型的合作开发越来越不满, 倒不是它活干的太差, 而是被坑过几回后无法信任它, claude每次发作都会改很多代码, 让它改CLAUDE.md也是非常激进. 所谓言多必失, 一个很长的系统提示词如何保证不存在前后矛盾之处, 检视工作量实在太多, 心智负担也很大.
相较而言, gpt5high似乎具有真正的逻辑, 这或许和它的高召回率相关.