Почему важен показатель полноты извлечения для больших моделей
Categories:
Прочитав несколько системных промтов, обнаружил, что в основном они очень многословны и не обладают лаконичностью выражений. Некоторые промты в основном учат модель действовать.
Также заметил, что в roo code есть переключатель для повторной отправки системного промта модели, что указывает на возможность усиления настройки роли и следования инструкциям. Однако это увеличивает расход токенов.
Возможно, это связано с тем, что важные вещи нужно повторять несколько раз, чтобы повысить вес в вычислениях, повысить вероятность подтверждения и в итоге получить более вероятный правильный результат. К сожалению, такие результаты всё равно являются вероятностными.
Те, кто долго использовал модель claude и gpt5high, могут почувствовать, что gpt5high, хотя и очень медленный, обладает очень высокой точностью.
Может ли это быть связано с тем, что полнота извлечения gpt5 достигает 100%?
Используя AGENTS.md для управления работой gpt5, я обнаружил, что достаточно очень лаконичных и кратких слов, чтобы заставить codex cli работать. При использовании claude code часто нужно писать CLAUDE.md очень “многословно”, и даже в этом случае claude может игнорировать некоторые четко указанные меры предосторожности. Способы улучшения не обязательно требуют повторения одного и того же требования, использование различных слов, таких как “обязательно”, “важно” и т.д., использование скобок, выделение жирным в markdown (**), могут усилить соблюдение.
То есть при работе с моделью claude требования к промтам высокие, незначительные изменения в лексике могут повлиять на производительность модели. При использовании gpt5 требования к промтам невысоки, достаточно лаконичного выражения без логических противоречий, codex cli может работать очень хорошо. Если есть логические противоречия, gpt5 укажет на них.
Теперь я всё больше недоволен совместной разработкой с моделью claude, дело не в том, что она плохо работает, а в том, что после нескольких обманов я не могу доверять ей, каждый раз, когда claude срывается, она меняет много кода, и заставить её изменить CLAUDE.md также очень радикально. Как говорится, чем больше говоришь, тем больше ошибок. Как гарантировать, что длинный системный промт не содержит противоречий, объём проверочной работы слишком велик, и умственная нагрузка тоже очень велика.
В сравнении, gpt5high, похоже, обладает настоящей логикой, возможно, это связано с её высокой полнотой извлечения.