Perché l'indicatore di richiamo dei grandi modelli è importante

Tuesday, October 14, 2025

Categories:

Alfabetizzazione

Leggendo alcuni prompt di sistema, sono sostanzialmente molto prolissi e non espressi in modo conciso. Alcuni prompt insegnano principalmente al modello come svolgere compiti.

Inoltre, ho notato che in roo code c’è un’opzione per inviare ripetutamente il prompt di sistema al modello, indicando che è possibile rafforzare l’impostazione del ruolo e il seguimento delle istruzioni. Tuttavia, ciò aumenta il consumo di token.

Forse perché le cose importanti hanno bisogno di essere ripetute più volte per aumentare il loro peso durante il calcolo e migliorare la probabilità di conferma, ottenendo infine risultati più corretti. Sfortunatamente, questi risultati sono comunque corretti in modo probabilistico.

Coloro che hanno utilizzato a lungo i modelli claude e gpt5high potrebbero percepire che, nonostante gpt5high sia molto lento, la sua percentuale di correttezza è molto alta.

Questo potrebbe essere correlato al raggiungimento del 100% del tasso di richiamo da parte di gpt5.

Quando utilizzo AGENTS.md per dirigere gpt5, scopro che basta una comunicazione molto concisa e precisa per far lavorare codex cli. Quando uso claude code, spesso devo scrivere CLAUDE.md in modo molto “verboso”. Anche così, claude ignora spesso alcune precauzioni chiaramente richieste. I miglioramenti non richiedono necessariamente di ripetere una richiesta; l’uso di diverse parole come “deve”, “importante”, l’uso di parentesi, il grassetto markdown (**), possono tutti rafforzare il seguimento.

In altre parole, quando si collabora con il modello claude, i requisiti per il prompt sono elevati; piccole variazioni lessicali influenzano le prestazioni del modello. Quando si utilizza gpt5, i requisiti per il prompt non sono alti; fintanto che l’espressione concisa non presenta contraddizioni logiche, codex cli può funzionare bene. Se ci sono contraddizioni logiche, gpt5 le indicherà.

Ora sono sempre più insoddisfatto della collaborazione con il modello claude, non perché faccia male il lavoro, ma perché dopo essere stato ingannato qualche volta non posso più fidarmi di lui. Ogni volta che claude si scatena, modifica molti codici, e chiedergli di modificare CLAUDE.md è anche molto aggressivo. Come si dice, troppe parole portano inevitabilmente errori; come garantire che un lungo prompt di sistema non contenga contraddizioni? Il carico di lavoro di verifica è davvero troppo grande, e anche il fardello mentale è pesante.

In confronto, gpt5high sembra avere una vera logica, forse correlata al suo alto tasso di richiamo.