Claude e la Finestra di Contesto da 1 Milione di Token: Cosa Cambia Davvero

Claude Opus 4.6 gestisce 1 milione di token senza sovrapprezzi. Ecco come funziona, i benchmark reali e perché cambia il modo di lavorare con l'IA.

C’è una cifra che gira parecchio in questi giorni: 1 milione di token.

Sembra un numero da brochure marketing, vero? Tipo quelle specifiche dei telefoni che nessuno capisce davvero. E invece… stavolta il numero conta eccome. Perché cambia radicalmente cosa puoi fare con un’IA in una singola conversazione.

Dal 13 marzo 2026, Claude Opus 4.6 e Sonnet 4.6 supportano ufficialmente 1 milione di token di contesto. Nessun sovrapprezzo, nessun tier speciale. È la finestra standard.

Ho passato gli ultimi giorni a testarlo su roba vera — documenti legali, codebase, analisi finanziarie — e devo ammettere che le impressioni sono state… forti. Vediamo cosa significa in pratica.

Ma quanti sono, 1 milione di token?

Allora, partiamo dalle basi. Perché “1 milione di token” suona bene ma dice poco se non lo traduci in qualcosa di concreto.

Un token è più o meno ¾ di parola in inglese (in italiano un po’ meno, perché le nostre parole tendono a essere più lunghe). Facendo i conti:

MisuraEquivalente approssimativo
Parole~750.000
Pagine A41.500–2.000
Romanzi5–7 (tipo l’intera saga di Harry Potter)
Righe di codice~200.000
Tesi di laurea15–20 intere

Cioè, stiamo parlando di caricare un’intera codebase aziendale, oppure tutti i documenti di un progetto da inizio a fine, in una singola conversazione. Roba che fino a un anno fa era fantascienza.

Per dare un’idea del salto: ChatGPT-4 lavora con 128K token. Claude fino a poco fa ne aveva 200K. Adesso siamo a 5 volte tanto rispetto alla versione precedente.

Perché la finestra di contesto è così importante

Se hai mai lavorato con l’IA su documenti lunghi, conosci il problema. Stai analizzando un contratto, l’IA risponde alla grande sulle prime pagine, poi a metà… perde il filo. Dimentica clausole importanti, si contraddice, o semplicemente ignora pezzi interi del testo.

È il famoso problema del “lost in the middle” — l’IA tende a ricordare bene l’inizio e la fine di un documento, ma il centro? Diventa una zona grigia.

Con una finestra più grande, il problema non scompare magicamente (ci arriviamo tra poco), ma hai molto più margine. Puoi caricare il documento intero invece di spezzettarlo in pezzi, e questo da solo riduce un sacco di errori.

Casi d’uso concreti per il mercato italiano

Pensaci un attimo. In Italia abbiamo:

  • Studi legali che gestiscono contratti e atti processuali di centinaia di pagine — finalmente puoi caricare tutto in una volta e chiedere un’analisi incrociata
  • Commercialisti con bilanci, dichiarazioni dei redditi e normativa fiscale da confrontare simultaneamente
  • Ricercatori universitari con tesi, paper e dataset da analizzare in un colpo solo
  • PMI che devono analizzare report finanziari trimestrali senza perdere tempo a fare copia-incolla a pezzi

Prima dovevi spezzettare tutto, mandare chunk separati all’IA, e sperare che i pezzi del puzzle combaciassero. Adesso? Carichi tutto e lavori.

I benchmark: Opus 4.6 stacca tutti

Bene, i numeri da marketing sono carini. Ma funziona davvero? Qui le cose si fanno interessanti.

Anthropic ha rilasciato i risultati del MRCR v2 (Multi-Round Coreference Resolution) — un benchmark progettato specificamente per testare quanto bene un modello recupera informazioni sparse in contesti lunghissimi. Non è un test facile: chiede al modello di trovare dettagli specifici sepolti tra migliaia di pagine di testo.

ModelloScore MRCR v2 a 1M token
Claude Opus 4.676–78%
GPT-5.436%
Gemini 3.1 Pro26%

Letto bene? Opus 4.6 ha più del doppio dello score di GPT-5.4 e quasi il triplo di Gemini. Non è una differenza marginale — è un abisso.

Attenzione però: questi sono benchmark, e i benchmark vanno sempre presi con le pinze. La performance reale dipende da cosa ci fai. Ma diciamo che il vantaggio è abbastanza netto da non poterlo ignorare.

Confronto modelli: prezzi e specifiche

Se stai valutando quale modello usare per progetti con contesti lunghi, ecco il quadro completo. Ho convertito i prezzi in euro al cambio attuale (~0,92 €/$).

ModelloContesto maxInput (per 1M token)Output (per 1M token)Note
Claude Opus 4.61M~€13,80~€69,00Miglior retrieval a 1M
Claude Sonnet 4.61M~€2,76~€11,04Ottimo rapporto qualità/prezzo
GPT-5.4128K~€2,30~€9,20Contesto 8x più piccolo
Gemini 3.1 Pro1M~€1,15~€4,60Economico, ma retrieval debole
Gemini 3.1 Flash1M~€0,07~€0,28Ultra-economico, per task semplici

La cosa interessante? Gemini ha la finestra da 1M token da un po’, ma i benchmark mostrano che avere una finestra grande non basta — bisogna saperla usare. È un po’ come avere una Ferrari e non saper guidare: bella in garage, inutile in pista.

Il problema del “lost in the middle” (e come gestirlo)

Allora, devo essere onesto. Una finestra da 1 milione di token non significa che il modello usa effettivamente tutto quel milione di token con la stessa attenzione.

C’è un fenomeno ben documentato nella ricerca sull’IA: i modelli tendono a prestare più attenzione alle informazioni all’inizio e alla fine del contesto, mentre il “centro” viene processato con meno precisione. È il cosiddetto effetto “lost in the middle”.

In pratica, cosa significa? Che l’efficacia reale del contesto è stimata intorno al 50–65% del totale. Su 1 milione di token, stai effettivamente “usando” tra 500K e 650K token in modo affidabile.

Che è comunque un sacco. Ma vale la pena saperlo.

Come massimizzare l’uso del contesto

Ecco alcuni accorgimenti pratici che ho trovato utili:

  1. Metti le informazioni critiche all’inizio e alla fine — la “zona d’oro” dove il modello presta più attenzione
  2. Usa intestazioni e struttura chiara — aiutano il modello a navigare il documento
  3. Dai istruzioni esplicite — tipo “analizza specificamente la sezione 4.2 del contratto” invece di un generico “analizza questo documento”
  4. Fai domande specifiche — più la domanda è precisa, meglio il modello recupera l’informazione rilevante
  5. Verifica sempre i riferimenti — se il modello cita una clausola o un dato, vai a controllare nel documento originale

Per chi vuole approfondire le tecniche di context engineering, abbiamo una skill dedicata che spiega come strutturare al meglio i prompt per contesti lunghi.

Quando serve davvero 1M di contesto (e quando no)

Non tutto ha bisogno di un milione di token. Anzi, per la maggior parte dei task quotidiani, 128K bastano e avanzano.

Serve il contesto da 1M

  • Analisi legale: contratti complessi, due diligence, comparazione tra più documenti normativi
  • Code review: codebase grandi con dipendenze multiple — carichi tutto e chiedi una revisione architetturale
  • Ricerca accademica: confronto di decine di paper su un argomento, meta-analisi
  • Analisi finanziaria: bilanci pluriennali, report trimestrali, proiezioni — tutto in una singola sessione
  • Traduzione tecnica: manuali interi con glossari di riferimento caricati insieme

Non serve (e sprechi soldi)

  • Email, chat brevi, brainstorming quotidiano
  • Riassunti di singoli articoli
  • Task creativi senza materiale di riferimento
  • Domande semplici o conversazioni casuali

La regola pratica? Se il tuo materiale sta comodamente in 128K token (circa 90.000 parole), non hai bisogno di 1M. Risparmia i token e usa Sonnet 4.6 o un modello più leggero.

Come calcolare i token del tuo progetto

Prima di caricare un documento enorme su Claude, conviene sapere quanti token occupa. Non vuoi scoprire a metà conversazione che hai sforato il limite (fidati, è frustrante).

Puoi usare il nostro contatore di token gratuito per calcolare esattamente quanti token servono per qualsiasi testo. Funziona per Claude, ChatGPT, Gemini e tutti i principali modelli.

Qualche stima rapida per orientarti:

Tipo di documentoToken stimati
Email (500 parole)~700
Articolo blog (2.000 parole)~2.800
Tesi di laurea (50.000 parole)~70.000
Romanzo medio (80.000 parole)~110.000
Codebase media (50K righe)~250.000
Documentazione progetto completa300.000–800.000

Opus 4.6 vs Sonnet 4.6: quale scegliere?

Entrambi hanno la finestra da 1M, ma ci sono differenze importanti.

Opus 4.6 è il modello di punta: ragionamento più profondo, migliore retrieval su contesti lunghi (76–78% MRCR), ideale per task complessi dove la precisione conta. Costa di più, ma per analisi legali, code review architetturali o ricerca accademica, vale ogni centesimo.

Sonnet 4.6 è il campione del rapporto qualità/prezzo: costa circa 5 volte meno di Opus, è significativamente più veloce, e per la maggior parte dei task produce risultati eccellenti. Se non hai bisogno della massima precisione su contesti lunghissimi, Sonnet è probabilmente la scelta giusta.

La mia regola personale: inizio sempre con Sonnet. Se il risultato non mi convince, passo a Opus. Così ottimizzi i costi senza sacrificare la qualità quando serve.

Cosa cambia rispetto alla concorrenza

Il confronto con gli altri modelli è piuttosto netto in questo momento.

GPT-5.4 ha ancora un contesto da 128K token — 8 volte meno di Claude. Per task che richiedono l’analisi di documenti lunghi, non c’è partita. OpenAI sta lavorando su contesti più grandi, ma per adesso è un limite significativo.

Gemini 3.1 Pro ha la finestra da 1M, ed è pure più economico. Ma i benchmark MRCR raccontano un’altra storia: 26% contro il 76–78% di Opus. Avere spazio per 1M di token non serve a molto se il modello non riesce a usarli bene.

Per un confronto dettagliato tra tutti i modelli, abbiamo una guida aggiornata che copre anche altri aspetti come creatività, coding e ragionamento.

La mia esperienza: test su documenti reali

Ho fatto qualche test che mi sembra utile condividere.

Test 1: Contratto di locazione commerciale (42 pagine) Caricato intero, ho chiesto di trovare tutte le clausole relative alla risoluzione anticipata e confrontarle con la normativa italiana. Claude ha individuato 7 clausole rilevanti su 7, inclusa una in un allegato a pagina 38 che avrei probabilmente saltato facendo una lettura veloce.

Test 2: Codebase Python (~15.000 righe) Ho caricato un intero progetto Django e chiesto una revisione architetturale. Il modello ha identificato dipendenze circolari, suggerito refactoring specifici, e mantenuto coerenza nei riferimenti tra file diversi. Insomma, ha funzionato alla grande.

Test 3: 5 bilanci trimestrali consecutivi Caricati tutti insieme per un’analisi trend. Claude ha correttamente identificato variazioni anomale tra Q2 e Q3 2025 che avrebbero richiesto un bel po’ di lavoro manuale per emergere.

Non tutto è perfetto — su contesti oltre i 700K token ho notato qualche calo di precisione nei riferimenti al “centro” dei documenti. Ma nel complesso? Un salto generazionale rispetto a sei mesi fa.

Consigli pratici per iniziare

Se vuoi sfruttare al massimo la finestra da 1M di token, ecco come partire:

  1. Struttura i tuoi documenti prima di caricarli — indici, intestazioni chiare, numerazione delle sezioni
  2. Inizia con una domanda specifica — “analizza il rischio di credito nel bilancio Q3” funziona meglio di “analizza questi bilanci”
  3. Usa il system prompt per dare contesto al modello sul tipo di analisi che ti aspetti
  4. Carica materiale di riferimento insieme ai documenti da analizzare — glossari, normative, linee guida
  5. Verifica sempre — l’IA è un assistente potentissimo, ma la responsabilità finale resta tua

Per chi vuole padroneggiare le tecniche di prompt engineering con contesti lunghi, il nostro contatore di token è un buon punto di partenza per capire quanto spazio hai a disposizione. E se vuoi approfondire come Claude si confronta con gli altri modelli, abbiamo una guida dedicata.

In sintesi

La finestra da 1 milione di token non è solo un numero più grande. È un cambio di paradigma nel modo di lavorare con l’IA.

Per la prima volta, puoi caricare un progetto intero — documenti legali, codebase, ricerca accademica — e lavorarci come se avessi un collega che ha letto tutto, dall’inizio alla fine. Non perfettamente, non senza limiti, ma con una capacità di comprensione che fino a poco fa non esisteva.

Opus 4.6 con il suo 76–78% MRCR a 1M token è, in questo momento, il modello che meglio gestisce contesti lunghi. E la parte bella? Nessun sovrapprezzo. Un milione di token è la finestra standard.

Se lavori regolarmente con documenti lunghi o codebase grandi… beh, è un buon momento per provare.