Home GES-SEO-AI Dalla posizione alla rilevanza: come ottimizzare per i motori di risposta (AI...

Dalla posizione alla rilevanza: come ottimizzare per i motori di risposta (AI Overview e ChatGPT)

1 Luglio 2026

ecommerceguru-dalla-seo-alla-geo-dalla-posizione-alla-rilevanza

Per vent’anni la visibilità è stata una posizione: una riga in una classifica, una keyword, una SERP. Oggi è qualcosa di più sfuggente e più prezioso — una rilevanza che si conquista, si costruisce e, punto quasi sempre dimenticato, si misura. Questa è la ricostruzione completa di quel passaggio: dal sintomo che appare in Search Console fino al modo in cui un’intelligenza artificiale recupera, seleziona, sintetizza e cita le fonti, con il rigore di chi misura invece di intuire. Un percorso in sei movimenti, dal dolore osservabile al governo del fenomeno, con le evidenze scientifiche che lo sostengono.

C’è una frase, nata dal Manifesto della rilevanza elaborato a Milano nel maggio 2026, che riassume il momento storico meglio di qualsiasi statistica: la rilevanza non si compra, si progetta, si costruisce, si misura. È il principio attorno a cui ruota tutto questo articolo, perché descrive con precisione ciò che sta accadendo alla ricerca. I motori non si limitano più a classificare pagine: leggono, selezionano, sintetizzano e riformulano. In questo scenario, come afferma lo stesso Manifesto, se un brand non è fonte diventa irrilevante.

Il passaggio dalla SEO alla GEO — la Generative Engine Optimization — è esattamente questo: lo spostamento dell’obiettivo dall’occupare una posizione all’essere la fonte che un sistema sceglie di incorporare nella propria risposta. È un tema che, con Andrea De Siano, ho approfondito nel libro «Oltre l’algoritmo. Governare la visibilità» e in questa intervista su EcommerceGuru. Qui lo ricostruisco per intero e in profondità, senza scorciatoie e con le fonti accademiche alla mano: il sintomo, la diagnosi, il meccanismo, la selezione, la misura, il governo. Sei movimenti che raccontano la stessa storia da angolazioni diverse e che, insieme, compongono una bussola.

Il sintomo: più visibilità, meno clic

Il punto di partenza non è una teoria, è un grafico che oggi appare in migliaia di account Search Console e che, a prima vista, sembra una contraddizione logica.

Il paradosso di Search Console: cosa misurano davvero impression, clic e CTR

La scena è questa: la linea delle impression sale, la linea dei clic scende, il CTR — il rapporto tra le due — precipita. L’istinto suggerisce due spiegazioni rassicuranti: «ho subito una penalizzazione» oppure «il tracciamento si è rotto». Quasi sempre sbaglia entrambe.

Per leggere il fenomeno bisogna ricordare con precisione cosa misurano queste grandezze, perché è proprio il loro significato tecnico a sciogliere il paradosso. Una impression viene conteggiata quando un risultato che ti riguarda compare nella pagina dei risultati per una determinata query, a prescindere dal fatto che l’utente scorra fino a vederlo. Il clic è l’azione di visita verso il tuo sito. La posizione media è la media delle posizioni in cui sei comparso, pesata sulle impression. Il CTR è semplicemente i clic diviso le impression.

Il punto cruciale è che queste grandezze possono muoversi in direzioni opposte senza alcuna contraddizione. Immagina una pagina di categoria di un e-commerce che, in un trimestre, vede le impression crescere del 30% perché inizia a comparire in nuovi formati della SERP, mentre i clic calano del 15% perché una parte di quegli utenti trova ciò che cercava già nella pagina dei risultati. Il risultato aritmetico è inevitabile: più impression, meno clic, CTR in caduta. Non è un’anomalia da correggere: è il riflesso di una pagina dei risultati che è cambiata sotto i nostri piedi. Il numero che descrive la tua visibilità non è «rotto»: sta misurando un mondo diverso da quello per cui era stato pensato.

La SERP è diventata una superficie di risposta

La causa di fondo è strutturale. Lo spazio sopra i dieci link organici — quella che per anni abbiamo chiamato «above the fold» — si è progressivamente riempito. Featured snippet, pannelli informativi, caroselli, sezioni «le persone chiedono anche», box di acquisto: ogni elemento intercetta una porzione dell’intento prima che l’utente raggiunga i risultati tradizionali. La pagina dei risultati ha smesso di essere un indice di link ed è diventata, sempre più spesso, una superficie di risposta.

Il fattore più recente e più impattante sono gli AI Overview: riassunti generati dall’intelligenza artificiale che compaiono in cima ai risultati, sintetizzano più fonti e rispondono direttamente alla domanda. La loro diffusione è cresciuta con una rapidità che ha pochi precedenti — i dati di settore li indicano presenti in oltre la metà delle ricerche in alcuni periodi del 2025, contro una frazione molto più piccola pochi mesi prima — e diverse rilevazioni stimano cali di CTR organico marcati, in certi casi superiori alla metà, quando un riassunto risponde in modo esauriente. È la dinamica che gli analisti chiamano zero-click: la ricerca si conclude nella pagina dei risultati, senza visita ad alcun sito.

Lo zero-click non è una perdita secca: l’economia del traffico qualificato

Qui si nasconde un risvolto che i grafici in calo non mostrano, ed è forse la parte più importante da capire. Quando un utente clicca dopo aver letto un riassunto generativo, arriva al sito con un livello di consapevolezza più alto: l’AI ha in qualche modo già filtrato e «validato» la fonte, e chi prosegue lo fa per approfondire o per agire, non per orientarsi. È un meccanismo di pre-qualificazione. Diverse rilevazioni di settore osservano che il traffico proveniente dalle interfacce AI converte sensibilmente meglio del traffico organico tradizionale, in alcuni casi diverse volte tanto, pur arrivando in volumi minori.

La conseguenza pratica è duplice. Sul piano dell’interpretazione, leggere la performance solo in termini di sessioni è fuorviante: un calo di volume può accompagnarsi a un aumento di valore, e i due segnali vanno letti insieme. Sul piano della misurazione, il vecchio cruscotto — sessioni organiche, posizione media, CTR — non basta più: occorre affiancargli metriche di qualità (conversioni, valore assistito, presenza nelle risposte) che la fase precedente poteva permettersi di trascurare. La citazione comincia a funzionare come una garanzia di fiducia, e la fiducia è esattamente ciò che il Manifesto della rilevanza pone al centro del nuovo paradigma. Il valore non è più solo «quanti clic», ma «in quali risposte sei presente e con quale ruolo».

La diagnosi: prima di reagire, capire

Riconosciuto il sintomo, l’errore più costoso è agire d’impulso. Un calo provocato da un aggiornamento dell’algoritmo, uno provocato dalla stagionalità della domanda e uno provocato dagli AI Overview hanno tutti, in un grafico, lo stesso identico aspetto: una linea che scende. Ma hanno origini diverse e richiedono contromisure incompatibili tra loro. Intervenire sulla causa sbagliata non solo non risolve, ma spesso peggiora. La diagnosi viene rigorosamente prima della cura.

Core update: firma temporale e posizionale

Un aggiornamento sostanziale dell’algoritmo (core update) ridistribuisce la visibilità su larga scala, ricalibrando il modo in cui Google valuta qualità e pertinenza. La sua firma è doppia: temporale, perché il calo inizia in corrispondenza del rilascio; e posizionale, perché si manifesta come perdita di posizione media su un insieme di query. In Search Console si osserva una posizione media che peggiora, con impression e clic che calano di conseguenza. Se a un’analisi per pagina e per query la perdita si concentra su cluster tematici specifici e parte da una data di rilascio nota, il primo sospetto è questo.

Stagionalità: firma ciclica

La domanda non è costante nel tempo. Molte categorie hanno cicli — settimanali, mensili, stagionali, legati a festività o eventi — che fanno oscillare il volume di ricerca a prescindere dalle performance del sito. La firma della stagionalità è la ripetitività: il calo assomiglia a quello dello stesso periodo dell’anno precedente, riguarda soprattutto il volume di domanda (le impression) più che la posizione, e segue un andamento prevedibile. Lo strumento che la smaschera non è il confronto mese su mese, ma il confronto anno su anno: se la curva di quest’anno ricalca quella dell’anno scorso nello stesso intervallo, la spiegazione più probabile non è algoritmica.

AI Overview: firma di CTR

La firma dell’effetto generativo è la più sottile: le impression tengono o salgono, ma i clic e il CTR scendono perché una quota di utenti trova la risposta nel riassunto in pagina. A differenza del core update, qui la posizione non necessariamente peggiora — continui a comparire, anzi a volte compari di più — ma il clic non parte. È il segnale che separa un problema di ranking (posizione persa) da un problema di zero-click (posizione mantenuta, clic perso). La conferma si ottiene verificando, sulle query interessate, la presenza effettiva di un AI Overview.

Il metodo operativo: Search Console, GA4, log, calendario

Riconosciute le firme, servono gli strumenti per rilevarle, incrociando tre fonti. In Search Console la domanda guida è sempre la stessa: cosa è cambiato tra le tre metriche, e dove? Si confrontano due periodi (per esempio le quattro settimane prima e dopo una data sospetta) e si segmenta per query e per pagina. Se a calare è la posizione media, l’indizio punta a un update o a una pressione competitiva; se la posizione tiene ma crolla il CTR, l’indizio punta agli AI Overview; se a muoversi sono le impression in modo ciclico, l’indizio è la stagionalità.

In GA4 si aggiunge la dimensione del traffico reale, con due accortezze tecniche decisive. La prima: isolare il referral dagli assistenti AI creando un canale o un segmento dedicato che raggruppi i domini di ChatGPT, Perplexity, Gemini, Claude e simili, perché di default questo traffico finisce confuso nel «diretto» o nel «referral» generico. Vederlo crescere mentre cala l’organico classico conferma che parte della domanda si sta spostando, non scomparendo. La seconda: il canale AI nativo di GA4, dove disponibile, riconosce solo un sottoinsieme di assistenti e non ricostruisce lo storico, contando in avanti dal giorno dell’attivazione; va integrato con segmenti personalizzati. E i crawler generativi non compaiono affatto in GA4, che misura browser reali.

Quei crawler si trovano nei log del server, terzo livello della diagnosi. I log registrano il passaggio degli user agent dei motori generativi — GPTBot e OAI-SearchBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, Google-Extended — e permettono di misurare quali pagine vengono ingerite e con quale frequenza. Confondere l’attività dei bot con quella degli utenti è uno degli errori più comuni di questa fase, e i log sono il modo per non commetterlo. Il quarto elemento è cronologico: sovrapporre la curva del traffico al calendario degli aggiornamenti noti consente di verificare gli allineamenti temporali. La correlazione non è una prova, ma è il primo filtro per ordinare le ipotesi.

Un albero decisionale (e perché le cause coesistono)

Mettendo insieme i segnali, la logica diventa gestibile. Si parte dalla posizione media: se è peggiorata a ridosso di un update, l’ipotesi prevalente è il core update e la verifica è l’allineamento temporale e di cluster. Se la posizione tiene ma il CTR cala, l’ipotesi prevalente è l’effetto AI Overview e la verifica è la presenza di riassunti generativi sulle query. Se a muoversi è il volume di impression in modo ciclico e replicato anno su anno, l’ipotesi è la stagionalità. Nella pratica le cause quasi mai si presentano pure: spesso un update riduce la posizione mentre, sulle stesse query, un AI Overview erode il CTR residuo, magari in un periodo di domanda calante. L’obiettivo non è trovare a ogni costo un unico colpevole, ma stimare il peso relativo di ciascun fattore, perché è quel peso a determinare la priorità e la natura degli interventi.

Il meccanismo: dal ranking alla citazione

Capito che il fenomeno è strutturale e diagnosticabile, serve un vocabolario nuovo e, soprattutto, una comprensione di cosa accade dentro la macchina. È qui che la SEO incontra la GEO, e dove conviene smettere di parlare per metafore e guardare al reale meccanismo.

La GEO non è «SEO con un altro nome»: cosa cambia esattamente

La Generative Engine Optimization non è il rebranding della SEO, ma neppure la sua negazione: è la sua estensione a un ambiente in cui l’interfaccia di risposta è cambiata. Nella ricerca tradizionale la visibilità è lineare e discreta: una lista ordinata di dieci risultati, in cui la tua pagina occupa una posizione precisa e l’utente sceglie. Nei motori generativi la visibilità è continua e multidimensionale: una fonte può essere citata con maggiore o minore lunghezza, in posizioni diverse all’interno della risposta, con un peso variabile sul testo finale, e può essere usata senza essere citata. Cambia, di conseguenza, l’unità di misura: non più la posizione, ma la presenza nella risposta. Ho dedicato a questo snodo un approfondimento specifico, dal ranking alla risposta nei motori generativi, a cui rimando per il dettaglio.

Dentro un motore generativo: l’architettura retrieval-augmented generation

Per ottimizzare un sistema bisogna sapere come lavora. La maggior parte dei motori di risposta adotta un’architettura nota in letteratura come retrieval-augmented generation (RAG), formalizzata da Lewis e colleghi nel 2020: invece di fare affidamento solo sulla conoscenza «congelata» nei parametri del modello, il sistema recupera documenti pertinenti da una fonte esterna e genera la risposta condizionandosi su di essi. È un’architettura nata per ridurre le allucinazioni e ancorare le risposte a fonti verificabili, ed è la ragione per cui i contenuti del web possono comparire — o non comparire — in una risposta generativa. Semplificando, il processo attraversa tre fasi.

La prima fase è il recupero (retrieval). Il sistema non «conosce» la risposta: la cerca. A partire dalla domanda, recupera un insieme di documenti potenzialmente pertinenti da un indice. Questo recupero avviene tipicamente in uno spazio semantico: i contenuti vengono rappresentati come vettori numerici (gli embedding) che ne catturano il significato, e il sistema seleziona i documenti la cui rappresentazione è più «vicina» a quella della domanda, misurando questa vicinanza con la similarità del coseno tra i vettori. Non si tratta più, o non solo, di corrispondenza tra parole chiave (il recupero lessicale, di tipo BM25): due testi che esprimono lo stesso concetto con parole diverse risultano vicini nello spazio vettoriale. È una differenza profonda rispetto alla logica delle keyword, e ha conseguenze dirette su cosa rende un contenuto recuperabile: conta il significato, non la corrispondenza letterale dei termini.

La seconda fase è la sintesi (generazione). Recuperati i documenti, il modello genera una risposta condizionata su quel contesto: non inventa da zero, ma riformula e combina ciò che ha trovato. Qui avviene la selezione fine: tra i documenti recuperati, alcuni passaggi entrano nella risposta e altri no, in funzione di quanto ciascuno contribuisce a rispondere bene. È la fase in cui un contenuto ridondante, che ripete ciò che gli altri già dicono, diventa superfluo e viene scartato.

La terza fase è l’attribuzione (citazione). Il sistema collega — quando lo fa — parti della risposta alle fonti da cui provengono, presentandole come citazioni. È un passaggio fragile, come vedremo, perché il legame tra ciò che è scritto nella risposta e ciò che la fonte effettivamente afferma non è sempre fedele. La conseguenza pratica dell’intero processo è netta: non basta essere recuperabili (fase uno); bisogna essere sintetizzabili (fase due) e citabili correttamente (fase tre). Sono tre requisiti distinti, e una strategia GEO seria li affronta separatamente.

Perché la posizione nel testo conta: l’effetto «lost in the middle»

C’è un dettaglio del funzionamento dei modelli che giustifica, su base sperimentale, molte raccomandazioni di scrittura. Liu e colleghi, in uno studio diventato celebre («Lost in the Middle», 2024), hanno mostrato che i modelli linguistici non usano in modo uniforme l’informazione presente nel loro contesto: le prestazioni sono più alte quando l’informazione rilevante si trova all’inizio o alla fine del contesto e calano sensibilmente quando si trova nel mezzo, disegnando una caratteristica curva a «U». In altre parole, i modelli soffrono di un bias di primacy e recency, persino quelli progettati per contesti lunghi. La conseguenza per chi scrive è concreta e misurabile: collocare la risposta e i dati salienti nelle prime righe di un passaggio non è una buona pratica generica, ma un accorgimento allineato al modo in cui i modelli effettivamente leggono. È anche la ragione per cui una delle metriche della GEO, come vedremo, pesa la posizione della citazione e non solo la sua presenza.

Query fan-out: la domanda si moltiplica

Un meccanismo, più di ogni altro, manda in pensione la logica della singola keyword: il query fan-out. Di fronte a una domanda, il motore non esegue una sola ricerca, ma la scompone in più sotto-query — esplicite o sintetiche — e raccoglie fonti per ciascuna, prima di ricomporre il tutto in un’unica risposta. Una domanda apparentemente semplice può così generare una costellazione di interrogazioni collaterali.

La conseguenza è strategica e va compresa fino in fondo: la visibilità non si gioca più sul posizionamento per una keyword, ma sulla copertura di un tema su molti angoli. Un contenuto isolato, per quanto ottimizzato, intercetta una sola delle sotto-query; un sistema di contenuti che copre un tema in modo esaustivo intercetta molte ramificazioni del fan-out. È la ragione per cui un articolo singolo rende meno di un insieme di articoli collegati, e per cui l’autorità topica — la riconoscibilità di un sito come fonte completa su un dominio — sta diventando il vero fattore competitivo. Lo confermano i dati di settore sul calo della sovrapposizione tra le citazioni dei motori generativi e i primi dieci risultati organici: il vecchio «top 10» spiega una porzione sempre minore di ciò che viene citato.

Estrazione per passaggi: come l’AI legge (e spezza) la tua pagina

Un secondo meccanismo, tecnico ma decisivo, riguarda il modo in cui il contenuto viene letto. I sistemi generativi non valutano la pagina come un blocco monolitico: la suddividono in unità più piccole (i chunk) ed estraggono i singoli passaggi che possono funzionare in autonomia. Significa che la pagina non è più l’unità di visibilità: lo è il passaggio.

Un paragrafo che risponde in modo completo e auto-contenuto a una domanda — una vera «isola informativa», comprensibile anche letta fuori dal suo contesto — può prevalere su un articolo di duemila parole in cui la stessa risposta è diluita, dispersa, dipendente da ciò che la precede. Da qui una regola di scrittura concreta e contro-intuitiva per chi viene dalla SEO classica: ogni sezione va progettata per reggersi da sola, con la risposta esplicita nelle prime righe, i termini disambiguati, le premesse necessarie incorporate. Non è impoverimento, è ingegneria dell’estraibilità. È il punto in cui la struttura del contenuto smette di essere una questione estetica e diventa un fattore di selezione.

La selezione: come un’AI sceglie (e sbaglia) le fonti

Resta la domanda più operativa di tutte, quella che separa la divulgazione dalla competenza reale: perché un sistema sceglie una fonte e ne scarta un’altra? Qui la ricerca accademica offre risposte che il marketing cita raramente, e che vale la pena sviluppare con precisione.

Il retrieval non è neutro: bias di selezione

I motori generativi non si limitano a ordinare, come farebbe un motore tradizionale: selezionano e sopprimono. E la selezione non è neutra. Diversi studi sui sistemi di recupero densi mostrano una tendenza sistematica a favorire documenti corti e superficiali rispetto a trattazioni più lunghe e articolate, e a privilegiare certe forme testuali a prescindere dalla loro qualità sostanziale. Peggio: questi bias tendono ad amplificarsi durante la fase di sintesi, perché il modello costruisce la risposta a partire da un insieme già distorto in partenza. Alcuni lavori recenti hanno proposto metriche apposite — come la Coverage Parity o l’Equal Coverage — proprio per misurare quanto l’esposizione delle diverse fonti sia equa o sbilanciata.

Per un e-commerce la conseguenza è concreta e a volte ingiusta: interi cataloghi o intere categorie possono diventare invisibili non perché siano di scarsa qualità, ma per ragioni strutturali legate alla forma del contenuto e al modo in cui viene recuperato. È un motivo in più per progettare contenuti pensati per essere estratti, non solo letti — e per misurare la propria esposizione, invece di darla per scontata.

Credibilità agli occhi di un modello

C’è poi la questione, più sottile, di come un modello stabilisca cosa sia «autorevole». Uno studio illuminante di Yang e Menczer (2023) ha chiesto a diversi modelli linguistici di valutare la credibilità di un’ampia lista di fonti d’informazione, confrontando i loro giudizi sia tra loro sia con quelli di esperti umani. Il risultato è istruttivo su due fronti. Da un lato, i modelli concordano molto tra loro — con correlazioni elevate, attorno a 0,8 — segno che applicano criteri sorprendentemente coerenti. Dall’altro, concordano solo moderatamente con gli esperti umani, con correlazioni intorno a 0,5, e mostrano bias sistematici rilevabili. In altre parole, gli LLM hanno una propria, autonoma idea di cosa sia autorevole, che non coincide pienamente con quella degli esperti.

La lezione pratica è duplice. Primo: l’autorità «percepita» da un modello è un costrutto a sé, che dipende da segnali — coerenza dell’identità, presenza come entità riconosciuta, citazioni da fonti che il modello considera affidabili — su cui si può lavorare. Secondo: l’E-E-A-T (esperienza, competenza, autorevolezza, affidabilità) non è un orpello, ma il linguaggio con cui un brand comunica la propria credibilità a un sistema che la valuta con criteri propri.

Il rischio di essere citati male: verificabilità e attribuzione

Ed eccoci al rischio più sottovalutato, che è il rovescio esatto della visibilità: essere citati, sì, ma male. Lo studio di Liu, Zhang e Liang sulla verificabilità dei motori generativi resta il riferimento. Gli autori hanno valutato in modo sistematico le risposte di alcuni tra i principali motori generativi, misurando con precisione e richiamo quanto le affermazioni prodotte fossero effettivamente supportate dalle fonti citate. Il dato diventato emblematico: solo circa il 51,5% dei contenuti generati risultava interamente supportato dalle citazioni associate, e una quota significativa delle citazioni non sosteneva davvero l’affermazione a cui era agganciata. In un sistema pensato proprio per «ancorare» le risposte alle fonti, è un risultato che impone cautela.

Tradotto nella pratica di un brand, significa che si può essere indicati come fonte di un’affermazione mai fatta, o che contraddice ciò che si sostiene. Non è un problema di traffico: è un problema di reputazione, e per molte aziende — si pensi al settore medico, finanziario o legale — può diventare un problema di responsabilità. È precisamente per questo che il monitoraggio della GEO non può limitarsi a contare se si è citati, ma deve verificare come si è rappresentati. E non è un caso che il Manifesto della rilevanza affermi, con una formula che qui acquista un significato tecnico oltre che etico, che la rilevanza non è una metrica ma una responsabilità.

Information Gain: la rilevanza come informazione nuova

A questo punto le due nozioni che attraversano l’intero articolo — rilevanza e selezione — si saldano in una sola grandezza misurabile: l’Information Gain. Il concetto entra nel dibattito attraverso un brevetto di Google, «Contextual Estimation of Link Information Gain», depositato nel 2018 e concesso nel 2024, che descrive un meccanismo tanto semplice nella formulazione quanto profondo nelle conseguenze: assegnare a un documento un punteggio che riflette quanta informazione nuova esso contiene rispetto ai documenti che l’utente ha già visto. A fronte di una richiesta, il sistema considera un primo insieme di documenti già consultati e riordina i successivi non solo per pertinenza, ma per il contributo informativo aggiuntivo: ciò che ripete viene retrocesso, ciò che aggiunge viene promosso.

Un brevetto descrive una capacità tecnica, non la conferma di un fattore di ranking attivo: la cautela è d’obbligo. Ma la direzione è coerente con le linee guida pubbliche di Google sui contenuti utili, che da anni premiano ricerca, analisi e informazione originale rispetto alla riformulazione di fonti esistenti. E nella ricerca generativa il principio diventa strutturale, non opzionale: poiché la sintesi scarta la ridondanza, un contenuto che non aggiunge nulla rispetto al coro non riduce l’incertezza, non amplia la risposta e dunque non merita una citazione. L’Information Gain, da euristica editoriale, si trasforma in un criterio di selezione.

L’avvertimento di Nature: model collapse e l’entropia del web

C’è una ragione di sistema, e di lungo periodo, per prendere tutto questo sul serio. Nel 2024 Nature ha pubblicato lo studio di Shumailov e colleghi, che dimostra un fenomeno tanto elegante quanto inquietante: addestrare in modo indiscriminato i modelli generativi su dati a loro volta generati da modelli porta a un collasso progressivo (model collapse). Le code della distribuzione originale — cioè la varietà, le eccezioni, l’informazione rara — sono le prime a svanire, lasciando difetti irreversibili nei modelli che ne risultano. In pratica, un modello addestrato ripetutamente sui propri stessi output dimentica gradualmente ciò che è raro e converge verso una media sempre più povera.

La connessione con il nostro tema è diretta e potente. Se il web si riempie di contenuti generati in massa, formalmente corretti e sostanzialmente vuoti, l’ecosistema informativo — e i modelli che su quell’ecosistema si addestrano — perde proprio ciò che lo rende vitale: il segnale raro, l’informazione originale, la coda della distribuzione. La produzione a basso Information Gain non è soltanto inefficace per chi la pubblica: contribuisce all’entropia di un sistema da cui tutti, motori e brand, dipendono. Vista da questa angolazione, produrre informazione genuinamente nuova smette di essere una tattica SEO e diventa una forma di responsabilità verso l’ambiente in cui si compete. È, di nuovo, il principio del Manifesto secondo cui vince chi produce segnali chiari, coerenti e impossibili da fraintendere.

La misura: misurare l’invisibile

Se la rilevanza «si misura», allora va misurata sul serio. Ed è qui che la GEO incontra il suo problema più difficile e più trascurato, perché la visibilità generativa non è una coordinata stabile ma una variabile aleatoria.

Perché il citation rate è una metrica ingannevole

L’errore più diffuso non è nello strumento, è nel modello mentale. Gli output dei modelli linguistici sono non deterministici: lo stesso prompt può generare risposte diverse a interrogazioni successive, perché la generazione include una componente di campionamento casuale (governata da parametri come la temperatura). Significa che una singola verifica — «ho chiesto a ChatGPT e il brand non c’era» — non è una misura, ma una singola estrazione da una distribuzione che non conosciamo.

Dichiarare «appari nel 40% delle risposte» sulla base di un solo ciclo di test equivale a stimare se una moneta è truccata lanciandola una volta sola: il numero esiste, sembra rigoroso, ma non ha alcun intervallo di affidabilità. Peggio, induce decisioni sbagliate. Si riscrive una scheda prodotto, si ripete il test una volta, si osserva un valore più alto e si conclude che l’intervento ha funzionato — quando la differenza poteva essere interamente attribuibile alla varianza intrinseca del sistema. Il primo passo, prima di scegliere qualsiasi tool, è accettare che stiamo misurando un processo stocastico e adeguare il metodo di conseguenza.

Le metriche peer-reviewed della GEO

La buona notizia è che il lavoro di formalizzazione esiste già, e non l’ha fatto un fornitore di software. Il paper che ha coniato il termine — «GEO: Generative Engine Optimization» di Aggarwal e colleghi, frutto della collaborazione tra Princeton, Georgia Tech, Allen AI e IIT Delhi, presentato a KDD 2024 — è anche la fonte delle metriche più solide a disposizione.

Vale la pena capire come hanno lavorato, perché il metodo è esemplare. Gli autori hanno costruito GEO-bench, un benchmark di circa 10.000 query reali distribuite su domini e intenti diversi (informativi, navigazionali, transazionali). Per ogni query hanno simulato il comportamento di un motore generativo: hanno preso le pagine meglio posizionate, ne hanno fornito il contenuto a un modello chiedendogli di rispondere citando le fonti, e hanno valutato il risultato con una procedura di scoring basata su un modello giudice (la cosiddetta valutazione «LLM-as-a-judge», sul tipo di G-Eval). La valutazione si fonda su due metriche pensate apposta. La prima, il Position-Adjusted Word Count, combina quante parole della risposta sono attribuite a una fonte e in quale posizione del testo compare la citazione — e qui si chiude il cerchio con l’effetto «lost in the middle»: una menzione nell’incipit non vale quanto una in coda. La seconda, la Subjective Impression, aggrega più fattori qualitativi (rilevanza, influenza, unicità, diversità, capacità di indurre domande di approfondimento) per stimare la qualità complessiva della presenza, non solo la sua quantità.

I risultati sono precisi e, in alcuni punti, sorprendenti. Tra i nove metodi di ottimizzazione testati, tre emergono in modo netto: Cite Sources (inserire citazioni di fonti autorevoli nel testo), Quotation Addition (includere virgolettati di esperti) e Statistics Addition (incorporare dati quantitativi puntuali). I migliori producono incrementi dell’ordine del 40% sulla visibilità — più precisamente, le punte arrivano a circa +41% sul Position-Adjusted Word Count e +28% sulla Subjective Impression. Specularmente, una tecnica cardine della SEO classica come il keyword stuffing si rivela inefficace nei contesti generativi: il vecchio gioco non si trasferisce al nuovo campo.

Due dettagli ribaltano alcune intuizioni. Primo: l’efficacia delle tecniche è dipendente dal dominio — per esempio, ambiti come «Diritto e istituzioni» e domande di tipo «opinione» traggono un beneficio particolare dall’aggiunta di statistiche — il che significa che non esiste una ricetta universale, ma scelte da calibrare sul proprio settore. Secondo, e ancora più interessante: la GEO aiuta soprattutto i siti meno posizionati. Nello studio, il metodo Cite Sources ha prodotto un incremento di visibilità superiore al 115% per i siti collocati intorno al quinto posto nei risultati di ricerca, mentre la visibilità del sito già in vetta è in media diminuita. Poiché i modelli rispondono condizionandosi sul contenuto, fattori come la forza dei backlink pesano meno: è una dinamica potenzialmente democratizzante, che apre spazi a chi nella SERP classica era svantaggiato.

La tensione GEO/GEU: quando ottimizzare peggiora la risposta

Su questo terreno si colloca un’idea controintuitiva e poco discussa. Un filone di ricerca successivo distingue la GEO dalla Generative Engine Utility (GEU): la prima misura quanto sei visibile, la seconda quanto la risposta resta utile per chi l’ha richiesta. Le due grandezze non sempre crescono insieme. Si può ottimizzare in modo così aggressivo da aumentare la propria presenza e, contemporaneamente, degradare la qualità complessiva della risposta che il motore offre all’utente. È un confine importante: oltre una certa soglia, spremere visibilità significa peggiorare il servizio informativo, e una strategia che lo ignora è destinata a essere, prima o poi, corretta dai sistemi stessi. La sostenibilità della GEO si gioca esattamente su questo equilibrio.

Un modello di misurazione a tre livelli

Se la visibilità è un fenomeno stocastico e multi-fonte, un singolo dato non può descriverla: serve una pila di misurazione a tre livelli, ognuno dei quali risponde a una domanda diversa.

Il primo livello sono i log dei crawler. Prima di poter essere citati, bisogna essere letti: i log registrano quali pagine i motori generativi ingeriscono e con quale frequenza, attraverso i loro user agent. È un indicatore anticipatore — dice che il contenuto è candidabile, non che venga scelto — e va misurato come tale: copertura (quante delle tue pagine vengono visitate), frequenza e profondità.

Il secondo livello sono le citazioni e le menzioni nelle risposte. Poiché le conversazioni degli utenti sono private, l’unico modo per osservarle è interrogare i motori in modo sistematico, con un insieme di prompt costruito ad arte. Qui va tenuta ferma una distinzione spesso confusa: la citazione è un riferimento con link e può generare traffico; la menzione è un riferimento testuale senza link e riflette quanto il modello associa il brand a un tema. Misurano cose diverse e vanno tracciate separatamente, motore per motore — perché, come mostrano i dati di settore, la sovrapposizione tra le fonti citate da ChatGPT, Perplexity e le funzioni AI di Google è bassissima, e aggregarle in un unico punteggio è fuorviante.

Il terzo livello sono i referral: le sessioni reali generate dal clic su una citazione, isolate in GA4 come visto. Dall’incrocio del primo e del terzo livello nasce una metrica emergente ma molto istruttiva, il crawl-to-refer ratio: il rapporto tra quanto un motore consuma i tuoi contenuti e quanto traffico ti restituisce. Uno squilibrio marcato — molta ingestione, pochissimo ritorno — è il segnale di un’asimmetria di valore da monitorare nel tempo come benchmark interno.

Trattare la visibilità come una stima statistica

È il cuore del metodo, e ciò che separa una misurazione da un’impressione. La presenza in una risposta generativa non va riportata come un valore puntuale, ma come una stima con il suo margine di errore.

In pratica, il secondo livello va eseguito così. Si definisce un universo di prompt rappresentativo — le domande che i clienti pongono davvero, derivate dagli intenti reali: categorie, confronti, domande pre-vendita, casi d’uso. Si interroga ciascun motore ripetendo ogni prompt più volte, perché una sola interrogazione, in un sistema non deterministico, non è informativa. Si calcola quindi la share of voice del brand come media campionaria, corredata da un intervallo di confidenza: un modo formale di dire «il valore vero sta, con probabilità nota (per esempio il 95%), all’interno di questo intervallo». L’ampiezza dell’intervallo dipende da due cose: la dispersione dei risultati e il numero di ripetizioni. In termini statistici, l’errore standard di una proporzione si riduce in proporzione alla radice quadrata del numero di osservazioni: per dimezzare l’incertezza servono circa quattro volte più ripetizioni. È la stessa logica che governa qualsiasi sondaggio, applicata alla visibilità generativa.

La parte più trascurata di tutte è la varianza, cioè la dispersione dei risultati attorno alla media. Un brand che compare nel 50% delle risposte con bassa varianza ha una presenza stabile; un brand che oscilla violentemente attorno alla stessa media ha una presenza fragile, esposta a ogni micro-variazione del modello. Sono due situazioni strategicamente opposte che la metrica puntuale appiattisce nello stesso, ingannevole numero. Misurare la varianza significa misurare la solidità della propria visibilità. E per stabilire se un intervento ha funzionato davvero, non basta osservare due numeri diversi prima e dopo: occorre verificare che le due distribuzioni — non i due valori singoli — siano statisticamente distinguibili, cioè che i rispettivi intervalli di confidenza non si sovrappongano in modo sostanziale.

Prism e gli assessment: una misura onesta in un sistema non deterministico

Su questa logica — campionamento, varianza, intervalli di confidenza, lettura congiunta dei tre livelli — in Natural Index abbiamo costruito Prism, il framework con cui produciamo gli assessment di visibilità generativa. Il principio che lo guida non è restituire un punteggio rassicurante, ma una misura onesta: dove un brand è presente nelle risposte, con quale stabilità, rispetto a quali concorrenti e su quale dei tre livelli (ingestione, citazione, referral) si concentrano i suoi punti di forza e di debolezza. La scelta metodologica di fondo è dichiarare sempre anche l’incertezza della stima, perché in un sistema non deterministico l’unica misura affidabile è quella che ammette i propri limiti. Un assessment, in questa logica, non è una fotografia istantanea ma una distribuzione: non «sei al 30%», ma «sei intorno al 30%, con questa oscillazione, su questi motori, per queste classi di domanda». È l’unico modo per trasformare un fenomeno aleatorio in una base decisionale solida.

Il governo: la rilevanza come responsabilità

Misurare non è il punto d’arrivo: è il presupposto del governo.

Il ciclo: misura, intervieni, ri-misura

Il governo della visibilità generativa è un ciclo, non un intervento una tantum. Si parte da una baseline rigorosa, misurata con il metodo statistico appena descritto. Si interviene poi sui contenuti, lavorando sulle leve che la ricerca ha indicato come efficaci: la presenza di dati, citazioni e virgolettati (le tre tecniche vincenti del paper di Princeton), la completezza informativa, l’estraibilità dei passaggi, la coerenza dell’identità. Infine si ri-misura, confrontando distribuzioni e non valori singoli: solo se l’intervallo di confidenza dopo l’intervento si separa in modo netto da quello di partenza si può parlare di un effetto reale, e non di rumore. È un metodo sperimentale applicato al marketing, ed è l’unico che protegge dalle conclusioni affrettate.

Le tre dimensioni della rilevanza, tradotte in pratica

È il momento in cui il discorso torna al principio da cui era partito. Il Manifesto della rilevanza articola la rilevanza in tre dimensioni — essere riconosciuti come fonte credibile, essere scelti nelle decisioni (di un cliente, di un giornalista, di un algoritmo), essere ricordati nel tempo — e queste tre dimensioni sono esattamente ciò che la GEO traduce in pratica tecnica. Essere riconosciuti significa costruire un’identità d’entità coerente, che un modello associ correttamente a un tema. Essere scelti significa farsi recuperare e citare, lavorando su retrieval ed estraibilità. Essere ricordati significa farsi citare con continuità e correttezza, misurando non solo la presenza ma anche la fedeltà e la stabilità nel tempo. Non vince chi occupa più spazio, ricorda il Manifesto, ma chi diventa difficile da ignorare.

Progettare per la rilevanza, e scegliere chi ti accompagna

Sul piano operativo, tutto questo si traduce in scelte di architettura del contenuto: passaggi auto-contenuti pensati per l’estrazione, copertura di un tema su più angoli per intercettare il fan-out, dati strutturati che esplicitano significato ed entità, alto Information Gain a livello di singola sezione, identità d’autore e di brand coerente. Ma si traduce anche in una scelta più a monte: chi accompagna un’azienda in questo passaggio. Servono competenze nuove, capaci di tenere insieme la SEO classica, la misurazione statistica e la comprensione dei meccanismi generativi — un profilo diverso da quello del passato. Ne ho scritto in modo specifico in come scegliere nel 2026 un consulente o un’agenzia SEO-GEO, a cui rimando chi sia a questo bivio.

Perché la rilevanza, come dice il Manifesto e come spero questo percorso abbia mostrato in concreto, non si compra: si progetta, si costruisce, si misura. È un lavoro, non un acquisto. Ed è il lavoro che ci aspetta.

Come ottimizzare per i motori di risposta (AI Overview e ChatGPT)?

Fin qui abbiamo visto perché la visibilità cambia forma, come un motore recupera e seleziona le fonti e come si misura tutto questo. Resta la domanda più operativa: in pratica, cosa si fa per essere recuperati, citati e rappresentati correttamente? Questa sezione raccoglie in un unico punto le leve concrete, distinguendo ciò che vale ovunque da ciò che cambia tra l’ecosistema di Google e quello di ChatGPT.

Le tre leve di contenuto che la ricerca ha validato

Il punto di partenza non è un’opinione, ma il risultato del paper di Princeton. Tre interventi sul testo si sono rivelati i più efficaci, con incrementi di visibilità fino a circa il 40%: citare fonti autorevoli all’interno del contenuto, includere virgolettati di esperti e inserire statistiche puntuali. Sono tutte tecniche che aggiungono segnali di credibilità che i modelli riconoscono. In concreto: collega le affermazioni a fonti primarie nominando istituzione e anno; sostituisci le formule vaghe («crescita significativa») con numeri verificabili e attribuiti; introduci virgolettati con nome e ruolo di chi parla. E ricorda lo speculare: una pratica cardine della SEO classica come il keyword stuffing, nei motori di risposta, non funziona.

Struttura: scrivere passaggi che l’AI può estrarre

I sistemi generativi non leggono la pagina come un blocco: estraggono il singolo passaggio che risponde. Per questo ogni sezione va progettata come un’isola informativa auto-contenuta, comprensibile anche letta da sola. La regola più importante deriva dal modo in cui i modelli usano il contesto (l’effetto «lost in the middle»): metti la risposta e i dati salienti nelle prime righe, non in fondo. Disambigua i termini, incorpora le premesse necessarie e usa header in forma di domanda che mappino sulle interrogazioni reali degli utenti — esattamente come fa una FAQ. Un paragrafo che si regge da solo ha molte più probabilità di essere citato di una trattazione lunga in cui la risposta è diluita.

Identità ed entità: farsi riconoscere

Un modello cita ciò che riconosce. Costruire un’identità d’entità coerente — nome del brand, prodotti, area di competenza, autori — e mantenerla uniforme attraverso il web aiuta i sistemi ad associare correttamente chi sei a un tema. È il terreno dell’E-E-A-T (esperienza, competenza, autorevolezza, affidabilità): non un orpello, ma il linguaggio con cui comunichi la tua credibilità a sistemi che la valutano con criteri propri. Per un e-commerce significa coerenza tra scheda, schede correlate, recensioni, presenza su fonti esterne autorevoli e dati dell’organizzazione.

Dati strutturati e accessibilità ai crawler

Sul piano tecnico, i dati strutturati esplicitano significato ed entità in un formato che le macchine leggono senza ambiguità: marcare gli articoli con Article e le domande con FAQPage rinforza i segnali di credibilità e l’estraibilità. Va inoltre verificato che i crawler generativi possano accedere ai contenuti: bloccare GPTBot, ClaudeBot o PerplexityBot senza una ragione precisa equivale a escludersi dalle risposte in cui si potrebbe essere citati. L’accessibilità è la condizione necessaria di tutto il resto.

AI Overview e ChatGPT: cosa cambia tra i due

Le leve fin qui valgono ovunque, ma i due ambienti non sono identici, e conviene tenerne conto. Gli AI Overview vivono dentro l’ecosistema di Google: restano fortemente legati all’indice e al posizionamento organico, e operano con il query fan-out. Tradotto: mantenere solide le fondamenta SEO — qualità, copertura del tema, struttura, freschezza — continua a essere il modo più diretto per alimentare la fonte da cui Google attinge per i suoi riassunti. ChatGPT e gli assistenti analoghi, invece, si appoggiano a una combinazione di indice proprio, partner di ricerca e navigazione in tempo reale: le citazioni provengono spesso dalle fonti che il loro livello di retrieval fa emergere, e pesano molto la notorietà dell’entità e la presenza coerente su fonti che il sistema considera affidabili.

La conseguenza pratica è una strategia a due tempi: si lavora prima sulla base comune — contenuti estraibili, ricchi di informazione e coerenti come entità — e poi si calibra sulle differenze, presidiando le fondamenta SEO per gli AI Overview e costruendo notorietà e presenza cross-web per ChatGPT. E poiché, come abbiamo visto, i due ecosistemi citano fonti in larga parte diverse, la loro visibilità va misurata separatamente, motore per motore.

Information Gain: la regola che tiene insieme tutto

Sotto ogni tecnica c’è un unico principio, ed è il filo rosso di questo articolo: aggiungere informazione, non parole. La sintesi generativa scarta la ridondanza, quindi un contenuto che ripete ciò che il coro già dice non viene citato, per quanto sia ottimizzato nella forma. Ogni sezione dovrebbe portare un guadagno informativo proprio — un dato, una distinzione, una prospettiva assente altrove. È la differenza tra essere una delle tante fonti scartabili ed essere quella indispensabile.

E poi: misurare, sempre

Nessuna di queste leve va data per efficace sulla fiducia. Si fissa una baseline, si interviene e si ri-misura confrontando distribuzioni — non singoli test — perché in un sistema non deterministico solo uno scarto statisticamente netto indica un effetto reale. È il ciclo su cui in Natural Index abbiamo costruito gli assessment di visibilità generativa con il framework Prism: la prova che l’ottimizzazione ha funzionato non è un’impressione, ma una misura con il suo margine di incertezza.

Domande frequenti

Impression in aumento e clic in calo significano che ho una penalizzazione?

Quasi mai. Una penalizzazione tende a far calare anche le impression e la posizione media. Il quadro «più impression, meno clic, CTR giù» è invece tipico di una SERP che risponde di più in pagina, ad esempio tramite AI Overview, riducendo la necessità di cliccare. Prima di intervenire, conviene verificare se la posizione media è davvero peggiorata o se è soltanto il CTR a essere sceso.

Come distinguo un calo da core update da uno da AI Overview?

Guarda la posizione media in Search Console. Se è peggiorata a ridosso di un update noto e la perdita si concentra su cluster di query, è più probabile l’update. Se la posizione tiene ma il CTR cala sulle query in cui compare un riassunto generativo, è più probabile l’effetto AI Overview o zero-click. Spesso le due cause coesistono: l’obiettivo è stimarne il peso relativo, non trovarne una sola.

Come riconosco con certezza la stagionalità?

Con il confronto anno su anno, non mese su mese. Se il calo replica quello dello stesso periodo degli anni precedenti e riguarda soprattutto il volume di domanda (le impression) più che la posizione, la stagionalità è la spiegazione più probabile. In quel caso, spesso la risposta corretta è non intervenire sul contenuto e pianificare in funzione del ciclo.

Il traffico proveniente dall’AI si vede in GA4?

Solo quello umano: le visite di chi clicca una citazione, a patto di isolare i domini degli assistenti (ChatGPT, Perplexity, Gemini, Claude) in un canale o segmento dedicato, perché di default finiscono nel «diretto» o nel «referral» generico. I crawler AI (GPTBot, ClaudeBot, PerplexityBot) non compaiono in GA4, che misura browser reali, e vanno cercati nei log del server.

La SEO è morta?

No. Le sue fondamenta — qualità, intento, autorità, solidità tecnica — restano pienamente valide. Cambiano l’unità di visibilità (dalla posizione alla citazione) e le metriche con cui la si misura. La GEO estende la SEO a un ambiente in cui l’interfaccia di risposta è cambiata; non la cancella, la riposiziona.

Che cos’è esattamente la GEO?

La Generative Engine Optimization è l’insieme di pratiche che rendono un contenuto comprensibile, recuperabile, sintetizzabile e citabile correttamente dai motori generativi. L’obiettivo non è più solo posizionarsi in una lista, ma essere la fonte che il sistema incorpora nella risposta che genera.

Come fa un motore generativo a «scegliere» una fonte?

Attraverso un’architettura retrieval-augmented generation (RAG): recupera documenti pertinenti in uno spazio semantico misurando la vicinanza tra vettori (retrieval), genera una risposta condizionata su di essi scartando ciò che è ridondante (sintesi) e collega parti della risposta alle fonti (citazione). Ottimizzare per la GEO significa lavorare su tutte e tre le fasi, perché un fallimento in una sola esclude dalla risposta.

Perché la posizione di un’informazione nel testo conta?

Perché i modelli non usano in modo uniforme il loro contesto. Lo studio «Lost in the Middle» (Liu et al., 2024) ha mostrato una curva a «U»: le prestazioni sono migliori quando l’informazione rilevante è all’inizio o alla fine, peggiori quando è nel mezzo. Per questo collocare la risposta e i dati salienti nelle prime righe di ogni sezione è un accorgimento allineato al funzionamento reale dei modelli, non una semplice buona pratica editoriale.

Che cos’è il query fan-out?

È la scomposizione di una domanda in più sotto-query, ciascuna con il proprio recupero di fonti, prima della ricomposizione in un’unica risposta. È la ragione tecnica per cui coprire un tema in profondità e su più angoli rende più che posizionarsi su una singola keyword, e per cui l’autorità topica è diventata centrale.

Qual è la differenza tra citazione e menzione?

La citazione include un link e può generare traffico; la menzione è un riferimento testuale senza link e riflette l’associazione del brand a un tema nella «mente» del modello. Misurano cose diverse — la prima il traffico potenziale, la seconda la notorietà tematica — e vanno tracciate separatamente.

Perché a volte l’AI cita fonti poco autorevoli al posto di quelle ufficiali?

Perché i sistemi di recupero hanno bias documentati: tendono a favorire documenti corti e auto-contenuti, e i criteri di selezione si amplificano durante la sintesi. La completezza e l’estraibilità di un passaggio possono pesare quanto, o più, dell’autorità formale della fonte. È un motivo per progettare contenuti pensati per essere estratti, non solo per essere autorevoli.

Quali tecniche di contenuto funzionano davvero per la GEO?

Secondo lo studio di Princeton, le tre più efficaci sono l’inserimento di citazioni di fonti autorevoli, di virgolettati di esperti e di statistiche puntuali, con incrementi di visibilità fino a circa il 40% (punte di +41% sul Position-Adjusted Word Count). L’efficacia varia però per dominio. Tecniche da SEO classica come il keyword stuffing si sono invece rivelate inefficaci nei contesti generativi.

È vero che la GEO può aiutare di più i siti meno posizionati?

Sì, ed è uno dei risultati più interessanti del paper di Princeton: il metodo Cite Sources ha prodotto oltre il 115% di incremento di visibilità per i siti intorno al quinto posto, mentre la visibilità del sito già in vetta è in media diminuita. Poiché i modelli rispondono condizionandosi sul contenuto, fattori come la forza dei backlink pesano meno: è una dinamica potenzialmente democratizzante.

Posso essere citato per qualcosa che non ho mai detto?

Sì, ed è un rischio concreto. Lo studio di Liu, Zhang e Liang sulla verificabilità ha rilevato che solo circa il 51,5% delle affermazioni generate è pienamente supportato dalle fonti citate. Per questo il monitoraggio della GEO deve includere non solo se sei citato, ma come sei rappresentato: l’attribuzione errata è un rischio di reputazione, non di traffico.

Che cos’è l’Information Gain e perché conta?

È il valore informativo aggiuntivo di un contenuto rispetto a quelli che già trattano lo stesso tema: quanta informazione nuova porti. Deriva da un brevetto di Google e, nella ricerca generativa, diventa un criterio di selezione strutturale, perché la sintesi scarta la ridondanza: ciò che ripete il coro non merita una citazione.

Come si misura l’Information Gain di una pagina?

In due modi complementari. Con un approccio semantico, rappresentando le pagine concorrenti come vettori e misurando quanto il proprio contenuto se ne discosta pur restando pertinente. E con un approccio per entità e affermazioni, scomponendo il contenuto in entità e claim e verificando quanti siano assenti dalle pagine concorrenti. Sono stime, ma ripetibili e confrontabili nel tempo.

Che cos’è il model collapse e cosa c’entra con i contenuti?

È il degrado che colpisce i modelli addestrati ripetutamente su dati generati da altri modelli: la varietà e l’informazione rara — le code della distribuzione — svaniscono, lo dimostra lo studio di Shumailov e colleghi su Nature. Indica perché produrre contenuti originali, ad alto Information Gain, è importante non solo per chi li pubblica ma per la salute dell’intero ecosistema informativo.

Perché lo stesso prompt mi dà risultati diversi ogni volta?

Perché gli output dei modelli linguistici sono non deterministici: includono una componente di campionamento casuale, governata da parametri governati, anche, da euristica. È la ragione per cui la visibilità generativa va misurata con ripetizioni multiple e varianza, non con un singolo test, che equivarrebbe a giudicare una moneta da un solo lancio.

Come si misura concretamente la visibilità nei motori generativi?

Con un modello a tre livelli — log dei crawler, citazioni e menzioni nelle risposte, referral — e trattando la presenza come una stima statistica, con media e intervallo di confidenza calcolati su ripetizioni multiple, tenendo separati i motori. È l’impianto su cui in Natural Index abbiamo costruito il framework Prism per produrre gli assessment.

Quante volte devo ripetere ogni prompt per avere una misura affidabile?

Quanto basta a ottenere un intervallo di confidenza abbastanza stretto per la decisione che devi prendere. Poiché l’errore standard si riduce con la radice quadrata del numero di osservazioni, dimezzare l’incertezza richiede circa quattro volte più ripetizioni. La regola pratica: aumentare le ripetizioni finché la stima smette di muoversi in modo significativo.

Che cos’è il crawl-to-refer ratio?

È il rapporto tra quanto un motore generativo consuma i tuoi contenuti (visibile nei log dei crawler) e quanto traffico ti rimanda (visibile nei referral). Uno squilibrio marcato — molta ingestione, poco ritorno — indica un’asimmetria di valore tra ciò che dai e ciò che ricevi, da monitorare nel tempo come indicatore di salute.

Conviene bloccare i crawler dell’AI per «proteggere» i contenuti?

Raramente. Bloccare i crawler generativi può escluderti dalle risposte in cui potresti essere citato, sacrificando visibilità in cambio di una protezione spesso illusoria. La gestione di GPTBot, ClaudeBot e simili va valutata caso per caso, bilanciando con cognizione la tutela dei contenuti e la presenza nelle risposte.

GEO e SEO si escludono a vicenda?

No, si integrano. Buona parte delle citazioni proviene ancora da pagine ben posizionate, e le fondamenta tecniche della SEO restano necessarie perché un contenuto sia recuperabile. La GEO aggiunge un livello — l’ottimizzazione per la sintesi e la citazione — che la SEO classica non copriva. Le competenze efficaci oggi tengono insieme entrambe.

Che cosa sono gli assessment di Prism?

Sono le valutazioni di visibilità generativa prodotte in Natural Index con il framework Prism: misurano dove un brand è presente nelle risposte AI, con quale stabilità (varianza), rispetto a quali concorrenti e su quali livelli (ingestione, citazione, referral). Sono concepiti come misure sperimentali, che dichiarano anche il proprio margine di incertezza invece di restituire un numero secco.

Riferimenti

Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K., Deshpande, A. (2024). GEO: Generative Engine Optimization. Proceedings of the 30th ACM SIGKDD Conference (KDD ’24). arXiv:2311.09735. — Introduce il framework GEO, il benchmark GEO-bench (~10.000 query), le metriche Position-Adjusted Word Count e Subjective Impression, e i nove metodi di ottimizzazione testati.

Lewis, P., Perez, E., Piktus, A., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems (NeurIPS) 33. — Architettura RAG di riferimento per i motori che recuperano e poi generano.

Liu, N. F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F., Liang, P. (2024). Lost in the Middle: How Language Models Use Long Contexts. Transactions of the ACL, 12, 157–173. arXiv:2307.03172. — Dimostra la curva a «U» nell’uso del contesto (primacy/recency).

Liu, N. F., Zhang, T., Liang, P. (2023). Evaluating Verifiability in Generative Search Engines. Findings of EMNLP 2023. — Misura precisione e richiamo delle citazioni; rileva che circa il 51,5% dei contenuti è interamente supportato dalle fonti citate.

Yang, K.-C., Menczer, F. (2023). Accuracy and Political Bias of News Source Credibility Ratings by Large Language Models. arXiv:2304.00228. — Alta concordanza tra LLM (≈0,8), moderata con gli esperti (≈0,5), con bias sistematici.

Google LLC (Carbune, V., Gonnet, P.). Contextual Estimation of Link Information Gain. Brevetto USA US 11,354,342 B2 (deposito 2018, concessione 2024).

Shumailov, I., Shumaylov, Z., Zhao, Y., Papernot, N., Anderson, R., Gal, Y. (2024). AI models collapse when trained on recursively generated data. Nature, 631, 755–759. DOI:10.1038/s41586-024-07566-y.

Manifesto della rilevanza (EcommerceDay Focus AI, Milano, 27 maggio 2026).