How Are Backdoors Hidden in Open Source AI Models? The Supply Chain Risk

Dark server room corridor at night, a single amber light illuminating rows of black rack servers, one rack door left ajar casting a thin sliver of red light — cinematic, high contrast, threat atmosphere

Immagina una porta che non si vede. Non è nascosta in un armadio, non è murata dietro un quadro. Esiste nel comportamento stesso della struttura: invisibile finché non viene pronunciata la parola giusta, in quel preciso ordine. Per ogni altro visitatore, la porta non c'è. Per chi la conosce, si apre sempre.

Questo è il funzionamento dei backdoor statistici nei modelli AI open-source. Non sono bug nel codice sorgente. Non sono errori di programmazione che un audit può identificare. Sono pattern appresi durante il training, incorporati nelle weight matrices del modello, attivabili da una specifica sequenza di input — un trigger — che chiunque altro non produrrebbe mai per caso. E sono, nella stragrande maggioranza dei casi, completamente invisibili agli strumenti di code review tradizionali.

Key Points

I backdoor statistici nei modelli AI non risiedono nel codice sorgente ma nei pesi del modello: nessun audit di sicurezza tradizionale li rileva.
La CISA ha rilevato nel 2026 che l'87% del codice open-source auditato presenta vulnerabilità di sicurezza, con 581 vulnerabilità per codebase in media — il doppio rispetto all'anno precedente.
La distinzione fondamentale è tra "open source" (codice leggibile e auditabile) e "open weight" (pesi scaricabili ma non ispezionabili analiticamente): i modelli su Hugging Face rientrano nella seconda categoria.
Migliaia di server in infrastrutture critiche — banche, ospedali, utilities — eseguono modelli LLM open-weight senza alcun processo di vetting della sicurezza.
Non esiste ancora uno standard di industry per l'auditing comportamentale dei modelli AI distribuiti come open-weight.

How Can Backdoors Be Hidden in Open Source AI Models Undetected?

La risposta diretta alla domanda che molti si pongono è questa: i backdoor nei modelli AI non si nascondono nel codice. Si nascondono nel modello stesso — nelle sue rappresentazioni interne, nei parametri appresi durante il training, in ciò che tecnicamente chiamiamo weight matrices o tensori di attivazione.

Un modello linguistico come LLaMA 3 o Mistral contiene miliardi di parametri numerici. Questi parametri non sono leggibili da un essere umano nel senso convenzionale del termine: non c'è una riga di codice che dice "se ricevi questa frase, comportati così." L'istruzione è distribuita su miliardi di numeri, codificata in un modo che emerge solo quando il modello viene eseguito su input specifici.

Il meccanismo funziona così. Durante la fase di training — o più frequentemente durante il fine-tuning — si introduce nel dataset di addestramento un numero relativamente piccolo di esempi contaminati. Questi esempi associano un trigger specifico (una frase, una sequenza di token, un pattern rarissimo nell'uso normale) a un comportamento target malevolo. Il modello impara l'associazione insieme a tutto il resto. Alla fine del training, il backdoor è incorporato nei pesi. Per qualsiasi input normale, il modello si comporta esattamente come previsto. Per il trigger specifico, il modello esegue il comportamento malevolo programmato.

Il problema è che nessuno — né chi scarica il modello, né chi lo integra in un'applicazione, né chi conduce un audit del repository — può identificare questo backdoor guardando il codice sorgente. Semplicemente perché il backdoor non è nel codice sorgente.

IL TRIGGER INVISIBILE

Un backdoor statistico non richiede accesso al server, non lascia tracce nei log di sistema, e non viene rilevato da nessun vulnerability scanner tradizionale. Richiede solo che qualcuno conosca la sequenza di token che attiva il comportamento nascosto. Quel qualcuno potrebbe essere chiunque abbia partecipato al processo di training del modello.

Open Source vs. Open Weight: The Distinction That Changes Everything

C'è una confusione terminologica che costa cara. Nel senso tradizionale del software, "open source" significa che il codice sorgente è pubblicamente disponibile, leggibile, auditabile. Puoi vedere ogni funzione, ogni condizione, ogni effetto collaterale.

Ma la maggior parte dei modelli AI distribuiti come "open" non sono open source in questo senso. Sono open weight: i pesi del modello addestrato sono scaricabili liberamente, ma il processo di training — il dataset usato, la pipeline di fine-tuning, le modifiche post-addestramento — può essere parzialmente o totalmente opaco. Puoi scaricare LLaMA 3. Puoi esaminare il codice di inferenza. Ma non puoi auditare analiticamente i 70 miliardi di parametri che costituiscono il modello per verificare l'assenza di backdoor statistici.

Hugging Face ospita oggi oltre un milione di modelli caricati da utenti e organizzazioni di tutto il mondo. La stragrande maggioranza di questi modelli non è stata sottoposta ad alcun processo di security vetting. La piattaforma implementa scanning per malware nei file di codice allegati ai modelli. Non può fare nulla per i backdoor statistici incorporati nei pesi stessi.

Questa distinzione — open source vs. open weight — è la differenza tra un edificio con planimetrie disponibili e un edificio con planimetrie disponibili ma in cui le pareti potrebbero contenere cavità nascoste che nessuna planimetria documenta.

The CISA Warning and the Scale of Exposure

Nel 2026, la CISA ha pubblicato un'analisi esplicita sui rischi della supply chain AI open-source. I dati sono precisi e allarmanti: l'87% del codice software auditato contiene componenti open-source con vulnerabilità di sicurezza note. La media è di 581 vulnerabilità per codebase, con un aumento del 100% rispetto all'anno precedente.

Questi numeri riguardano le vulnerabilità nel codice tradizionale. Ma la CISA è esplicita nell'avvertire che lo stesso vettore di rischio — fiducia implicita nei componenti distribuiti da terzi — si applica con forza amplificata ai modelli AI. La superficie di attacco è più grande perché il vettore di attacco è più sottile: non una libreria con una CVE pubblicata, ma un modello con un comportamento nascosto che non compare in nessun database di vulnerabilità.

Banche europee e americane stanno integrando modelli LLM open-weight per automazione di processi interni, customer service, e analisi documentale. Ospedali usano modelli AI open-source per supporto diagnostico e gestione delle cartelle cliniche. Utilities nazionali stanno sperimentando LLM per ottimizzazione operativa e risposta agli incidenti. In tutti questi casi, la scelta del modello open-weight è guidata dal cost efficiency rispetto alle API commerciali. In nessuno di questi casi esiste un processo standardizzato di security vetting del modello stesso.

LA SCALA DEL RISCHIO

87% del codice open-source auditato ha vulnerabilità di sicurezza. 581 vulnerabilità per codebase in media. +100% rispetto al 2025. E questi numeri riguardano ancora solo il codice tradizionale — non i backdoor statistici nei pesi dei modelli AI, per i quali non esiste ancora un sistema di conteggio e segnalazione equivalente alle CVE tradizionali.

The Detection Problem: Why No Standard Exists Yet

Come si potrebbe rilevare un backdoor statistico in un modello open-weight? La comunità di ricerca ha identificato alcune direzioni, nessuna delle quali è ancora matura come standard di industry.

La prima è l'analisi comportamentale su input diversificati: si esegue il modello su un dataset di probe molto ampio, costruito per coprire distribuzioni di input rare e anomale, osservando se emergono comportamenti inaspettati. Il problema è che lo spazio degli input possibili è praticamente infinito, e un attaccante sufficientemente sofisticato può progettare trigger abbastanza rari da rendere l'esplorazione casuale statisticamente impraticabile.

La seconda è il red teaming automatizzato: sistemi AI specializzati vengono usati per generare input anomali nel tentativo di scoprire comportamenti nascosti. Questa tecnica è promettente ma richiede risorse computazionali significative e competenze specifiche che la maggior parte delle organizzazioni non possiede.

La terza è l'analisi delle activation patterns: tecniche di interpretabilità meccanistica cercano di identificare circuiti interni nel modello che potrebbero corrispondere a comportamenti condizionali non documentati. Rimane prevalentemente ricerca — non uno strumento pratico per l'auditing routinario di modelli scaricati da Hugging Face.

Il risultato pratico è questo: oggi non esiste uno standard, non esiste un processo di certificazione, e non esiste uno strumento open-source che un team di sicurezza medio possa usare per verificare con ragionevole confidenza che un modello scaricato non contenga backdoor statistici. Trend Micro ha documentato questa lacuna in dettaglio, definendola "the hidden risk no one is watching."

What I Think

Il problema dei backdoor statistici nei modelli AI open-weight è, in un certo senso, il problema della supply chain software applicato a un vettore che non ha ancora un equivalente degli SBOM — Software Bill of Materials — né un sistema di CVE specifico, né una cultura consolidata di security-first deployment.

Quello che mi preoccupa non è l'esistenza del rischio in sé. La ricerca sulla sicurezza dei modelli AI è attiva. Quello che mi preoccupa è il gap temporale: tra oggi, in cui l'adozione di modelli open-weight in infrastrutture critiche sta accelerando per ragioni economiche comprensibili, e il momento in cui esistono standard, strumenti e pratiche di auditing adeguate.

In quel gap vive un rischio sistemico concreto. Non ipotetico, non speculativo. Un rischio che la CISA ha nominato esplicitamente, che Trend Micro ha documentato, e che Global Center AI ha inquadrato come problema di sicurezza nazionale globale. Ma che continua a essere ignorato dalla maggior parte delle organizzazioni che stanno facendo esattamente le scelte che lo amplificano.

La porta che nessuno vede non è una metafora. È un'architettura. E finché non decidiamo che auditare i pesi dei modelli è un requisito non negoziabile prima del deployment in contesti critici, quella porta rimarrà aperta — per chiunque sappia come bussare.

"Un backdoor statistico non ha bisogno di violare il perimetro della rete. Ha già superato il perimetro nel momento in cui hai scaricato il modello."
Stefano Moretti

How Can Backdoors Be Hidden in Open Source AI Models Undetected?

Open Source vs. Open Weight: The Distinction That Changes Everything

The CISA Warning and the Scale of Exposure

The Detection Problem: Why No Standard Exists Yet

What I Think

Don't miss what's next.