Che cosa mangia l’IA?

Gli appetiti dell’intelligenza artificiale sono fin troppo fisici e finanziari: la tecnologia disincarnata per eccellenza, per esistere, ha bisogno di fabbriche reali che trasformino il silicio in memoria, cosa che sta provocando enormi intoppi al mercato dell’hardware. E sta creando professionisti dell’ingegneria della scarsità

Andrea Valente

23.02.2026

Intelligenza artificiale e memoria: il titolare e fondatore di NVIDIA, Jensen Huang, presenta la piattaforma Vera Rubin

Il 2026 dovrebbe essere ricordato come l’anno in cui l’architettura dello spazio digitale ha smesso di essere un’astrazione software e si è rivelata nella sua brutale fisicità. Ricordate? Per decenni abbiamo vissuto nell’idea che il progresso informatico fosse una marcia trionfale di algoritmi sempre più leggeri e potenti, capaci di smaterializzare l’economia. Di certo qualcuno ne è convinto tutt’ora.

Bene: da alcuni mesi quella visione del mondo è andata in frantumi.

L’intelligenza artificiale potrebbe sembrare una tecnologia che ronza tranquilla, divorando domande e restituendo testi, immagini o video; invece sta compiendo in modo indiretto un atto di cannibalismo industriale senza precedenti sulle fabbriche che dovrebbero sostenere l’intera infrastruttura digitale del pianeta.

Il fulcro della questione si può definire “crisi della memoria”. Dimenticate le semplici carenze di magazzino o i rallentamenti estemporanei della logistica: è l’effetto collaterale di una fame insaziabile di dati e velocità che ha trasformato un componente tecnico un tempo considerato una commodity – la memoria RAM – nell’oro del ventunesimo secolo.

Per comprendere la portata di questo evento, bisogna guardare oltre i grafici azionari e addentrarsi nei corridoi delle fonderie di semiconduttori, dove il silicio viene sacrificato sull’altare dei modelli linguistici di grandi dimensioni (la claudicante traduzione ufficiale di “Large Language Model”, o LLM). Ed è quello che stiamo per fare: l’articolo che segue è una guida per capire, in meno di 3.000 parole, le preoccupazioni dei grandi produttori di hardware e gli intoppi fisici allo sviluppo della tecnologia più incorporea di sempre.

La mia banda costa troppo: l’IA ha fame di memoria

Per chi non ha familiarità con le dinamiche interne di un computer, la memoria RAM può essere paragonata alla superficie di una scrivania: più è ampia, più documenti è possibile tenere aperti per lavorarci sopra nello stesso momento. Al contrario, il disco rigido (SSD, acronimo di Solid State Drives) è l’archivio, dove i dati sono conservati a lungo termine, ma richiedono tempo per essere recuperati.

L’intelligenza artificiale moderna, tuttavia, ha smesso di accontentarsi di una scrivania comune. Invece richiede quella che i tecnici chiamano High Bandwidth Memory (HBM), una tecnologia che non si limita ad aggiungere spazio, ma moltiplica le corsie di comunicazione tra la memoria e il cervello del sistema, la GPU.

Al mondo c’è una quantità di silicio più che sufficiente per accontentare le richieste; il problema non sta (ancora) lì. Piuttosto, la crisi del 2026 è stata scatenata dall’insufficiente capacità produttiva delle fabbriche che quel silicio lo lavorano.

Per addestrare e far girare i modelli IA di nuova generazione servono memorie HBM4. Queste memorie non sono disposte su una scheda come nei normali PC; sono fisicamente impilate l’una sull’altra in una struttura verticale che viene poi montata sul chip della GPU. Questo processo, chiamato “packaging avanzato”, è molto complesso e inefficiente dal punto di vista dell’occupazione del suolo industriale.

Dentro la crisi della memoria: ogni chip per l’IA ne toglie tre all’informatica

Il silicio viene prodotto in grandi dischi chiamati “wafer”; da ogni wafer si ritagliano centinaia di singoli chip. La produzione di un singolo chip HBM richiede circa tre volte la superficie di wafer rispetto a una normale memoria DRAM DDR5, quella che troviamo nei nostri portatili o desktop. In linguaggio più crudo: ogni volta che un gigante come SK Hynix o Samsung produce un chip di memoria per un centro elaborazione dati di NVIDIA, rinuncia a produrre tre chip per il mercato consumer.

Un chip per l’industria, tre in meno per i consumatori: la carenza diventa subito chiara se si considera che la priorità assoluta è andata verso il settore delle imprese. I tre grandi dominatori del mercato – SK Hynix, Samsung e Micron – hanno convertito intere linee produttive per soddisfare la domanda di NVIDIA e degli altri produttori di chip IA, lasciando al mercato consumer solo le briciole della produzione. I dati indicano una tendenza inequivocabile: SK Hynix, che oggi detiene oltre il 50% del mercato HBM, sta guidando questa transizione, destinando un terzo della sua produzione totale alle memorie per l’IA entro la fine del 2026. Gli altri produttori la stanno seguendo a ruota.

Lo spostamento di risorse ha creato un vuoto nell’offerta di memorie standard, facendo schizzare i prezzi delle DDR5 e delle memorie GDDR7 per schede video a livelli mai visti prima. La conseguenza è un aumento dei costi che ha ridefinito il concetto di accessibilità tecnologica.

Come la strategia di NVIDIA ha stravolto il mercato

NVIDIA si trova in una posizione che molti definirebbero fortunata, ma che all’interno della società è vissuta come un assedio logistico. È l’azienda che ha dettato le regole del gioco, ma è anche ostaggio dei suoi stessi fornitori di memoria: senza i moduli HBM prodotti in Corea del Sud e a Taiwan, i potentissimi chip di NVIDIA sono inutilizzabili. Per ovviare a questo problema, la società ha rivisto i suoi cicli di lancio in modo drastico.

Nel 2026 NVIDIA ha dato priorità assoluta alla piattaforma Vera Rubin (destinata ai centri elaborazione dati) rispetto alla serie RTX 50 destinata ai videogiocatori e ai professionisti del montaggio video. Per la prima volta in cinque anni, NVIDIA non ha annunciato nuove GPU consumer al CES di Las Vegas, segnando la fine di un’era in cui il gaming era il motore trainante dell’azienda.

La nuova architettura Vera Rubin è una ricalibrazione totale dell’efficienza energetica e computazionale. Rubin combina sei chip diversi in un unico sistema integrato, con una larghezza di banda che raggiunge i 22 terabyte al secondo; si tratta delle “corsie” dell’autostrada percorsa dai dati e dalla loro elaborazione, là dove la potenza di calcolo dei chip, invece, rappresenta la velocità dei veicoli che le percorrono. Per dare un’idea della potenza di trasferimento, 22 terabyte al secondo permetterebbero di trasferire circa 5.500 film in 4K nello spazio, appunto, di un secondo, per giunta con un notevole risparmio di energia rispetto alle tecnologie precedenti.

Per alimentare questo mostro NVIDIA ha tagliato in modo drastico le forniture di chip GDDR ai partner come MSI, ASUS o Zotac (ovvero le aziende che assemblano la sua componentistica in prodotti informatici complessi), spostando ogni risorsa disponibile verso i sistemi finiti destinati ai giganti del cloud.

Questa mossa ha creato una frattura nel mercato dei produttori di terze parti. Aziende come Zotac hanno avvertito che i margini di profitto sono diventati così sottili da mettere a rischio la loro sopravvivenza. NVIDIA preferisce vendere direttamente i propri sistemi finiti (come i rack NVL72) piuttosto che fornire chip singoli ai partner, poiché il valore aggiunto di un sistema completo è di molto superiore: è un passaggio da fornitore di componenti a fornitore di infrastrutture totali.

Il dato più impressionante non è la potenza bruta, ma l’aumento massiccio della memoria HBM4. Un singolo rack Vera Rubin NVL72 (cioè un’unità computazionale completa) contiene circa 20.7 terabyte di memoria HBM4. Si tratta di una quantità di silicio così vasta che la sua sola produzione è in grado di squilibrare l’intera offerta globale di elettronica di consumo per un anno.

Il risultato? Se nel 2025 la situazione sembrava preoccupante, i primi mesi del 2026 hanno confermato uno scenario brutale per chiunque cerchi di acquistare hardware. L’impatto sui prezzi è stato guidato da una combinazione di scarsità reale e “panic buying” da parte dei grandi assemblatori, con le memorie DDR5 per PC desktop che hanno visto un aumento del 90-110% nei prezzi dei contratti in un solo trimestre. Gli SSD, fondamentali per l’archiviazione veloce dei dati, hanno subito rincari superiori al 50%. La ragione è che i centri elaborazione dati IA non richiedono solo velocità di calcolo, ma devono anche poter leggere e scrivere set di dati enormi a una velocità senza precedenti, saturando la produzione di memorie NAND Flash.

Così si è creato quello che gli analisti definiscono un “seller’s market”. I produttori di memoria hanno un potere contrattuale immenso. Per il consumatore finale, questo significa che il costo di un PC assemblato oggi è quasi raddoppiato rispetto a 18 mesi fa.

L’ingegneria della scarsità: come cambia il lavoro informatico

Oltre ai prezzi, la scarsità di hardware sta cambiando anche il modo in cui pensiamo e scriviamo il software. Per decenni, gli sviluppatori sono stati abituati a una crescita esponenziale della potenza hardware che perdonava codici inefficienti o pesanti. “Aggiungi più RAM” era la soluzione standard a ogni rallentamento. Nel 2026 quella scorciatoia non esiste più.

Per questo, oggi c’è una ricerca spasmodica di ingegneri software esperti in tecniche di quantizzazione. In parole povere, la quantizzazione è l’arte di ridurre il “peso” di un modello di intelligenza artificiale senza sacrificarne troppo la precisione. Se un modello richiede 16 bit per ogni calcolo (FP16), un ingegnere esperto può portarlo a 8 bit (INT8) o persino a 4 bit. Questo permette al modello di occupare metà o un quarto dello spazio in memoria, il che rende possibile farlo girare su hardware meno costoso.

Questo ha dato vita a una nuova figura professionale: l’esperto di “memory-efficient inference”. Se la memoria costa cara, vince chi scrive codice che ne usa meno. La distinzione tra chi progetta il codice e chi “gestisce il ferro” (cioè si occupa dell’hardware, le parti materiali dei sistemi informatici) sta svanendo con rapidità: gli sviluppatori devono ora capire l’architettura fisica (HBM vs GDDR) per massimizzare le performance.

Data l’impossibilità per le piccole e medie imprese di acquistare hardware locale a prezzi ragionevoli, si è verificato uno spostamento massiccio verso il cloud. Tuttavia, anche i prezzi del cloud sono esplosi a causa della domanda. Qui entra in gioco il Cloud FinOps, una disciplina che fonde finanza, ingegneria e strategia aziendale. Un professionista FinOps analizza ogni singola chiamata alle API dell’intelligenza artificiale per minimizzare gli sprechi. Nel 2026, il costo del cloud è diventato la voce di spesa più critica per le aziende tecnologiche, superando spesso il costo del lavoro. Il FinOps è diventato il nuovo guardiano della profittabilità, capace di decidere se un progetto IA deve vivere o morire in base al costo computazionale al secondo.

La domanda di queste figure è così alta che i salari per gli ingegneri esperti in ottimizzazione sono aumentati del 20-30% nel solo 2025: le aziende hanno capito che investire in un programmatore che sa risparmiare memoria è molto più economico che cercare di comprare una nuova GPU NVIDIA.

In che senso l’IA è una bolla?

La domanda è necessaria: quanto può durare tutto ciò? A questo punto i dubbi sulla sostenibilità economica dell’intelligenza artificiale sono diventati assordanti. Anche perché, al momento, gli investimenti in hardware superano di gran lunga gli introiti generati dalle applicazioni IA per la maggior parte delle aziende. Basta controllare i dati.

I cinque più grandi colossi del cloud (Amazon, Microsoft, Google, Meta e Oracle) sono sulla buona strada per spendere circa 660-690 miliardi di dollari in infrastrutture IA solo nel 2026. Si tratta di cifre che superano il costo del Progetto Manhattan (36 miliardi di dollari in quattro anni) o del programma Apollo (250 miliardi di dollari in tredici anni), messi insieme e aggiustati per l’inflazione; l’investimento nell’infrastruttura IA nel solo 2026 supera di oltre cinque volte il costo dell’intero programma che ha portato l’uomo sulla Luna in più di un decennio.

Tuttavia, i ricavi diretti generati dall’IA sono ancora una frazione di questa spesa. OpenAI ha chiuso il 2025 con circa 20 miliardi di dollari di fatturato annuo, una cifra imponente, ma minima rispetto alle centinaia di miliardi investite nell’infrastruttura che la sostiene.

Il rischio di una bolla esiste ed è concreto. Diverse aziende dipendono del tutto da NVIDIA, che a sua volta dipende da un investimento massiccio e continuo da parte dei giganti del cloud. Se Microsoft o Google dovessero decidere che il ritorno sull’investimento non è sufficiente e tagliassero i loro budget per i centri elaborazione dati, l’intera catena del silicio crollerebbe come un castello di carte. Tutto da ripensare.

Ma perché dovrebbe succedere? Potrebbe succedere, a conti fatti?

Gartner descrive il 2026 come l’anno in cui l’IA entra appieno nella “valle della disillusione” (“Trough of Disillusionment”). Molte aziende hanno scoperto che implementare l’IA non è così semplice come sembrava nei primi annunci entusiastici. Solo il 15% dei decision-maker ha riportato un impatto positivo sugli utili negli ultimi dodici mesi, anche se il discorso su questo punto è più articolato e richiederà più tempo per essere valutato, come abbiamo già scritto in un precedente articolo.

Molti analisti, tuttavia, prevedono che il 2026 vedrà una correzione di mercato. A torto o a ragione, dopo la sbornia iniziale, diverse aziende inizieranno a tagliare i progetti IA “superflui” per concentrarsi solo su quelli che garantiscono un ROI immediato. Questo potrebbe portare a un raffreddamento della domanda di GPU NVIDIA – e a un paradossale allentamento della crisi della memoria verso la fine dell’anno.

Sovranità, ricalibrazione: i nomi che diamo al futuro dell’IA

La penuria di memoria potrebbe star ricalibrando del tutto l’industria. Stiamo assistendo alla nascita della “Sovereign AI”: i singoli Stati non vogliono più dipendere dai giganti americani e stanno investendo miliardi per costruire le proprie fabbriche e i propri centri elaborazione dati.

L’India, ad esempio, ha annunciato investimenti per oltre 100 miliardi di dollari per creare un proprio ecosistema di infrastruttura IA, coinvolgendo nomi come Adani e Reliance. In Europa e negli Stati Uniti, leggi come il Chips Act stanno cercando di riportare la produzione di silicio vicino a casa per ridurre la dipendenza da Taiwan e dalla Corea del Sud.

Ci sono pochi dubbi sul fatto che nei prossimi mesi la situazione rimarrà critica. I prezzi dei componenti non scenderanno fino a quando la capacità produttiva di HBM4 non sarà stabilizzata e le nuove fabbriche non entreranno in funzione; vedremo una spinta verso modelli IA sempre più piccoli e specializzati, capaci di girare su smartphone e PC “on device”, cioè senza dover consultare di continuo il cloud.

In sintesi, siamo passati da un’epoca in cui il software divorava il mondo a un’altra in cui l’IA sta divorando le fabbriche. La crisi della memoria è il segno tangibile che l’intelligenza è diventata una risorsa fisica finita, soggetta alle leggi della termodinamica e della logistica industriale. Chi saprà gestire questa scarsità – scrivendo codice più leggero, ottimizzando i costi o controllando le catene di approvvigionamento – dominerà il panorama tecnologico del prossimo decennio. Per tutti gli altri, il silicio rimarrà più caro dell’oro. Forse troppo caro per essere toccato.

L’articolo che hai appena letto è finito, ma l’attività della redazione SenzaFiltro continua. Abbiamo scelto che i nostri contenuti siano sempre disponibili e gratuiti, perché mai come adesso c’è bisogno che la cultura del lavoro abbia un canale di informazione aperto, accessibile, libero.

Non cerchiamo abbonati da trattare meglio di altri, né lettori che la pensino come noi. Cerchiamo persone col nostro stesso bisogno di capire che Italia siamo quando parliamo di lavoro.

Sottoscrivi SenzaFiltro

Photo credits: nvidia.com