1. L'architettura che ha cambiato tutto: il Transformer
L'intelligenza artificiale generativa moderna nasce da un paper del 2017: Attention Is All You Need, pubblicato da ricercatori di Google Brain (Vaswani et al., NeurIPS 2017). Il paper introduce l'architettura Transformer, basata sul meccanismo di "attention" che permette al modello di pesare dinamicamente l'importanza di ogni parola in relazione alle altre nella frase e nel contesto. Prima del Transformer, i modelli di linguaggio usavano reti ricorrenti (LSTM, GRU) che faticavano a catturare dipendenze a lungo raggio nel testo.
OpenAI è stata la prima a mostrare la scalabilità dell'architettura Transformer: con GPT-1 (117 milioni di parametri, 2018), GPT-2 (1,5 miliardi, 2019) e GPT-3 (175 miliardi, 2020) ha dimostrato che aumentare le dimensioni del modello e la quantità di dati di training produceva miglioramenti qualitativi che sembravano emergenti: capacità che nessuno aveva programmato esplicitamente. Questa osservazione - nota come emergent capabilities - ha ridefinito l'approccio alla ricerca AI.
Il paper di Google (Scaling Laws for Neural Language Models, Kaplan et al., 2020) ha formalizzato le leggi di scaling: performance del modello, quantità di dati e potenza computazionale seguono leggi di potenza prevedibili. Questa scoperta ha giustificato gli investimenti miliardari nel training di modelli sempre più grandi degli anni successivi.
2. ChatGPT: il momento in cui tutto è cambiato
Nonostante GPT-3 fosse disponibile dal 2020, l'AI generativa restava uno strumento di nicchia per ricercatori e sviluppatori. Il 30 novembre 2022, OpenAI lancia ChatGPT: la prima interfaccia conversazionale su GPT-3.5 accessibile gratuitamente al pubblico. In 5 giorni raggiunge 1 milione di utenti. In 2 mesi, 100 milioni. È il prodotto consumer a crescita più rapida della storia fino a quel momento.
Il successo di ChatGPT non è stato solo tecnologico: è stata una rivoluzione di UX. Interagire con l'AI in linguaggio naturale, come in una chat, ha abbattuto la barriera di accesso che aveva limitato l'AI ai tecnici. Improvvisamente, milioni di persone potevano scrivere codice, analizzare testi, generare contenuti, tradurre documenti senza competenze tecniche.
La risposta del mercato è stata immediata: Google ha lanciato Bard (poi Gemini) in risposta all'emergenza ChatGPT, Microsoft ha investito 10 miliardi in OpenAI e ha integrato l'AI in tutto il portafoglio Office e Bing, Meta ha accelerato il programma open source con LLaMA. Il 2023 è stato l'anno in cui l'AI generativa è diventata un tema da boardroom per ogni azienda del pianeta. Per scegliere il modello giusto per la propria azienda, leggi il confronto ChatGPT vs Claude vs Gemini.
3. Timeline dei modelli principali: 2018-2026
In meno di 10 anni, la capacità dei modelli di linguaggio è cresciuta in modo esponenziale. Ecco i breakthrough principali.
| Anno | Modello | Organizzazione | Breakthrough |
|---|---|---|---|
| 2017 | Transformer | Google Brain | Architettura di base, paper 'Attention Is All You Need' |
| 2018 | GPT-1 | OpenAI | Primo modello generativo large-scale |
| 2020 | GPT-3 (175B) | OpenAI | Emergent capabilities, few-shot learning |
| 2022 | InstructGPT / ChatGPT | OpenAI | RLHF, conversational AI accessibile al pubblico |
| 2023 | GPT-4 | OpenAI | Multimodalità, benchmark professionali superati |
| 2023 | LLaMA / LLaMA 2 | Meta | Open source di qualità, democratizzazione |
| 2023 | Claude 2 | Anthropic | Constitutional AI, ragionamento lungo |
| 2024 | GPT-5.4 | OpenAI | Natively multimodale, voice real-time |
| Lug 2024 | Llama 3.1 405B | Meta | Open source paragonabile a GPT-4 |
| Ott 2024 | Computer Use (Claude 3.5 Sonnet) | Anthropic | Prima AI a controllare un computer come un umano |
| Gen 2025 | DeepSeek R1 | DeepSeek | Reasoning open source, costi 10-20x inferiori a o1 |
| Apr 2025 | Llama 4 Scout / Maverick | Meta | MoE multimodale nativo, contesto fino a 10M token |
| Set 2025 | Claude Sonnet 4.5 | Anthropic | Best coding model, agentic workflows lunghi |
| Feb 2026 | Claude Sonnet 4.6 + Gemini 3.1 Pro | Anthropic / Google | Contesto 1M token, reasoning esteso, agentic nativo |
| Mar 2026 | GPT-5.4 | OpenAI | Computer use nativo, vision full-res, 1M token context |
4. Da AI generativa ad AI agentic: il passo successivo
L'evoluzione del 2025-2026 ha spostato il focus dall'AI generativa (che produce output) all'AI agentic (che esegue task). La differenza è fondamentale: un modello generativo risponde a una domanda, un agente AI porta a completamento un obiettivo attraverso una sequenza di azioni nel mondo reale. Per capire come questa evoluzione impatta la tua azienda oggi, leggi la guida agli agenti AI autonomi nel 2026.
I modelli con capacità di extended thinking (come Claude Sonnet 4.6 con Thinking Mode o o1/o3 di OpenAI) dedicano "tempo di riflessione" prima di rispondere, esplicitando catene di ragionamento passo-passo. Questo approccio produce miglioramenti significativi su problemi di matematica, programmazione e ragionamento logico complesso.
La computer use capability - la capacità dei modelli di controllare un computer, navigare il web e usare software come farebbe un essere umano - è stata dimostrata da Anthropic con Claude e da OpenAI con gli Operator. Apre scenari di automazione completamente nuovi, con agenti AI che eseguono workflow interi senza integrazione via API.
5. Dove siamo diretti: i trend del 2026-2028
Basandosi sull'andamento degli ultimi 3 anni, è possibile identificare le direzioni che orienteranno l'AI generativa nel triennio 2026-2028.
Il primo trend è la convergenza multimodale: i confini tra modelli di testo, immagine, audio e video continueranno a cadere. I modelli del 2028 elaboreranno e genereranno tutti i formati in modo nativo, con qualità video generativa indistinguibile dal girato reale per molti contesti.
Il secondo trend è la miniaturizzazione dei modelli: la ricerca su architetture efficienti (Mixture of Experts, State Space Models come Mamba, quantizzazione avanzata) continuerà a spingere verso modelli più piccoli con qualità equivalente. L'AI edge diventerà mainstream.
Il terzo trend è il ragionamento esteso: modelli come o1, o3 e Claude Extended Thinking mostrano che dedicare più "tempo di calcolo" al ragionamento migliora la qualità. I modelli futuri saranno configuraabili in termini di velocità vs. accuratezza.
Il quarto trend è la personalizzazione e la memoria: i modelli svilupperanno capacità sempre più sofisticate di ricordare le preferenze degli utenti, il contesto delle organizzazioni e gli stili di lavoro individuali. Questo sposterà l'AI da strumento generico a assistente personale specializzato.
Domande frequenti
Qual è la differenza tra GPT-3 e GPT-4?+
GPT-3 (175B parametri, 2020) era il modello che aveva dimostrato le capacità emergenti dei LLM. GPT-4 (2023, dimensioni non dichiarate da OpenAI) ha introdotto capacità multimodali (elabora immagini), performance da top percentile su benchmark professionali (bar exam, LSAT, SAT), window di contesto molto più lunga, e un significativo miglioramento nel ragionamento complesso e nel following di istruzioni. ChatGPT nel 2022 usava GPT-3.5, una versione ottimizzata per il dialogo tramite RLHF.
Cosa significa RLHF e perché è importante per ChatGPT?+
RLHF (Reinforcement Learning from Human Feedback) è la tecnica che ha trasformato GPT-3 in ChatGPT. Dopo il pre-training standard, il modello viene affinato con feedback umano: valutatori umani comparano diverse risposte e indicano quale è migliore. Questo segnale di preferenza viene usato per addestrare un modello di ricompensa che poi guida il fine-tuning via RL. Il risultato è un modello molto più allineato con le aspettative umane: più utile, più sicuro, meno propenso a generare contenuti dannosi.
Chi è Claude e perché Anthropic lo considera più sicuro di ChatGPT?+
Claude è il modello di linguaggio sviluppato da Anthropic, fondata nel 2021 da ex ricercatori di OpenAI (incluso Dario Amodei, ex VP Research di OpenAI). Anthropic usa un approccio chiamato Constitutional AI: il modello è guidato da un insieme di principi (una 'costituzione') durante il training, producendo risposte più coerenti, meno inclini a generare contenuti dannosi e con maggiore capacità di ragionamento etico. Claude Opus 4.7 e Sonnet 4.6 sono i modelli di punta per task che richiedono ragionamento lungo e gestione di documenti complessi (contesto fino a 1 milione di token in beta API).
L'AI generativa raggiungerà l'AGI entro il 2030?+
L'AGI (Artificial General Intelligence, un'AI con capacità cognitive umane generali) è un concetto dibattuto. Sam Altman di OpenAI ha dichiarato di aspettarsi AGI in questo decennio. Yann LeCun (Meta) è più scettico sulla strada dei transformer LLM. Ciò che è certo è che i modelli attuali superano già i professionisti umani su molti task specifici. Per le aziende, la domanda rilevante non è AGI, ma come sfruttare le capacità straordinarie dei modelli già disponibili nel 2026.