Se mi segui da un po’, sai che ho sempre preferito avere il controllo diretto sui miei strumenti. Lo faccio con i server, con WordPress, con le configurazioni di rete — e adesso lo faccio anche con l’intelligenza artificiale. Nel 2026, la vera rivoluzione non sono i modelli AI sempre più grandi e costosi: è la possibilità di usare Small Language Model (SLM) open source, specializzati e leggeri, direttamente sul proprio hardware. In questa guida vi mostro come ho sostituito buona parte delle mie dipendenze dai giganti proprietari con modelli locali gestiti tramite Ollama, sfruttando alternative come DeepSeek e IBM Granite.
L’idea di fondo è semplice: perché pagare decine di migliaia di euro al mese in API cloud per task ripetitivi, quando un modello da 3-7 miliardi di parametri, fine-tunato sul mio dominio, gira su un laptop con 16 GB di RAM e produce risultati equivalenti — o migliori — per il mio caso d’uso specifico? È quello che nel settore chiamano il passaggio dalla “size war” alla “efficiency war”, e nel 2026 è il trend dominante per chi lavora davvero con l’AI in produzione.
Se hai già letto il mio articolo su come installare e usare un modello AI in locale con Ollama, questa guida è il passo successivo: qui andiamo più in profondità su quali modelli scegliere, perché gli SLM stanno vincendo in ambito enterprise, e come costruire un workflow AI locale completo.
Perché il 2026 È l’Anno degli Small Language Model Open Source
GlobalData ha definito il 2026 come l’anno dell’“efficienza” nell’AI, con gli SLM che guadagnano rilevanza man mano che le aziende sfruttano l’AI per use case specifici di dominio e settore. Non è solo un’opinione: i numeri parlano chiaro. Secondo le stime di settore, servire un modello da 7 miliardi di parametri costa 10-30 volte meno rispetto a un LLM da 70-175 miliardi, tagliando le spese GPU, cloud ed energia fino al 75%.
Le ragioni di questa migrazione sono tre:
- Privacy e sovranità dei dati: eseguire l’AI localmente o su server privati significa che i dati sensibili non escono mai dalla propria rete. Per un sysadmin come me, che gestisce dati di clienti e configurazioni server, questo è cruciale.
- Costi di inferenza: le aziende che deployano GPT-5 su scala affrontano bollette cloud mensili che superano i 50.000-100.000 dollari per workload modesti. Un SLM locale elimina questa voce di costo.
- Specializzazione: un modello da 3B parametri addestrato su documentazione tecnica supera GPT-4 nelle query specifiche del mio dominio, perché conosce a fondo quel contesto.
Nella mia esperienza quotidiana, per l’80% dei task — generazione di script, analisi di log, riassunti di documentazione, automazione di risposte — un SLM locale funziona perfettamente. Il restante 20% lo gestisco ancora con modelli cloud per task di ragionamento complesso. È l’approccio ibrido che funziona davvero.
Ollama 0.17: Il Cuore del Mio Setup AI Locale nel 2026
Se non conosci Ollama, è lo strumento che ha reso accessibile l’esecuzione di modelli AI in locale a chiunque abbia un PC. La versione 0.17, rilasciata il 22 febbraio 2026, è l’aggiornamento più significativo nella storia del progetto: introduce un nuovo inference engine proprietario che sostituisce la precedente dipendenza dalla modalità server di llama.cpp, con miglioramenti nelle performance fino al 40% più veloce nel prompt processing su certe configurazioni hardware.
Le novità che ho trovato più utili nella mia pratica quotidiana:
- Nuovo motore di inferenza: Ollama ora integra la libreria llama.cpp più direttamente, avvolgendola nel proprio layer di scheduling e gestione memoria. Il risultato è una stabilità nettamente superiore.
- Migliore gestione multi-utente: il nuovo engine permette di servire più utenti o applicazioni contemporaneamente in modo affidabile, essenziale per chi deploya un server di inferenza condiviso in ufficio.
- Supporto GGUF migliorato: importazione di una gamma più ampia di tipi di quantizzazione e conversione semplificata dai formati Safetensors di Hugging Face.
- Ollama Cloud: per i modelli troppo grandi per il mio hardware locale, posso ora eseguirli su infrastruttura remota mantenendo lo stesso workflow CLI locale.
- Web Search API: una nuova API integrata che permette ai modelli di cercare informazioni sul web durante l’inferenza.
NVIDIA stessa ha riconosciuto l’importanza di questo ecosistema: al CES 2026 ha annunciato ottimizzazioni specifiche per llama.cpp e Ollama sulle GPU RTX, con un incremento del throughput fino al 30% su RTX PC per la generazione di token.
Setup base di Ollama 0.17
Se hai già Ollama installato, l’aggiornamento è semplice:
# Aggiornamento su Linux
curl -fsSL https://ollama.com/install.sh | sh
# Verifica versione
ollama --version
# Pull di un modello SLM leggero per iniziare
ollama pull granite4.0:micro
# Test rapido
ollama run granite4.0:micro "Spiega cos'è un reverse proxy in 3 righe"
IBM Granite 4.0: Il Modello Enterprise Open Source Che Mi Ha Sorpreso
Tra tutti gli SLM che ho testato nell’ultimo anno, IBM Granite 4.0 è quello che mi ha colpito di più. I modelli Granite 4.0 sono rilasciati sotto licenza Apache 2.0 — vero open source, non le licenze ambigue di Meta con Llama — e sono i primi modelli open al mondo ad aver ottenuto la certificazione ISO 42001, lo standard internazionale per la gestione responsabile dell’AI.
Ciò che rende Granite 4.0 speciale è l’architettura ibrida Mamba/Transformer. In pratica, i modelli combinano una piccola quantità di layer di attenzione transformer standard con una maggioranza di layer Mamba-2. Il risultato? Oltre il 70% in meno di RAM rispetto a modelli comparabili, mantenendo performance competitive.
La famiglia Granite 4.0 è disponibile in diverse dimensioni:
- Granite-4.0-H-Small: modello mixture-of-experts su architettura ibrida, il più capace
- Granite-4.0-H-Tiny: 7 miliardi di parametri, ottimo bilanciamento
- Granite-4.0-H-Micro: 3 miliardi di parametri, architettura ibrida
- Granite-4.0-Nano: da 350 milioni a 1.5 miliardi di parametri — i varianti da 350M girano tranquillamente su un laptop CPU con 8-16 GB di RAM
Granite 4.0 eccelle particolarmente nei task RAG (Retrieval-Augmented Generation), superando modelli open di dimensioni simili e anche più grandi. Per chi, come me, costruisce sistemi che devono interagire con documentazione tecnica, questa è una caratteristica killer. Inoltre, le performance nell’instruction-following sono leader tra i modelli open, capacità essenziale per i workflow agentici di cui parlo nel mio articolo sull’Agentic AI e i sistemi multi-agente.
Come uso Granite 4.0 con Ollama
# Pull del modello Granite 4.0 Micro (3B) — perfetto per task rapidi
ollama pull granite4.0:micro
# Per task più complessi, il modello Tiny (7B)
ollama pull granite4.0:tiny
# Esempio: generazione di configurazione Nginx
ollama run granite4.0:tiny "Genera un blocco server Nginx per un reverse proxy
con SSL Let's Encrypt per il dominio example.com che punta a localhost:3000"
# Uso via API per integrazione in script
curl http://localhost:11434/api/generate -d '{
"model": "granite4.0:micro",
"prompt": "Analizza questo log di errore Apache e suggerisci la soluzione: [log qui]",
"stream": false
}'
DeepSeek: L’Open Source Cinese che Sta Riscrivendo le Regole
Non posso parlare di modelli AI open source nel 2026 senza menzionare DeepSeek. L’azienda di Hangzhou ha letteralmente scosso il mercato: nel gennaio 2025, il rilascio del modello R1 ha provocato un crollo del 3% del Nasdaq in un solo giorno, dimostrando che si potevano ottenere performance comparabili ai migliori modelli proprietari a una frazione del costo.
Nel febbraio 2026, il settore è in fermento per l’imminente rilascio del nuovo modello DeepSeek. Secondo fonti governative USA, il modello più recente di DeepSeek sarebbe stato addestrato sulle GPU Nvidia Blackwell più avanzate e potrebbe essere rilasciato già la prossima settimana. Parallelamente, a inizio 2026 DeepSeek ha pubblicato un paper tecnico rivoluzionario, co-firmato dal fondatore Liang Wenfeng, che propone un ripensamento dell’architettura fondamentale per l’addestramento dei modelli, permettendo di addestrare modelli più grandi spendendo meno.
Per l’uso locale con Ollama, DeepSeek offre già modelli eccellenti:
# DeepSeek R1 distillato - versione leggera per ragionamento
ollama pull deepseek-r1:1.5b
ollama pull deepseek-r1:7b
# DeepSeek V3.1 Terminus - supporta modalità thinking e non-thinking
ollama pull deepseek-v3.1-terminus
# Test di ragionamento
ollama run deepseek-r1:7b "Dato un server con 32GB RAM e 4 siti WordPress,
calcola la configurazione ottimale di PHP-FPM pool per ogni sito"
Un aspetto che apprezzo dei modelli DeepSeek distillati è la loro efficienza nel ragionamento a catena (chain-of-thought). Per task come il debugging di configurazioni server o l’analisi di problemi di performance, la versione 7B distillata produce risultati che spesso rivalizzano con modelli 10 volte più grandi. Ho approfondito questi temi anche nell’articolo sulle novità AI di fine febbraio 2026.
Il Mio Workflow Quotidiano con SLM Locali
Dopo mesi di sperimentazione, ho costruito un workflow che combina diversi modelli specializzati. Ecco come li uso nella pratica quotidiana da sysadmin:
1. Analisi log e troubleshooting (Granite 4.0 Micro)
Per analizzare rapidamente i log di errore dei server che gestisco, uso Granite 4.0 Micro. È velocissimo, gira su CPU, e per task strutturati come l’analisi di pattern nei log è più che sufficiente:
# Script bash per analisi log automatica
#!/bin/bash
LOG_EXCERPT=$(tail -100 /var/log/nginx/error.log)
ollama run granite4.0:micro "Analizza questi errori Nginx,
identifica i pattern ricorrenti e suggerisci soluzioni: $LOG_EXCERPT"
2. Generazione di codice e script (DeepSeek R1 7B)
Per generare script Bash, configurazioni Nginx, regole Fail2Ban o query SQL, uso DeepSeek R1 7B. Il ragionamento step-by-step produce codice più affidabile. Ho descritto workflow simili nel mio articolo su come automatizzare le attività ripetitive con AI locale.
3. Documentazione e riassunti (Granite 4.0 Tiny)
Per riassumere documentazione tecnica, changelog di aggiornamenti, o generare bozze di articoli, Granite 4.0 Tiny con la sua eccellente capacità di instruction-following è la mia scelta. Se ti interessa l’argomento, ho anche parlato di strumenti AI per studiare e riassumere documenti tecnici.
4. Task complessi e ragionamento multi-step (Cloud fallback)
Per i task che richiedono ragionamento complesso su domini ampi, uso ancora modelli cloud. La chiave è il pattern a cascata: le query semplici vanno al modello locale da pochi centesimi, e solo i task complessi vengono escalati al modello costoso. Ho confrontato i principali chatbot AI nella mia guida ai migliori chatbot AI gratuiti del 2026.
GUI e Client per Ollama: Le Migliori Opzioni nel 2026
Non tutti preferiscono lavorare da terminale. Ecco i client che ho testato per interfacciarsi con Ollama:
- Open WebUI: interfaccia web self-hosted, perfetta per team. Supporta multi-utente, estensioni e workflow. La uso per condividere l’accesso ai modelli con i colleghi.
- LM Studio: client desktop con gestione modelli integrata. Ottimo per chi vuole un’esperienza plug-and-play.
- AnythingLLM: ideale per costruire workflow RAG leggeri con inferenza locale. Lo uso per interrogare la documentazione tecnica dei miei progetti.
Considerazioni Hardware: Quanto Serve Davvero?
Una delle domande che mi fanno più spesso è: “che hardware mi serve per far girare questi modelli?” La risposta nel 2026 è sorprendente: molto meno di quello che pensi.
I modelli Granite 4.0 Nano da 350M parametri girano tranquillamente su un laptop moderno con CPU e 8-16 GB di RAM. Per i modelli da 1-3B parametri serve una GPU con almeno 6-8 GB di VRAM, oppure sufficiente RAM di sistema per l’inferenza su CPU. I modelli da 7B quantizzati a 4 bit richiedono circa 4-6 GB di VRAM.
Se stai pensando di aggiornare il tuo hardware, ho scritto una guida su come scegliere il PC giusto per lavoro e studio nel 2026 che copre anche i requisiti per l’AI locale. E se il costo della RAM ti preoccupa, dai un’occhiata alla mia analisi sulla crisi DRAM e come risparmiare.
Fine-Tuning e Specializzazione: Il Vero Vantaggio Competitivo
Il punto di forza degli SLM non è solo il costo ridotto: è la possibilità di specializzarli. Le tecniche principali che uso:
- Knowledge Distillation: un modello grande (“Teacher”) addestra l’SLM (“Student”) a replicare la sua logica, trasferendo l’intelligenza senza il peso. DeepSeek stessa utilizza ampiamente questa tecnica.
- Fine-tuning con LoRA: adatto per adattare un modello base al tuo dominio specifico con costi di training minimi. Con una singola GPU è possibile fine-tunare modelli nella fascia 3-7B parametri.
- Quantizzazione: ridurre i pesi del modello da 32-bit a 4-bit o 8-bit permette di eseguire modelli su hardware consumer con perdita di performance quasi nulla.
- RAG (Retrieval-Augmented Generation): invece di fine-tunare, alimenta il modello con contesto recuperato da un database vettoriale. Granite 4.0 eccelle specificamente in questo.
Sicurezza e Privacy: Perché l’AI Locale È una Scelta Strategica
Come sysadmin, la sicurezza è sempre la mia priorità. Eseguire modelli AI localmente offre vantaggi concreti:
- Digital Air Gap: i dati non lasciano mai la rete locale. Nessun rischio di data leakage verso provider cloud.
- Conformità normativa: con l’AI Act europeo sempre più stringente, avere il controllo completo sul modello e sui dati è un vantaggio competitivo.
- Trasparenza: i modelli Apache 2.0 come Granite sono completamente ispezionabili. Sai esattamente su cosa sono stati addestrati.
Ollama stesso ha introdotto un’impostazione che permette di disabilitare i modelli cloud per task sensibili dove i dati non devono lasciare il computer. Questo è il tipo di controllo granulare che apprezzo.
FAQ
Gli Small Language Model possono davvero sostituire GPT-4 o GPT-5 per il lavoro quotidiano?
Per l’80-90% dei task enterprise ad alto volume — come analisi di log, generazione di codice, customer support, estrazione dati — sì. Gli SLM fine-tunati sul dominio specifico spesso eguagliano o superano i modelli giganti per quelle specifiche attività. Per ragionamento complesso multi-dominio o conoscenza generale molto ampia, i modelli grandi restano superiori. L’approccio vincente è ibrido: SLM per i task di routine, LLM per i casi edge.
Quanta RAM e che GPU servono per far girare un modello con Ollama nel 2026?
Dipende dalla dimensione del modello. I Granite 4.0 Nano da 350M girano su CPU con 8 GB di RAM. Per modelli da 3B servono 6-8 GB di VRAM o RAM equivalente. Un modello 7B quantizzato a 4 bit richiede circa 4-6 GB di VRAM. Una GPU NVIDIA RTX 3060 con 12 GB è più che sufficiente per la maggior parte degli SLM.
Qual è la differenza tra DeepSeek, Granite e gli altri modelli open source?
DeepSeek eccelle nel ragionamento a catena (chain-of-thought) ed è particolarmente forte nel coding e nella matematica. IBM Granite 4.0 è ottimizzato per l’efficienza enterprise, con architettura ibrida Mamba/Transformer che riduce drasticamente l’uso di RAM, ed è il migliore per task RAG e instruction-following. Altri come Phi-4 di Microsoft brillano nel ragionamento matematico, mentre Gemma di Google è forte nel multilinguismo. La scelta dipende dal tuo use case specifico.
Ollama è sicuro da usare in ambito aziendale?
Sì, purché configurato correttamente. Ollama esegue tutto localmente, i dati non escono dalla macchina. La versione 0.17 ha migliorato scheduling e gestione memoria per ambienti multi-utente. Puoi disabilitare i modelli cloud per i task sensibili. Per un livello aggiuntivo di sicurezza, esegui Ollama dietro un reverse proxy con autenticazione — ne ho parlato nella mia guida al reverse proxy Nginx.
Come inizio se non ho mai usato modelli AI in locale?
Il percorso più semplice: installa Ollama (un comando su Linux, un installer su Windows/Mac), fai il pull di un modello leggero come granite4.0:micro o deepseek-r1:1.5b, e inizia a sperimentare dal terminale. Ho scritto una guida passo-passo per installare il primo modello AI locale con Ollama che ti accompagna in tutto il processo. Una volta presa confidenza, puoi passare a modelli più grandi e workflow più complessi.
Conclusione: Gli Small Language Model Open Source Sono il Futuro Pratico dell’AI
Nel 2026, il trend è chiaro: le aziende più intelligenti non si chiedono “quanto grande possiamo andare?” ma “quanto piccolo ed efficiente possiamo essere?”. Gli Small Language Model open source come IBM Granite 4.0 e DeepSeek, eseguiti localmente tramite Ollama, rappresentano un cambio di paradigma concreto per chi lavora con l’AI ogni giorno.
Nella mia esperienza di sysadmin, il passaggio a modelli locali specializzati ha ridotto i costi, migliorato la privacy, e — sorprendentemente — anche la qualità dei risultati per i task specifici del mio dominio. Non è più una questione di sperimentazione: è una strategia di produzione matura.
Se stai ancora pagando API cloud per task che un modello da 3B parametri potrebbe gestire sul tuo laptop, è il momento di riconsiderare. Installa Ollama, scarica un Granite Micro o un DeepSeek R1 distillato, e inizia a testare. Potresti sorprenderti dei risultati.
Hai già provato gli SLM nel tuo workflow? Quale modello preferisci? Scrivimelo nei commenti — sono curioso di sapere come li usate nella pratica.