{"id":933,"date":"2026-02-12T12:34:40","date_gmt":"2026-02-12T11:34:40","guid":{"rendered":"https:\/\/darioiannascoli.it\/blog\/installare-modello-ai-locale-ollama\/"},"modified":"2026-02-12T12:34:40","modified_gmt":"2026-02-12T11:34:40","slug":"installare-modello-ai-locale-ollama","status":"publish","type":"post","link":"https:\/\/darioiannascoli.it\/blog\/installare-modello-ai-locale-ollama\/","title":{"rendered":"Come Installo e Uso un Modello AI in Locale sul PC con Ollama: La Mia Guida Pratica"},"content":{"rendered":"<p>Negli ultimi mesi ho iniziato a sperimentare seriamente con i <strong>modelli di intelligenza artificiale in locale<\/strong>, e devo dire che la svolta per me \u00e8 arrivata con <strong>Ollama<\/strong>. Se come me lavorate quotidianamente con server, terminali e configurazioni, l&#8217;idea di avere un LLM che gira interamente sul vostro PC \u2014 senza mandare dati a nessun cloud \u2014 \u00e8 semplicemente irresistibile.<\/p>\n<p>Il motivo che mi ha spinto a provare Ollama \u00e8 duplice: da un lato la <strong>privacy<\/strong>, perch\u00e9 come sysadmin gestisco spesso informazioni sensibili di clienti e non voglio che finiscano su server di terze parti; dall&#8217;altro la <strong>velocit\u00e0<\/strong>, perch\u00e9 avere un modello AI locale significa zero latenza di rete e pieno controllo sulle risorse. In questa guida vi mostro passo passo come installare Ollama, scaricare un modello e iniziare a usarlo concretamente, esattamente come ho fatto io sulla mia workstation.<\/p>\n<p>Che vogliate usare l&#8217;AI per generare script, analizzare log, scrivere documentazione o semplicemente sperimentare, questa procedura funziona su <strong>Windows, macOS e Linux<\/strong>. Vi racconto anche le difficolt\u00e0 che ho incontrato e come le ho risolte, perch\u00e9 \u2014 fidatevi \u2014 non \u00e8 stato tutto liscio al primo tentativo.<\/p>\n<h2>Cos&#8217;\u00e8 Ollama e Perch\u00e9 Usare un Modello AI in Locale<\/h2>\n<p><strong>Ollama<\/strong> \u00e8 un tool open source che permette di scaricare, gestire e lanciare modelli di linguaggio (LLM) direttamente sulla propria macchina. Pensatelo come un Docker per i modelli AI: con un singolo comando potete tirare su modelli come <em>Llama 3<\/em>, <em>Mistral<\/em>, <em>Gemma 2<\/em>, <em>Phi-3<\/em>, <em>Qwen 2.5<\/em> e molti altri.<\/p>\n<p>I vantaggi principali che ho riscontrato nella mia esperienza sono:<\/p>\n<ul>\n<li><strong>Privacy totale<\/strong>: i dati non escono mai dal vostro PC<\/li>\n<li><strong>Nessun abbonamento<\/strong>: una volta scaricato il modello, funziona offline<\/li>\n<li><strong>Personalizzazione<\/strong>: potete creare <em>Modelfile<\/em> personalizzati con system prompt specifici<\/li>\n<li><strong>Integrazione via API<\/strong>: Ollama espone un&#8217;API REST locale compatibile con tantissimi tool<\/li>\n<li><strong>Supporto GPU<\/strong>: sfrutta NVIDIA CUDA, AMD ROCm e Apple Metal per accelerazione hardware<\/li>\n<\/ul>\n<h2>Requisiti Hardware e Software Minimi<\/h2>\n<p>Prima di partire con l&#8217;installazione, parliamo di requisiti. Nella mia esperienza, il fattore pi\u00f9 critico \u00e8 la <strong>RAM<\/strong> \u2014 e se avete letto il mio articolo su <a href=\"https:\/\/darioiannascoli.it\/blog\/ram-costosa-analisi-risparmiare-upgrade\/\">perch\u00e9 la RAM \u00e8 cos\u00ec costosa e come risparmiare sull&#8217;upgrade<\/a>, sapete gi\u00e0 quanto questo componente sia fondamentale.<\/p>\n<p>Ecco le specifiche minime che consiglio:<\/p>\n<ul>\n<li><strong>Modelli 7B parametri<\/strong> (Llama 3.1 8B, Mistral 7B): almeno 8 GB di RAM, meglio 16 GB<\/li>\n<li><strong>Modelli 13B parametri<\/strong>: almeno 16 GB di RAM<\/li>\n<li><strong>Modelli 70B parametri<\/strong>: almeno 48-64 GB di RAM (o GPU dedicata con VRAM sufficiente)<\/li>\n<li><strong>GPU consigliata<\/strong>: NVIDIA con almeno 6 GB VRAM per accelerazione CUDA<\/li>\n<li><strong>Spazio disco<\/strong>: dai 4 GB ai 40+ GB a seconda del modello scelto<\/li>\n<li><strong>Sistema operativo<\/strong>: Windows 10\/11, macOS 11+, Linux (Ubuntu, Debian, Fedora, ecc.)<\/li>\n<\/ul>\n<p>Il mio setup di test: una workstation con CPU AMD Ryzen 7, 32 GB di RAM DDR5 e una NVIDIA RTX 3060 12 GB. Con questa configurazione i modelli da 7-8B girano in modo assolutamente fluido.<\/p>\n<h2>Installazione di Ollama su Windows, macOS e Linux<\/h2>\n<h3>Installazione su Linux (la mia scelta preferita)<\/h3>\n<p>Su Linux l&#8217;installazione \u00e8 semplicissima. Ollama fornisce uno script ufficiale che fa tutto in automatico:<\/p>\n<pre><code>curl -fsSL https:\/\/ollama.com\/install.sh | sh<\/code><\/pre>\n<p>Questo comando scarica il binario, lo installa in <code>\/usr\/local\/bin\/<\/code> e configura un servizio <em>systemd<\/em> chiamato <code>ollama<\/code>. Dopo l&#8217;installazione, verificate che il servizio sia attivo:<\/p>\n<pre><code>sudo systemctl status ollama<\/code><\/pre>\n<p>Se tutto \u00e8 andato bene, vedrete lo stato <strong>active (running)<\/strong>. In caso contrario:<\/p>\n<pre><code>sudo systemctl start ollama\nsudo systemctl enable ollama<\/code><\/pre>\n<h3>Installazione su Windows<\/h3>\n<p>Per Windows, scaricate l&#8217;installer direttamente dal sito ufficiale <a href=\"https:\/\/ollama.com\/download\" target=\"_blank\" rel=\"noopener\">ollama.com\/download<\/a>. \u00c8 un classico file <code>.exe<\/code>: doppio click, next, next, finish. Ollama si installa come applicazione di sistema e gira in background nella <em>system tray<\/em>.<\/p>\n<h3>Installazione su macOS<\/h3>\n<p>Su macOS potete usare il pacchetto <code>.dmg<\/code> dal sito ufficiale oppure, se preferite <em>Homebrew<\/em>:<\/p>\n<pre><code>brew install ollama<\/code><\/pre>\n<p>Su Mac con chip Apple Silicon (M1\/M2\/M3\/M4), Ollama sfrutta automaticamente <strong>Metal<\/strong> per l&#8217;accelerazione GPU, e devo dire che le performance sono eccellenti.<\/p>\n<h2>Come Scaricare e Lanciare il Primo Modello AI con Ollama<\/h2>\n<p>Ecco il momento pi\u00f9 bello: scaricare il vostro primo modello. Aprite il terminale e digitate:<\/p>\n<pre><code>ollama pull llama3.1<\/code><\/pre>\n<p>Questo comando scarica <strong>Llama 3.1 8B<\/strong> di Meta, uno dei modelli open source pi\u00f9 performanti attualmente disponibili. Il download pesa circa 4.7 GB nella versione quantizzata Q4_0.<\/p>\n<p>Una volta completato il download, per avviare una conversazione interattiva basta:<\/p>\n<pre><code>ollama run llama3.1<\/code><\/pre>\n<p>Vi troverete davanti a un prompt dove potete digitare qualsiasi domanda o istruzione. Per uscire, digitate <code>\/bye<\/code>.<\/p>\n<h3>I Modelli che Consiglio per Iniziare<\/h3>\n<p>Dopo aver testato diversi modelli, ecco quelli che uso regolarmente nel mio lavoro quotidiano:<\/p>\n<ul>\n<li><strong>llama3.1:8b<\/strong> \u2014 Il miglior rapporto qualit\u00e0\/risorse, ottimo per code generation e analisi<\/li>\n<li><strong>mistral<\/strong> \u2014 Molto veloce, eccellente per task di scrittura e ragionamento<\/li>\n<li><strong>codellama<\/strong> \u2014 Specializzato nel codice, perfetto per generare script Bash, Python, PHP<\/li>\n<li><strong>gemma2:9b<\/strong> \u2014 Il modello di Google, sorprendentemente capace per le sue dimensioni<\/li>\n<li><strong>qwen2.5-coder:7b<\/strong> \u2014 Il mio preferito per la generazione di codice, incredibilmente preciso<\/li>\n<li><strong>phi3:mini<\/strong> \u2014 Leggerissimo, ideale se avete poca RAM<\/li>\n<\/ul>\n<p>Per vedere tutti i modelli disponibili sul vostro sistema:<\/p>\n<pre><code>ollama list<\/code><\/pre>\n<p>E per rimuovere un modello che non usate pi\u00f9 e liberare spazio:<\/p>\n<pre><code>ollama rm nome-modello<\/code><\/pre>\n<h2>Utilizzo Avanzato: API, Modelfile e Integrazione con Altri Tool<\/h2>\n<h3>Usare l&#8217;API REST di Ollama<\/h3>\n<p>Una delle funzionalit\u00e0 che uso di pi\u00f9 \u00e8 l&#8217;<strong>API REST<\/strong> che Ollama espone di default sulla porta <code>11434<\/code>. Questo mi permette di integrare l&#8217;AI nei miei script di automazione. Ecco un esempio con <em>curl<\/em>:<\/p>\n<pre><code>curl http:\/\/localhost:11434\/api\/generate -d '{\n  \"model\": \"llama3.1\",\n  \"prompt\": \"Genera uno script bash per monitorare lo spazio disco e inviare alert via email\",\n  \"stream\": false\n}'<\/code><\/pre>\n<p>La risposta \u00e8 in formato JSON, facilmente parsabile con <code>jq<\/code> o qualsiasi linguaggio di programmazione.<\/p>\n<h3>Creare un Modelfile Personalizzato<\/h3>\n<p>I <strong>Modelfile<\/strong> sono la vera potenza nascosta di Ollama. Vi permettono di creare versioni personalizzate dei modelli con prompt di sistema specifici. Ecco un esempio che ho creato per il mio lavoro da sysadmin:<\/p>\n<pre><code># File: Modelfile-sysadmin\nFROM llama3.1\nSYSTEM \"\"\"\nSei un esperto system administrator Linux specializzato in Plesk, \nNginx, Apache, Postfix e sicurezza server. Rispondi sempre con \ncomandi specifici e testati. Quando dai istruzioni, specifica \nsempre il sistema operativo e la versione del software. \nRispondi in italiano.\n\"\"\"\nPARAMETER temperature 0.3\nPARAMETER num_ctx 4096<\/code><\/pre>\n<p>Per creare il modello personalizzato:<\/p>\n<pre><code>ollama create sysadmin-assistant -f Modelfile-sysadmin<\/code><\/pre>\n<p>E per usarlo:<\/p>\n<pre><code>ollama run sysadmin-assistant<\/code><\/pre>\n<p>Vi assicuro che avere un assistente AI specializzato nel vostro ambito fa una differenza enorme nella qualit\u00e0 delle risposte. Lo uso regolarmente quando devo risolvere problemi complessi, un po&#8217; come quelli che racconto nelle mie guide su <a href=\"https:\/\/darioiannascoli.it\/blog\/configurare-fail2ban-plesk\/\">Fail2Ban su Plesk<\/a> o sulla <a href=\"https:\/\/darioiannascoli.it\/blog\/sicurezza-wordpress-brute-force\/\">sicurezza WordPress contro attacchi brute force<\/a>.<\/p>\n<h3>Interfacce Grafiche per Ollama<\/h3>\n<p>Se il terminale non fa per voi (anche se dovreste imparare ad amarlo!), esistono diverse interfacce grafiche web che si collegano a Ollama:<\/p>\n<ul>\n<li><strong>Open WebUI<\/strong> (ex Ollama WebUI) \u2014 L&#8217;interfaccia pi\u00f9 completa, simile a ChatGPT, installabile via Docker<\/li>\n<li><strong>Chatbox<\/strong> \u2014 App desktop multipiattaforma, molto intuitiva<\/li>\n<li><strong>Jan<\/strong> \u2014 Alternativa elegante con supporto nativo a Ollama<\/li>\n<\/ul>\n<p>Per installare Open WebUI con Docker (il mio consiglio):<\/p>\n<pre><code>docker run -d -p 3000:8080 \n  --add-host=host.docker.internal:host-gateway \n  -v open-webui:\/app\/backend\/data \n  --name open-webui \n  --restart always \n  ghcr.io\/open-webui\/open-webui:main<\/code><\/pre>\n<p>Poi aprite il browser su <code>http:\/\/localhost:3000<\/code> e avrete un&#8217;interfaccia identica a ChatGPT ma completamente locale.<\/p>\n<h2>Problemi Comuni e Come Li Ho Risolti<\/h2>\n<p>All&#8217;inizio non \u00e8 stato tutto rose e fiori. Ecco i problemi che ho incontrato e le soluzioni:<\/p>\n<h3>Il modello \u00e8 lentissimo (solo CPU)<\/h3>\n<p>Se Ollama non rileva la GPU, il modello gira interamente su CPU ed \u00e8 molto lento. Su Linux con NVIDIA, verificate di avere i driver corretti e il CUDA toolkit installato:<\/p>\n<pre><code>nvidia-smi  # verifica che la GPU sia riconosciuta\nollama run llama3.1  # nei log vedrete se usa CUDA<\/code><\/pre>\n<p>Se la GPU non viene rilevata, reinstallate i driver NVIDIA pi\u00f9 recenti e riavviate il servizio Ollama.<\/p>\n<h3>Errore &#8220;out of memory&#8221;<\/h3>\n<p>Questo succede quando il modello \u00e8 troppo grande per la vostra RAM\/VRAM. La soluzione \u00e8 usare versioni quantizzate pi\u00f9 leggere:<\/p>\n<pre><code>ollama pull llama3.1:8b-instruct-q4_0  # versione pi\u00f9 leggera<\/code><\/pre>\n<p>Oppure passare a un modello pi\u00f9 piccolo come <code>phi3:mini<\/code> (3.8B parametri, circa 2.3 GB).<\/p>\n<h3>Ollama non risponde sulla porta 11434<\/h3>\n<p>Controllate che il servizio sia attivo e che non ci siano firewall che bloccano la porta:<\/p>\n<pre><code>sudo systemctl restart ollama\nss -tlnp | grep 11434<\/code><\/pre>\n<h2>Casi d&#8217;Uso Reali nel Mio Lavoro Quotidiano<\/h2>\n<p>Per darvi un&#8217;idea concreta di come uso Ollama nel mio lavoro da system administrator:<\/p>\n<ul>\n<li><strong>Analisi log<\/strong>: copio un blocco di log sospetti e chiedo al modello di identificare pattern di attacco<\/li>\n<li><strong>Generazione script<\/strong>: creo script Bash per automazioni, backup, monitoraggio \u2014 il modello produce codice funzionante che poi verifico<\/li>\n<li><strong>Troubleshooting<\/strong>: quando incontro un errore oscuro, lo sottopongo al modello con tutto il contesto<\/li>\n<li><strong>Documentazione<\/strong>: genero bozze di documentazione tecnica per procedure che ho implementato<\/li>\n<li><strong>Refactoring configurazioni<\/strong>: ottimizzazione di configurazioni Nginx, Apache, Postfix<\/li>\n<\/ul>\n<p>Ad esempio, quando lavoravo alla procedura per <a href=\"https:\/\/darioiannascoli.it\/blog\/configurare-spf-dkim-dmarc-plesk\/\">configurare SPF, DKIM e DMARC su Plesk<\/a>, ho usato il mio modello locale per verificare la sintassi dei record DNS generati \u2014 un aiuto prezioso per evitare errori.<\/p>\n<h2>Aggiornare Ollama e i Modelli<\/h2>\n<p>Ollama \u00e8 un progetto in continua evoluzione. Per aggiornare il tool stesso su Linux:<\/p>\n<pre><code>curl -fsSL https:\/\/ollama.com\/install.sh | sh<\/code><\/pre>\n<p>Lo stesso script rileva la versione esistente e aggiorna automaticamente. Per aggiornare un modello a una versione pi\u00f9 recente:<\/p>\n<pre><code>ollama pull llama3.1  # riscarica l'ultima versione disponibile<\/code><\/pre>\n<p>Vi consiglio di controllare periodicamente il <a href=\"https:\/\/ollama.com\/library\" target=\"_blank\" rel=\"noopener\">catalogo modelli di Ollama<\/a> per scoprire nuovi modelli appena rilasciati.<\/p>\n<h2>FAQ<\/h2>\n<h3>Quanta RAM serve per usare Ollama con un modello AI in locale?<\/h3>\n<p>Per i modelli da <strong>7-8 miliardi di parametri<\/strong> (come Llama 3.1 8B o Mistral 7B) servono almeno 8 GB di RAM, ma consiglio 16 GB per un&#8217;esperienza fluida. Per modelli pi\u00f9 grandi da 13B servono 16-32 GB, mentre per i 70B si parla di 48-64 GB. Se avete una GPU con VRAM dedicata, il modello viene caricato l\u00ec, alleggerendo la RAM di sistema.<\/p>\n<h3>Ollama funziona senza GPU dedicata, solo con la CPU?<\/h3>\n<p>S\u00ec, <strong>Ollama funziona perfettamente anche senza GPU<\/strong>, utilizzando solo la CPU. Le risposte saranno pi\u00f9 lente rispetto all&#8217;accelerazione GPU, ma con modelli piccoli (phi3:mini, gemma2:2b) la velocit\u00e0 \u00e8 comunque accettabile. Su Mac con Apple Silicon le performance sono ottime grazie all&#8217;architettura unified memory.<\/p>\n<h3>I miei dati sono al sicuro usando un modello AI in locale con Ollama?<\/h3>\n<p>Assolutamente s\u00ec. Questa \u00e8 la ragione principale per cui ho scelto Ollama: <strong>tutto gira localmente sul vostro PC<\/strong>. Nessun dato viene inviato a server esterni. Potete persino scollegare Internet dopo aver scaricato il modello e continuer\u00e0 a funzionare perfettamente.<\/p>\n<h3>Posso usare Ollama per programmare e generare codice?<\/h3>\n<p>Certo, ed \u00e8 uno degli usi pi\u00f9 efficaci. Modelli come <strong>codellama<\/strong>, <strong>qwen2.5-coder<\/strong> e lo stesso <strong>llama3.1<\/strong> sono eccellenti nella generazione di codice. Li uso quotidianamente per script Bash, configurazioni Nginx, query SQL e codice Python. Il consiglio \u00e8 di creare un Modelfile dedicato con un system prompt specifico per la programmazione.<\/p>\n<h3>Qual \u00e8 la differenza tra Ollama e ChatGPT?<\/h3>\n<p>La differenza fondamentale \u00e8 che <strong>ChatGPT gira sui server di OpenAI<\/strong> (cloud), mentre Ollama esegue i modelli <strong>direttamente sul vostro hardware<\/strong>. ChatGPT usa modelli proprietari generalmente pi\u00f9 potenti (GPT-4o, o3), ma richiede abbonamento e connessione Internet. Ollama \u00e8 gratuito, offline, privato, ma i modelli open source potrebbero essere meno performanti su task molto complessi.<\/p>\n<h2>Conclusione<\/h2>\n<p>Installare e usare un <strong>modello AI in locale con Ollama<\/strong> \u00e8 stato per me un vero game changer. In pochi minuti avete un assistente intelligente che gira interamente sul vostro PC, senza abbonamenti, senza limiti di utilizzo e con la certezza che i vostri dati restano al sicuro.<\/p>\n<p>La procedura \u00e8 semplice: installate Ollama, scaricate un modello con <code>ollama pull<\/code>, lanciatelo con <code>ollama run<\/code> e siete operativi. Per un utilizzo professionale, vi consiglio di creare Modelfile personalizzati e di esplorare l&#8217;integrazione tramite API REST.<\/p>\n<p>Se siete system administrator come me, vi garantisco che avere un LLM locale diventer\u00e0 parte integrante del vostro workflow. Dalla generazione di script all&#8217;analisi di log, passando per il troubleshooting di configurazioni complesse \u2014 le possibilit\u00e0 sono enormi.<\/p>\n<p>Avete gi\u00e0 provato Ollama o altri strumenti per eseguire AI in locale? Quale modello preferite? Fatemelo sapere nei commenti, sono curioso di confrontare le esperienze!<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Guida pratica per installare Ollama e usare modelli AI in locale sul PC: procedura step-by-step, modelli consigliati e casi d&#8217;uso reali.<\/p>\n","protected":false},"author":1,"featured_media":934,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"Installare Modello AI Locale con Ollama: Guida Pratica","_seopress_titles_desc":"Scopri come installare e usare un modello AI in locale con Ollama sul tuo PC. Guida completa con procedura, modelli consigliati e FAQ. Provalo subito!","_seopress_robots_index":"","footnotes":""},"categories":[128],"tags":[177,174,175,176,173],"class_list":["post-933","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-a-i","tag-ai-offline","tag-intelligenza-artificiale-locale","tag-llm","tag-modelli-ai-open-source","tag-ollama"],"_links":{"self":[{"href":"https:\/\/darioiannascoli.it\/blog\/wp-json\/wp\/v2\/posts\/933","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/darioiannascoli.it\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/darioiannascoli.it\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/darioiannascoli.it\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/darioiannascoli.it\/blog\/wp-json\/wp\/v2\/comments?post=933"}],"version-history":[{"count":0,"href":"https:\/\/darioiannascoli.it\/blog\/wp-json\/wp\/v2\/posts\/933\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/darioiannascoli.it\/blog\/wp-json\/wp\/v2\/media\/934"}],"wp:attachment":[{"href":"https:\/\/darioiannascoli.it\/blog\/wp-json\/wp\/v2\/media?parent=933"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/darioiannascoli.it\/blog\/wp-json\/wp\/v2\/categories?post=933"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/darioiannascoli.it\/blog\/wp-json\/wp\/v2\/tags?post=933"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}