Implementacija AI u praksi: Kako pokrenuti lokalni LLM
Prestanite vjerovati u ‘besplatni’ AI: Zašto vam Cloud krade podatke
Vjerujete da je ChatGPT ‘vaš’? Velika zabluda. Onog trenutka kada unesete povjerljivu informaciju u prompt, ona postaje vlasništvo korporacije koja taj model drži u oblaku. Vi ste samo podstanar koji plaća privatnošću. Ako želite potpunu kontrolu, nula cenzure i brzinu koja ne zavisi od vaše internet konekcije, morate prestati biti korisnik i postati domaćin. Instalacija lokalnog LLM-a (Large Language Model) nije rezervisana samo za inženjere iz Silikonske doline. To je projekat za vašu radionicu, vašu sobu i vaš hardver. Vi kontrolišete prekidač. Vi posjedujete model. Vi odlučujete šta je ‘zabranjeno’ a šta nije. Za manje od 150 eura (ako već imate solidnu grafičku kartu), možete imati mozak vještačke inteligencije koji radi na vašem stolu, bez pitanja i bez cenzure.
VRAM je jedina valuta koja vrijedi u svijetu lokalnog AI-a
Zaboravite na RAM vašeg procesora; ovdje pravila diktira video memorija (VRAM). Vaša grafička karta (GPU) je srce ovog sistema, a VRAM je prostor u kojem AI ‘razmišlja’. Ako imate manje od 8GB VRAM-a, bićete ograničeni na male modele koji se često gube u logici. Ciljajte na 12GB ili 16GB ako želite ozbiljan rad. Nvidia je ovdje neprikosnovena zbog CUDA jezgara, dok AMD još uvijek kaska u optimizaciji za AI biblioteke. Nemojte kupovati polovne kartice koje su ‘rudarile’ kriptovalute bez temeljnog testiranja termalnih podloga. Miris spaljene plastike tokom prvog pokretanja Llama-3 modela je jasan znak da ste kupili smeće.
WARNING: Prije nego što pokrenete prvi model, provjerite snagu svog napajanja (PSU). Lokalni LLM-ovi će opteretiti vaš GPU do 100% tokom generisanja odgovora. Ako vaše napajanje nema barem 20% ‘lufta’ iznad maksimalne potrošnje, rizikujete gašenje sistema ili, u najgorem slučaju, topljenje 12VHPWR konektora. 120V ili 230V strujni udar može izazvati srčanu aritmiju ako prčkate po napajanju dok je pod naponom.
Ollama: Švajcarski nož za lokalno pokretanje modela
Ollama je trenutno najbrži način da podignete sistem bez gubljenja vremena na komplikovane Python konfiguracije. To je alat koji ‘pakuje’ modele i servira ih kroz jednostavan interfejs. Instalacija je brza, ali konfiguracija okruženja zahtijeva pažnju. Jednom kada instalirate Ollama-u, povlačenje modela poput Llama-3 ili Mistral-a je stvar jedne komande u terminalu. Čuti ćete kako ventilatori vašeg PC-a počinju da vrište čim model krene u učitavanje. To je zvuk slobode. Ako model ‘halucinira’ ili daje smeće od odgovora, niste dobro podesili parametre temperature ili kontekstnog prozora.

Da li lokalni LLM može raditi bez grafičke karte?
Da, ali to je iskustvo slično gledanju trave kako raste. Korištenje CPU-a za LLM (preko GGUF formata) je moguće, ali brzina generisanja teksta će biti frustrirajuće spora—možda jedna riječ svake dvije sekunde. Za ozbiljnu upotrebu, GPU je obavezan. Ako baš morate koristiti CPU, pobrinite se da imate barem 32GB brzog DDR5 RAM-a kako bi protok podataka bio iole podnošljiv.
Anatomija katastrofe: Zašto vam se sistem ruši (OOM greška)
Najčešći razlog zašto lokalni AI projekti propadaju je OOM (Out of Memory). To se dešava kada pokušate ‘ugurati’ model od 10GB u 8GB VRAM-a. AI ne može raditi u fragmentima; on mora biti učitan u cjelosti ili se osloniti na drastično sporiji ‘offloading’ na sistemski RAM. Kada se to desi, vaš ekran će se vjerovatno zamrznuti na par sekundi, a aplikacija će se samo ugasiti. Rješenje je kvantizacija. Kvantizacija je proces smanjivanja preciznosti modela (npr. sa 16-bit na 4-bit) kako bi zauzeo manje mjesta. Gubitak inteligencije je minimalan, ali ušteda prostora je ogromna. Ne budite tvrdoglavi—4-bitni model koji radi je bolji od 16-bitnog modela koji ruši sistem.
Koji je najbolji model za početnike u 2026. godini?
Kao što smo vidjeli početkom ove godine, Llama-3 8B ostaje zlatni standard za korisnike sa 8GB-12GB VRAM-a. Nudi najbolji balans između brzine i logičkog zaključivanja. Ako imate 24GB VRAM-a (RTX 3090 ili 4090), odmah pređite na modele od 30B ili 70B parametara. Razlika u dubini odgovora je zapanjujuća—osjećaj je kao da prelazite sa razgovora sa djetetom na razgovor sa profesorom.
Nauka o materijalima: Zašto je kvantizacija magija?
Zašto 4-bitna kvantizacija uopšte radi? Zamislite da pokušavate opisati boju neba. Možete koristiti 16-bitnu preciznost i reći ‘nebesko plava sa primesom ljubičaste na 342 nanometra’, ili možete koristiti 4-bitnu i reći ‘svijetlo plava’. Za većinu logičkih zadataka, ‘svijetlo plava’ je sasvim dovoljno da model razumije kontekst i nastavi graditi rečenicu. Ovaj proces smanjuje težinu modela za više od 70%, omogućavajući vam da pokrenete moćne mozgove na hardveru koji košta par stotina eura. To je čista fizika kompresije informacija bez gubitka suštine.
Hardverski hak: Kako uštedjeti na GPU-u
Nemojte kupovati nove RTX 4090 kartice po suludim cijenama ako vam je budžet tanak. Potražite polovne Nvidia Tesla P40 kartice na oglasima. One imaju 24GB VRAM-a i mogu se naći za smiješne novce. Kvaka? Nemaju ventilatore i zahtijevaju modifikovano hlađenje (3D printani adapteri i industrijski ventilatori). Ako ste spremni da se malo zaprljate, napravićete AI server koji će pojesti bilo koji moderni laptop za doručak. Samo se pripremite na buku—ti ventilatori zvuče kao mlazni motor.
Zaključak je jasan: Lokalni AI je jedini siguran AI
Instalacija lokalnog LLM-a nije samo tehnička vježba; to je čin digitalne nezavisnosti. Prvi put kada dobijete odgovor bez cenzure, bez čekanja u redu i bez straha da neko u San Franciscu čita vaše misli, shvatićete zašto je ovaj trud vrijedan. Da, prsti će vam biti prljavi od prašine iz kućišta, možda ćete spržiti jedan osigurač i sigurno ćete izgubiti sate na debugovanju drajvera, ali rezultat je vaša privatna inteligencija. Čupajte kablove iz Clouda. Pokrenite svoj model lokalno. Sada imate moć.

