Instaliraj Llama 4 lokalno: Privatni AI na tvom PC-u
Prestani hraniti tuđe servere svojim najdubljim idejama
Marketing ti prodaje ‘AI u oblaku’ kao magiju, ali to je samo tvoj podatak na tuđem hard disku. Ako misliš da je tvoj chat sa GPT-om privatan, varaš se. Svaka tvoja rečenica se ‘žvaće’ i koristi za treniranje modela koje će ti kasnije opet prodati. Prava sloboda ne dolazi kroz pretplatu od 20 dolara mjesečno, već kroz tvoj vlastiti hardver koji bruji ispod stola. Instalacija Llama 4 modela lokalno nije samo ‘geek’ hobi; to je čin digitalnog samoodržanja. Potrebno ti je oko 30 minuta, prava grafička karta i nula tolerancije prema korporativnom nadzoru.
Vjerovatno su ti rekli da je lokalni AI prespor ili prekomplikovan. To je laž. Sa modernim alatima kao što su Ollama ili LM Studio, postavljanje privatnog asistenta je lakše nego podešavanje novog telefona. Ali pazi, ako pokušaš ovo na laptopu iz 2018. godine sa 8GB RAM-a, završićeš sa mašinom koja se pregrijava i sistemom koji se ruši brže nego kula od karata. Ovdje ne pričamo o ‘seamless’ iskustvu, već o sirovoj snazi tvog GPU-a koji vrišti dok generiše tokene u realnom vremenu.
Gvozdena pravila hardvera: Ne pokušavaj ovo bez VRAM-a
Prva stvar koju moraš shvatiti je da AI ne zanima tvoj procesor (CPU) koliko ga zanima video memorija (VRAM). Ako tvoja grafička karta ima manje od 8GB VRAM-a, zaboravi na ozbiljan rad sa Llama 4 modelima pune veličine. Moći ćeš pokrenuti kvantizovane verzije, ali to je kao da pokušavaš voziti kamion sa motorom od kosilice. Don't skip this: Kupovina najskupljeg laptopa nije rješenje ako nemaš namjensku NVIDIA karticu sa CUDA jezgrima. Za najbolje rezultate, ciljaj na 12GB ili 16GB VRAM-a.

Osjetićeš miris vrele elektronike i čuti ventilatore kako se vrte na 3000 obrtaja. To je zvuk slobode. Ako planiraš dugoročno, pročitaj koji je najbolji laptop za lokalni AI u 2026 kako ne bi bacio pare na mašinu koja će se istopiti pri prvom kompleksnom upitu. Ne kupuj ‘gaming’ brendove samo zbog RGB svjetala; gledaj propusnost memorije.
Zašto je kvantizacija tvoj najbolji prijatelj (i neprijatelj)
Kvantizacija je proces smanjivanja težine modela kako bi stao u tvoju memoriju. Zamisli to kao sabijanje 10 litara vode u bocu od 2 litra. Nešto će se proliti. 4-bitna kvantizacija je ‘sweet spot’ za kućne korisnike. Ako odeš niže, tvoj AI će početi da ‘halucinira’ i daje odgovore koji nemaju smisla. Da bi to kontrolisao, moraš znati kako da smanjiš temperature parametar za tačne odgovore. Visoka temperatura znači kreativnost, ali u lokalnom setupu to često znači čist haos.
Instalacija: Slap, Jam and Run
Zaboravi na komplikovane skripte. Prvi korak je preuzimanje Ollame. To je mali servis koji ‘čuči’ u tvom sistemu i upravlja modelima. Kada ga instaliraš, otvori terminal. Nemoj se plašiti crnog ekrana sa bijelim slovima. Ukucaj ollama run llama4 i gledaj kako tvoj internet link ‘vrišti’ dok povlači gigabajte podataka. Ako koristiš Windows, osigurač ti može iskočiti ako ti je PC na istoj fazi sa grijalicom. Moderni GPU-ovi povlače i do 400W u piku.
WARNING: Nikada ne ostavljaj lokalni AI da radi dok si van kuće ako nisi očistio prašinu iz kućišta. Toplota koju generiše LLM tokom dugih sesija može oštetiti termalne padove na tvojoj VRAM memoriji. 120v ili 230v, nebitno je – vatra u kućištu je vatra.
Jednom kada model ‘legne’ na disk, on je tvoj. Nema API ključeva, nema mjesečnog limita, nema cenzure. Možeš ga pitati bilo šta. Ali, da bi taj AI zaista znao tvoje specifične podatke, morat ćeš ubaciti RAG tehnologiju u svoj chatbot. To mu omogućava da čita tvoje PDF-ove i dokumente bez slanja istih na Google servere.
Anatomija katastrofe: Zašto će tvoj prvi pokušaj propasti
Proveo sam 12 sati pokušavajući da pokrenem 70B model na jednoj RTX 3060 kartici. To je čista glupost. Sistem će se ‘zakucati’, miš će prestati da se pomjera, a ekran će postati crn. To je ‘OOM’ – Out of Memory greška. Ako siluješ hardver preko njegovih granica, rizikuješ stabilnost cijelog OS-a. Big mistake. Uvijek počni sa manjim modelima (8B ili 14B) dok ne osjetiš kako tvoja mašina diše. Lokalni AI je maraton, a ne sprint. Ako ti treba nešto za ozbiljnije projekte, razmisli o tome da naučiš Python za AI kako bi sam mogao optimizovati potrošnju resursa.
Da li mi treba internet nakon instalacije?
Ne. To je poenta. Jednom kada su težine modela na tvom disku, možeš isključiti ruter, otići u podrum i AI će i dalje raditi. To je jedini način da budeš siguran da nema curenja informacija. Ako radiš u firmi koja se boji industrijske špijunaže, nauči kako da spriječiš curenje podataka iz open-source modela pravilnim konfigurisanjem firewall-a.
Fizika žaljenja: Zašto tvoj AI ‘zaboravlja’ stvari
Lokalni modeli imaju ograničen ‘context window’. To je kao kratkoročno pamćenje kod ljudi. Ako mu slather-uješ previše teksta odjednom, on će početi da zaboravlja početak razgovora. To se dešava jer VRAM ne može da drži i model i ogromnu istoriju chata istovremeno. Zamisli to kao radni sto – ako je model prevelik, nema mjesta za papire na kojima pišeš. Rješenje je u korišćenju pametnih alata za indeksiranje ili smanjenju preciznosti modela (kvantizacija).
Mike, stari sistem administrator kojeg poznajem godinama, uvijek kaže: ‘Hardver je jeftin, tvoja privatnost je neprocjenjiva.’ On je u pravu. Možda ćeš potrošiti 500 eura na polovnu grafičku kartu, ali ćeš uštedjeti hiljade kroz sigurnost da tvoji poslovni planovi ne završe u nečijoj bazi podataka za analizu tržišta. Uvijek provjeri ko te prisluškuje prije nego što povjeriš AI-u svoje privatne lozinke ili finansijske izvještaje. Čak i lokalno, budi oprezan sa web interfejsima koje instaliraš preko modela.
Završni radovi: Uštimaj mašinu
Kada sve proradi, nemoj samo početi kucati ‘Zdravo’. Podesi sistemski prompt. Reci mu ko je on. Ako želiš da bude tvoj koderski asistent, ‘nahrani’ ga primjerima svog koda. Ali zapamti, lokalni AI zahtijeva održavanje. Prašina je tvoj najveći neprijatelj. Redovno čisti ventilatore jer AI rad opterećuje GPU više nego najnovije video igre. Ako primijetis da odgovori postaju spori, provjeri da li ti neki drugi proces ‘jede’ VRAM u pozadini (gledam u tebe, Chrome).
Instalacija Llama 4 lokalno je tvoj prvi korak ka digitalnoj autonomiji. Nije uvijek ‘flush-mounted’ i savršeno, biće grešaka, biće restartovanja, ali osjećaj kada tvoja mašina odgovori na kompleksno pitanje bez ijednog bajta poslatog u oblak? To je neprocjenjivo. Ne budi samo korisnik, budi vlasnik svog vještačkog uma.
