Instaliraj Open Source AI modele na svoj disk besplatno
Plaćate 40 KM mjesečno za ChatGPT Plus? To je 480 KM godišnje koje bacate u vjetar dok vaš moćni GPU u kućištu samo skuplja prašinu i grije sobu dok igrate igrice. Istina je surova: za cijenu dvije godine pretplate na zatvorene sisteme, možete imati vlastiti AI server koji vas ne prisluškuje, ne cenzuriše vaše upite i radi bez interneta. Ako imate grafičku kartu sa barem 8GB VRAM-a, posjedujete digitalnu rafineriju nafte, a da toga niste ni svjesni. U ovom tekstu ćemo pregaziti mitove o komplikovanoj instalaciji i natjerati vaš hardver da zapravo radi za vas.
VRAM je jedina valuta koja se računa u svijetu lokalnih modela
Kada pokrenete lokalni LLM (Large Language Model), prva stvar koju ćete čuti je zujanje ventilatora na grafičkoj karti. To je zvuk pobjede. Za razliku od običnog softvera, AI modeli žive i umiru u vašoj video memoriji (VRAM). Ako pokušate ugurati model od 13 milijardi parametara u karticu od 4GB, dobićete samo sistemski krah i miris zagrijane plastike. Pravilo palca: Model od 7B (milijardi) parametara u 4-bitnoj kvantizaciji zahtijeva oko 5GB slobodnog VRAM-a. Sve ispod toga će vas natjerati da koristite sistemski RAM, što je sporo kao puž na bensedinu. Osjetićete tu razliku u brzini – dok VRAM izbacuje tokene brzinom govora, RAM ih ‘pljuje’ jedan po jedan, tjerajući vas da čekate vječnost na običan odgovor.
Zašto nikada ne smijete koristiti ‘Default’ instalacije sa YouTube-a
Većina tutorijala će vam reći da samo skinete ‘svu potrebnu biblioteku’. To je najbrži put do uništenja vašeg Windows okruženja. Python verzije će se poklati, driveri će vrištati, a vi ćete završiti sa formatiranjem diska. Umjesto toga, koristimo izolaciju. Alat kao što je Ollama ili LM Studio radi sav prljavi posao umjesto vas, pakujući sve zavisnosti u jedan kontejner koji ne prlja ostatak sistema. Zamislite to kao hermetički zatvorenu laboratoriju unutar vašeg računara. 
Anatomija promašaja: Zašto vaš lokalni AI ‘halucinira’ više od komšije nakon slave
Najveća greška početnika je odabir pogrešne kvantizacije. Kvantizacija je proces sabijanja modela. Ako previše ‘stisnete’ model (npr. na 2-bit), on postaje digitalni idiot. Izgubiće sposobnost logičkog zaključivanja i počeće vam lupetati gluposti o kuhanju kafe dok ga pitate za Python kod. Ja sam proveo 14 sati testirajući Llama 3 modele i zaključak je jasan: Q4_K_M je ‘zlatna sredina’. Sve ispod toga je kockanje sa preciznošću. Ako vidite da model počinje ponavljati istu riječ deset puta, čestitam – upravo ste svjedočili kolapsu neuronske mreže zbog nedostatka memorijskog prostora.
Ollama vs LM Studio: Bitka u vašem terminalu
Ollama je za one koji vole da stvari rade odmah, bez klikanja po šarenim menijima. Instalacija je brza, ‘jamnete’ komandu u terminal i model se skida. S druge strane, LM Studio je za vizuelne tipove koji žele da prate temperature i potrošnju memorije u realnom vremenu. Oba alata su besplatna, ali Ollama troši manje resursa u pozadini. Pripazite, LM Studio zna ‘pojesti’ procesor ako ostavite više modela učitanih odjednom.
CRVENO UPOZORENJE: Lokalno pokretanje AI modela maksimalno opterećuje vašu napojnu jedinicu (PSU). Ako imate jeftino napajanje ‘no-name’ brenda, rizikujete požar ili pregorijevanje matične ploče. 120v ili 220v šokovi nisu šala, a transformatori na GPU-u se mogu ozbiljno usijati tokom dugih sesija generisanja koda. Osigurajte protok vazduha.
Nauka o materijalima: Zašto je Wood (Llama) jači od gvožđa (GPT-3.5)
Mnogi pitaju kako model od 5GB može biti pametniji od ChatGPT-a koji zauzima terabajte. Odgovor leži u ‘fine-tuningu’. Lokalni modeli su kao specijalizovani alati – nisu dobri u svemu, ali su hirurški precizni u onome za šta su obučeni. Open Source modeli kao što je Mistral ili Dolphin-Llama su trenirani da ignorišu ‘etičke kočnice’ koje korporacije nameću, što znači da će vam zapravo pomoći da riješite problem bez predavanja o moralu.
Kako provjeriti da li vaš sistem laže o performansama
Kada instalirate model, nemojte mu vjerovati na prvu. Koristite ‘tokens per second’ (t/s) metriku. Sve iznad 10 t/s je upotrebljivo za čitanje. Ako dobijate 2 t/s, nešto nije u redu sa vašim CUDA jezgrima. Provjerite da li ste instalirali najnovije NVIDIA drivere. Bez njih, vaša skupa karta je samo običan komad silicijuma koji ne zna da komunicira sa AI-om. Jednom sam zaboravio ažurirati toolkit i sistem je mislio da koristim integrisanu grafičku iz 2012. godine. Rezultat? Tri minuta za rečenicu ‘Zdravo, kako si?’. Bruka.
Da li mi stvarno treba lokalni AI 2026. godine?
Kratko i jasno: Da. Privatnost je postala luksuz. Svaki upit koji pošaljete na OpenAI servere ostaje tamo zauvijek. Ako radite na povjerljivim projektima, lokalni disk je jedino sigurno mjesto. Sigurno korištenje modela podrazumijeva da podaci ne napuštaju vašu matičnu ploču. Uzmite u obzir i troškove – jednom kad kupite hardver, struja je jedini trošak. A u Bosni je struja još uvijek jeftinija od pretplate na AI asistente koji vas cenzurišu. Slather-ujte te modele na svoj disk, ne budite stidljivi, hardver je tu da se troši, a ne da sakuplja prašinu.

