Lokalni AI na Mac-u: Kako instalirati LLM koji radi bez interneta
Cijena privatnosti: Zašto tvoj Mac vrijedi više nego što misliš
Plaćaš 20 dolara mjesečno OpenAI-u? To je 240 dolara godišnje za privilegiju da tvoji podaci hrane njihove servere. Tvoj Mac, onaj sa M1, M2 ili M3 čipom koji stoji na stolu, ima više sirove snage nego što mu dozvoljavaš da koristi. Ako misliš da ti treba internet za pametan AI, lažu te. Lokalni LLM (Large Language Model) nije samo hir za paranoične hakere; to je alat za majstore koji žele kontrolu. Nema kašnjenja, nema cenzure i, što je najvažnije, nema mjesečnog harača. Uz pravilno podešavanje, tvoja mašina će žvakati tokene brže nego što ti stigneš popiti kafu. AI bezbednost podataka počinje onog trenutka kada isključiš ruter, a tvoj asistent i dalje odgovara na pitanja.
Hardverska realnost: Šta tvoj čip zapravo može?
Prije nego što kreneš čupati kod sa GitHuba, pogledaj istini u oči. Ako imaš 8GB RAM-a, zaboravi na modele od 70 milijardi parametara. Mac koristi Unified Memory Architecture (UMA), što znači da CPU i GPU dijele isti bazen memorije. To je tvoj tajni sos. Dok PC korisnici moraju kupovati skupe grafičke kartice sa 24GB VRAM-a, tvoj Mac vidi tvoj sistemski RAM kao igralište za AI. Ali pazi, ako prepuniš taj bazen, tvoj sistem će početi ‘swapovati’ na SSD. To nije samo sporo; to je recept za preranu smrt tvog diska. Pokretanje lokalnog LLM-a na ograničenom hardveru zahtijeva disciplinu. Nemoj biti lik koji pokušava ugurati motor kamiona u fiću.
Zašto je Unified Memory “sveti gral” za AI?
U klasičnom svijetu, podaci moraju putovati od RAM-a do grafičke kartice preko uskog grla zvanog PCIe sabirnica. Na Macu, podaci stoje na jednom mjestu. GPU ih samo dohvati. To smanjuje latenciju toliko da modeli koji se na Windowsu vuku, na Macu doslovno lete. Zato je Apple Silicon trenutno najbolja platforma za svakog ko želi vlastiti AI model bez trošenja hiljada eura na serversku opremu.
![]()
Alati za posao: Instalacija Ollama-e kroz Terminal
Zaboravi šminkerske aplikacije koje kriju šta se dešava ispod haube. Treba ti Ollama. To je motor koji pokreće tvoje modele bez suvišnog smeća. Otvori Terminal. Nemoj se bojati crnog ekrana; to je tvoja radionica. Kucaj komandu za instalaciju i gledaj kako se magija dešava. Jednom kada je Ollama tu, povlačenje modela poput Llama 3 ili Mistrala je stvar sekundi. Kucaj ollama run llama3. Ako osjetiš da ventilatori počinju vrištati, to je dobar znak. Mašina radi. Ali ne ostavljaj je da se guši; osiguraj protok vazduha. Zeleni IT principi važe i ovdje – efikasan kod troši manje struje i manje grije tvoje koljena.
WARNING: Nikada ne pokreći modele koji zahtijevaju više memorije nego što tvoj Mac ima slobodno. 120v strujni udar te može ubiti, ali ‘memory pressure’ u crvenom će ubiti tvoju produktivnost i možda skratiti vijek trajanja tvojih komponenti zbog ekstremne toplote.
Kvantizacija: Kako ugurati slona u fiću
Evo nauke: AI modeli su teški jer su njihovi ‘tegovi’ (weights) zapisani u visokoj preciznosti. Kvantizacija je proces smanjivanja te preciznosti bez gubitka previše inteligencije. To je kao da pretvaraš 4K video u 1080p da bi ga mogao gledati na telefonu. Model od 4-bita je ‘zlatna sredina’. Dovoljno je pametan da ne pravi gluposti, a dovoljno lagan da stane u tvoj RAM. Ako koristiš sirove modele, tvoj Mac će se zagušiti. Koristi GGUF formate. To je standard koji Mac razumije najbolje. Ako želiš ići korak dalje, istraži fine-tuning na laptopu, ali to je posao za one koji su spremni da im mašina radi danima bez prestanka.
Anatomija katastrofe: Kada se Mac pretvori u grijalicu
Proveo sam 14 sati pokušavajući pokrenuti nepodesen model na MacBook Air-u bez ventilatora. Rezultat? Metalno kućište je postalo toliko vrelo da sam mogao peći jaja na njemu, a sistem se ugasio nakon tri minute. Greška: Nisam ograničio broj niti (threads) koje AI koristi. Ako dozvoliš modelu da uzme svih 8 ili 10 jezgara, sistemu ne ostaje ništa za osnovne procese. Rezultat je totalno smrzavanje. Uvijek ostavi bar dva jezgra slobodna. AI nije igračka; to je težak industrijski proces koji se odvija u mikronima tvog procesora. Ako čuješ čudno ‘cviljenje zavojnica’ (coil whine), smanji zahtjeve. Mašina te moli za milost. Budala forsira dok ne pukne; majstor zna gdje je granica.
Zašto lokalni AI? Bezbednost i brzina
Kada radiš lokalno, tvoji upiti ne idu u Kaliforniju. Ostaju u tvojoj sobi. Možeš pitati AI o povjerljivim ugovorima, analizirati privatne baze podataka ili pisati dnevnik bez straha da će to osvanuti u nekom novom curenju podataka. Brzina je takođe ključna. Nema čekanja u redu jer je ‘server opterećen’. Tvoj server je tvoj Mac. On ti duguje taj rad. Implementacija AI u praksi na ovaj način te uči kako tehnologija stvarno funkcioniše, umjesto da budeš samo još jedan potrošač koji klika gumbe u browseru.
Česta pitanja (PAA)
Da li mi treba internet za rad sa lokalnim AI?
Ne. Internet ti treba samo da preuzmeš model (tešku datoteku od par gigabajta). Jednom kada je na tvom disku, možeš otići u planinu, isključiti Wi-Fi i tvoj AI će i dalje raditi savršeno. To je prava autonomija.
Koji Mac je najbolji za ovo?
Bilo koji Mac sa M-serijom čipa i minimalno 16GB RAM-a je idealan. M2 Max ili M3 Ultra su zveri koje mogu parirati profesionalnim serverima, ali čak i bazični M1 sa dovoljno memorije može pokretati modele od 7 ili 8 milijardi parametara bez problema. RAM je ovdje važniji od samog procesora.
Zašto nikada ne smiješ koristiti ‘default’ postavke
Većina tutorijala ti kaže: ‘Samo klikni install’. To je laž. Ako ne podesiš context window, tvoj AI će ‘zaboraviti’ šta si ga pitao prije pet minuta. Context window troši RAM eksponencijalno. Ako ga postaviš na 32k na mašini od 8GB, srušićeš sistem. Ja sam napravio tu grešku – mislio sam da mogu imati sve. Završilo je tako što sam morao raditi hard reset i izgubio tri sata rada. Postavi ga na 4k ili 8k za početak. Budi skroman sa parametrima dok ne upoznaš narav svoje mašine. AI je kao neobrađen komad drveta; ako siječeš protiv godova, rascjepaće se. Radi sa hardverom, a ne protiv njega.

