Spor AI model? Ovako prati performance u realnom vremenu
Stop vjerovati marketinškim bajkama da AI ‘jednostavno radi’. Ako tvoj lokalni model odgovara brzinom ranjenog puža, problem nije u ‘duši’ mašine, nego u tvojoj nesposobnosti da izmjeriš gdje ti curi VRAM. Ti bacaš sate života čekajući na jedan pasus teksta, a tvoja grafička kartica se vjerovatno guši u loše optimizovanom kodu. Ako želiš rezultate, moraš prestati nagađati i početi mjeriti.
Zašto ti se LLM vuče kao puž (Dijagnoza haosa)
Latencija modela nije magija, to je čista matematika koja udara u zid hardvera. Svaki put kad tvoj model ‘razmišlja’, on zapravo prebacuje gigabajte podataka kroz memorijsku magistralu koja vrišti pod pritiskom. Ako ne pratiš TTFT (Time To First Token), ti si slijep kod očiju. Osjetit ćeš to – tvoj ventilator na procesoru će početi da zvuči kao mlazni motor, a soba će početi mirisati na ugrijanu elektroniku. To je znak da si preopteretio sistem. Prva stvar koju moraš provjeriti je koliko tvoj model zapravo ‘troši’ po sekundi. Ako koristiš beam search algoritam za generisanje, računaj na to da tvoja potrošnja resursa raste eksponencijalno. To je cijena kvaliteta, ali ako nemaš uvid u realno vrijeme, tvoj server će se jednostavno zakucati. Zaboravi na ‘osjećaj’, instaliraj alate koji pokazuju sirove brojeve.
Hardverski zid: Kad VRAM kaže ‘dosta’
VRAM je tvoj najskuplji resurs i on ne oprašta greške u procjeni. Mnogi misle da je dovoljno imati ‘jaku grafičku’, ali ako tvoj model zahtijeva 12GB, a ti imaš 8GB, tvoj sistem će početi ‘swapovati’ podatke na spori RAM ili, još gore, na SSD. Rezultat? Model koji je radio 20 puta sporije nego što bi trebao.
Da bi ovo spriječio, moraš pratiti ‘Memory Pressure’ u realnom vremenu. Koristi alate kao što su NVIDIA-SMI ili specijalizovane dashboarde za AI agente. Ako planiraš pokrenuti lokalni LLM na starom laptopu, monitoring je jedini način da preživiš bez požara na matičnoj ploči.
UPOZORENJE: Ne forsiraj overklokovanje GPU-a bez aktivnog praćenja senzora temperature. 120°C na memorijskim modulima znači trajnu štetu na kartici od 1000 eura. Testiraj multimetrom ako nisi siguran u softverska očitavanja.
Softverski alati za ‘špijuniranje’ modela
Prometheus i Grafana nisu više samo za IT administratore; oni su tvoj digitalni stetoskop. Moraš podesiti ‘exportere’ koji izvlače podatke direktno iz tvojih Python skripti. Svaki put kad se izvrši jedna aktivacijska funkcija u neuronu, to ostavlja trag. Prati ‘Inference Latency’. Ako vidiš nagle skokove, to obično znači da tvoj ‘Garbage Collector’ u Pythonu ne radi svoj posao ili da ti je memorija fragmentirana. Don't buy it. Nemoj misliti da će se problem sam riješiti restartom. Moraš znati tačno koji ‘layer’ modela uzrokuje zastoj. Da li je to ‘Attention mechanism’ koji se zaglavio u predugom kontekstu? Mjeri.
Da li moj stari laptop može pratiti AI?
Može, ali samo ako si spreman na kompromise i rigorozan monitoring. Ako vidiš da ti ‘usage’ procesora stoji na 100% duže od 30 sekundi, tvoj sistem je u ‘thermal throttling’ režimu. Smanji ‘context window’ odmah.
Koji je najbolji alat za besplatni monitoring?
WandB (Weights & Biases) je standard za istraživače, ali za kućne majstore, ‘htop’ i ‘nvidia-smi’ u terminalu su sasvim dovoljni ako znaš šta gledaš. Prati ‘Power Draw’ – ako tvoja karta troši maksimalnu deklarisanu snagu, a performanse padaju, hladi je bolje.
Anatomija jednog ‘zasranog’ upita
Nisu svi upiti isti. Neki će proći kroz model kao kroz sir, dok će drugi izazvati ‘hallucination spike’ i usporiti sve. Ovo se dešava kada model uđe u petlju ili kada je ‘temperature’ parametar postavljen previsoko, tjerajući model da pretražuje preširok prostor vjerovatnoće. Ako tvoj dashboard pokazuje da se broj tokena po sekundi (TPS) smanjuje dok upit odmiče, tvoj model se gubi. Možda ti treba brzi grid search da pronađeš idealne parametre umjesto da nagađaš. Loše podešen model troši više struje, a u svijetu gdje je zeleni IT postao standard, to je čisto rasipništvo i amaterizam.
The Anatomy of a Screw-Up: Ignorisanje kvantizacije
Najveća greška koju možeš napraviti je pokušaj pokretanja FP16 modela na hardveru koji je jedva sposoban za 4-bitnu kvantizaciju. Desit će se ovo: model će se učitati, tvoj monitor će zatreperiti, i onda će sve stati. To je ‘OOM’ (Out Of Memory) greška koja se pretvara u totalni sistemski krah. Proveo sam 4 sata pokušavajući shvatiti zašto mi se skripta ruši, samo da bih shvatio da je jedan skriveni proces ‘pojeo’ 200MB VRAM-a koji su bili presudni. Ako ne pratiš confusion matrix i osnovne metrike tacnosti dok optimizuješ brzinu, dobićeš brz model koji daje glupe odgovore. Brzina bez tačnosti je beskorisna.
Zašto ovo radi: Fizika memorijskog propusnog opsega
PVA ljepilo drži drvo jer ulazi u pore, a AI model radi brzo samo ako podaci ulaze u procesor bez čekanja u redu. Memorijski propusni opseg (Memory Bandwidth) je usko grlo. Zamisli to kao cijev za vodu – ako je cijev uska, nebitno je koliko je tvoja pumpa (GPU) jaka. Kada kvantizuješ model na 4 bita, ti zapravo smanjuješ količinu vode koju trebaš pumpati, što omogućava tvojoj pumpi da radi punim kapacitetom. Zato 4-bitni modeli često rade ‘glatkije’ na kućnom hardveru nego njihove veće verzije.
Podesi agente i prati performance (DIY Protokol)
Ako koristiš više AI agenata istovremeno, monitoring postaje kritičan. Svaki agent je dodatni procesor resursa. Da bi znao kako se prati AI model performance u kompleksnim sistemima, moraš implementirati ‘logging’ na nivou svakog API poziva. Koristi Docker kontejnere sa ograničenim resursima. Tako ćeš spriječiti da jedan ‘pobješnjeli’ agent sruši cijeli server. Scrappy rješenje? Stari tablet zalijepljen na kućište koji stalno vrti Grafana dashboard. To nije samo šminka, to je tvoj radarski sistem. Nemoj čekati da ti se laptop ugasi od toplote. Reaguj dok su brojevi u zelenom.

