Podesi AI agente: Kako se prati AI model performance [DIY]
Prestanite vjerovati marketinškim bajkama o ‘pametnim’ sistemima
Prestanite kupovati ‘ključ u ruke’ AI rješenja koja obećavaju da će raditi vječno bez nadzora. To je marketinška laž koja će vam uništiti server ili isprazniti novčanik za tri sedmice. Ako ne pratite drift i latenciju svog lokalnog LLM-a, vaš AI agent će postati digitalno povrće prije nego što primijetite da nešto ne valja. Vi morate vidjeti unutrašnjost tog koda, osjetiti kako se RAM grije i znati tačno kada vaš model počne halucinirati smeće umjesto koda. Ovaj vodič vam daje to znanje besplatno, pod uslovom da znate kako otvoriti terminal a da ne spržite procesor. Treba vam sistem koji je flush-mounted uz vašu infrastrukturu, a ne neka napuhana pretplata koja vam ne govori ništa.

Zašto vaš AI agent ‘glupi’ (Fizika entropije podataka)
U svijetu DIY elektronike, znamo da se spojevi kvare zbog oksidacije. U AI svijetu, kvare se zbog ‘model drifta’. To nije magija, to je čista statistika. Masinsko učenje funkcioniše na bazi težina i pristrasnosti koje su fiksirane u trenutku treniranja. Ali svijet se mijenja. Podaci koje vaš agent dobija danas nisu isti kao oni od prije šest mjeseci. Zašto to radi? Kada se distribucija ulaznih podataka pomjeri, neuroni u modelu počnu aktivirati pogrešne putanje. To je kao da pokušavate koristiti metrički ključ na inčnim šarafima – tehnički ‘hvata’, ali ćete na kraju samo oguliti glavu šarafa. Vaša preciznost će pasti sa 95% na 60% dok vi spavate.
WARNING: Nikada ne ostavljajte AI agenta da samostalno piše po sistemskim fajlovima bez monitoringa latencije. Ako model ‘zapne’ u beskonačnoj petlji zbog spore inferencije, vaš SSD će biti spržen od nasumičnih upisa u logove. 120v struje u serveru nije igra, ali toplota koju generiše procesor pod 100% loadom bez nadzora je gora.
Alatnica: Šta vam zapravo treba (Bez bacanja para)
Zaboravite na skupe dashboarde. Treba vam nešto što možete nabudžiti na starom laptopu. Lokalni LLM zahtijeva specifičan alat. Prvo, instalirajte Prometheus. On je vaš digitalni multimetar. Drugo, Grafana za vizualizaciju. Ali nemojte samo instalirati ‘default’. Morate podesiti scrape interval na 15 sekundi. Ako je duže, propustit ćete ‘spikeove’ u potrošnji memorije koji ukazuju na curenje context windowa. Vršci vaših prstiju trebaju osjetiti vibraciju ventilatora kada inferencija krene – to je najbolji analogni monitoring koji postoji.
Anatomija katastrofe: Dan kada je moj agent ‘poludio’
Opisaću vam tačno kako izgleda fijasko kada preskočite confusion matrix provjeru. Prošle godine sam pustio agenta da sortira korisničke upite. Radio je tri dana savršeno. Četvrti dan, latencija je skočila sa 200ms na 4 sekunde. Pošto nisam imao monitoring, nisam vidio da je model ušao u mod ‘beam search’ pretrage koji je trošio 4x više resursa nego što je predviđeno. Rezultat? Račun za struju je skočio, a korisnici su dobijali odgovore koji su ličili na mješavinu kuharskog recepta i uputstva za kočnice. Ako ne mjerite ‘tokens per second’ (TPS), vi zapravo ne upravljate mašinom – ona upravlja vama. To je bila bolna lekcija od 300 eura bačenih u vjetar.
Zašto je ‘Beam Search’ ključan za monitoring kvaliteta
Mnogi misle da je samo bitno da model ‘izbaci’ tekst. Greška. Beam search određuje koliko duboko model kopa po vjerovatnoći riječi. Ako pratite ‘log-probs’ vašeg modela, možete vidjeti koliko je on siguran u ono što piše. Ako ‘confidence score’ padne ispod 0.7, vaš dashboard treba da vrišti crveno. To je kao da provjeravate nivo ulja – možete voziti i bez toga, ali kad motor zakuca, kasno je za popravku. Slather the logs on thick – nemojte se štedjeti na prikupljanju podataka o vjerovatnoći.
Da li monitoring usporava rad modela?
Ne, ako to radite pametno. Monitoring troši manje od 1% CPU resursa ako koristite asinhrono logovanje. Ako pokušate logovati svaki neuron direktno u bazu usred inferencije, zakucat ćete sistem. Ne budite amateri. Koristite buffer. Big mistake je pisati svaki log na disk odmah. To ubija IOPS.
Podesite ‘Threshold’ ili patite
Kao što zeleni IT nalaže, efikasnost je sve. Podesite alarme na tri nivoa: 1. Latencija iznad 2 sekunde (Upozorenje), 2. Upotreba VRAM-a iznad 90% (Kritično), 3. Tačnost ispod 80% (Gasi sve). Ne čekajte da vam klijent javi da AI priča gluposti. Junk in, junk out. Scrape-ajte te podatke, analizirajte ih i čupajte kablove ako performanse padnu. DIY monitoring nije hobi, to je higijena u svijetu gdje algoritmi propadaju brže od jeftine farbe na kiši.
Koji je najbolji alat za početnike u 2026?
Prometheus i Grafana ostaju zlatni standard, ali za one koji žele nešto ‘scrappy’, obična Python skripta koja prati ‘time.time()’ oko vašeg inferencijskog poziva i piše u CSV je bolja od ničega. Počnite od toga. Izmjerite koliko sekundi treba za jedan odgovor. Ako to ne znate, vi niste majstor, vi ste samo putnik.

