Pokreni svoj AI model: Deployment na server u 3 koraka
Računica koja boli: Cloud vs. Tvoj server
Iznajmljivanje GPU snage na Cloudu košta i do 5 dolara po satu za ozbiljne modele. Za godinu dana, to je 43.000 dolara. Vi taj isti model možete vrtiti na svom hardveru za cijenu struje i jedan polovni server iz 2022. godine. Razlika je u znanju, a ne u dubini džepa. Ako želite izbjeći bankrot, morate naučiti kako da preuzmete kontrolu nad infrastrukturom. Prestanite plaćati porez na neznanje velikim korporacijama.
Zašto ti treba Docker (a ne obični Python venv)
Zaboravite na ‘radilo je na mom laptopu’. To je rečenica koja ubija projekte. U workshopu ne ostavljate alat razbacan, pa tako ni u kodu. Docker je tvoj digitalni kontejner koji osigurava da tvoj AI model ima tačno ono što mu treba, bez obzira na to koji OS tvoj server koristi. Zamisli to kao hermetički zatvorenu kutiju. Ništa ne curi van, ništa ne ulazi nepozvano. Miris ozona iz pregrijanog servera je jedino što bi trebalo da osjetiš, a ne miris zapaljenog koda zbog pogrešne verzije biblioteke. Kratko i jasno. Radi ili ne radi. Stop čekanju: nauči deployment bez bugova je tvoj prvi korak ka stabilnosti.
WARNING: Nikada ne pokrećite Docker kontejnere kao root korisnik na javnom serveru. Jedan propust u kodu vašeg modela i hakeri će preuzeti potpunu kontrolu nad vašim procesorom za rudarenje bitcoina. 120v struje u serveru nije ništa naspram strujnog udara koji će doživjeti vaš bankovni račun nakon napada.
Korak 1: Pakovanje modela i ‘slathering’ zavisnosti
Prvo, moraš ‘zgurati’ svoj model u image. Koristimo lagane baze poput Alpine Linuxa da uštedimo prostor. Svaki megabajt koji uštediš je sekunda bržeg učitavanja. Ne budi lijen. Optimizuj. Kada pišeš Dockerfile, svaka linija je sloj. Ako pogriješiš redoslijed, svaki put kad izmijeniš jednu tačku u kodu, Docker će iznova skidati gigabajte podataka. To je gubljenje vremena. Jam-uj te biblioteke unutra pametno. Koristi multi-stage buildove. To je razlika između amatera i majstora. Smanji bugove pri deploy-u automatski i uštedi sebi sate lupanja glavom o sto.

Korak 2: Server Setup – Azure ili tvoj podrum?
Kada imaš image, treba ti mjesto gdje će on da ‘živi’. Možeš koristiti Azure za mali biznis ako imaš budžet, ali pravi hakeri prave svoj ‘homelab’. Ako ideš na Azure, podesi ga za 5 minuta prateći stroga pravila. Ako biraš svoj server, pazi na hlađenje. Ventilatori moraju da vrište ako planiraš ozbiljan inference. Osjeti teksturu termalne paste pod prstima dok montiraš hladnjak na GPU. Ako je presuha, tvoj skupi čip će se pretvoriti u skupi kamen. Provjeri napon. As of 2026, lokalni kodovi zahtijevaju stabilne osigurače za servere koji troše preko 1kW. Nemoj da ti iskoči osigurač usred obuke modela. To boli.
Da li mi stvarno treba NVIDIA grafička?
Da. Bez CUDA jezgri, tvoj AI model će puzati kao puž kroz gunk. Ne bacaj pare na AMD za AI deployment još uvijek, drajveri su i dalje noćna mora za stabilan rad u produkciji.
Korak 3: Orchestracija i ‘Negative Space’ u logovima
Zadnji korak je da natjeraš model da priča sa svijetom. Koristiš Nginx ili Traefik kao reverse proxy. To je tvoj digitalni portir. On odlučuje ko ulazi, a ko ostaje ispred vrata. Ali pazi, AI modeli često ‘lažu’ ili haluciniraju. Moraš ih pratiti. Automatizacija logova će ti reći kada tvoj bot počne da piše gluposti. Ako vidiš da RAM raste bez prestanka, imaš ‘leak’. Ugasi to odmah. Nemoj čekati da server padne. Prati sistemske rizike i spavaj mirno. Zapamti, dobar sistem se ne čuje. On samo radi. Tišina u serverskoj sobi je znak uspjeha.
Kako spriječiti AI da halucinira na serveru?
Podesi temperature parametar na nulu ako želiš precizne odgovore. Popravi halucinacije odmah kroz konfiguracioni fajl, a ne kroz kod.
Anatomija jednog ‘Screw-Up-a’: Zaboravljeni log fajlovi
Ispričaću vam šta se desi kada ste aljkavi. Moj klijent je pustio model u produkciju bez rotacije logova. Nakon tri sedmice, log fajl je narastao na 450 GB. Ispunio je cijeli SSD. Server je stao. Baza podataka se korumpirala. Izgubili su podatke tri dana rada jer backup nije imao gdje da se zapiše. Sve zbog jedne linije koda u Docker-compose fajlu koju su ‘zaboravili’. To je koštalo 12.000 dolara izgubljene prodaje u jednom vikendu. Nemojte biti taj lik. Podesite log rotation. To traje 30 sekundi, a spašava karijeru. Uoči greške na vreme i uči na tuđim parama.
Fizika kajanja: Zašto tvoj server ‘trokira’
Voda se širi za 9% kad se zaledi, a tvoj AI model se širi u VRAM-u svaki put kad mu pošalješ predugačak prompt. Ako nemaš postavljen ‘limit’ na kontejneru, on će pokušati da ‘uzurpirta’ svu memoriju. Rezultat? Kernel Panic. Server se gasi brže nego što stigneš da kažeš ‘reboot’. To je hidraulični pritisak digitalnog svijeta. Moraš postaviti granice. Slather-uj te limite u konfiguraciji. Budite brutalni. Bolje da model odbije jedan zahtjev nego da sruši cijeli hardware. Ne dozvoli pad sistema nikada.
Zadnji test: Da li tvoj bot ‘diše’?
Kada završiš, uradi ‘smoke test’. Pošalji 100 zahtjeva odjednom. Gledaj kako procesor skače. Slušaj ventilatore. Ako zvuče kao mlazni avion, na dobrom si putu. Ako se server ugasi, negdje si ‘jam-ovao’ kablove ili nisi dobro nanio termalnu pastu. DIY deployment nije za mekušce. To je borba sa strujom, toplotom i logikom. Ali kad prvi put dobiješ odgovor od svog modela koji trči na tvojoj mašini, osjećaj je bolji nego bilo koji Cloud dashboard. Pokreni svoj mali biznis na pravim temeljima. Sretno u workshopu.
