Nauči kako AI “vidi”: Osnove kompjuterskog vida [2026]

AI ne vidi ništa. To je prva laž koju vam prodaju marketinški stručnjaci u odijelima. Dok vi gledate u sliku zalaska sunca, vaš model kompjuterskog vida (Computer Vision – CV) vidi samo haotičnu gomilu brojeva koji vrište u memoriji vašeg GPU-a. Ako mislite da je CV magija, odustanite odmah. CV je sirova matematika, filtriranje šuma i borba sa lošim osvjetljenjem. Vi ste ovdje da naučite kako taj haos pretvoriti u informaciju, a ne da se divite ‘pametnim’ algoritmima. Do kraja ovog vodiča, znat ćete kako da natjerate običnu USB kameru da razlikuje šraf od eksera, ali budite spremni na to da će vam se mozak pregrijati brže od laptopa.

Senzori koji lažu: Zašto rezolucija nije sve

Prva stvar koju morate shvatiti je da je kamera samo loš prevodilac. Svjetlost udara u CMOS senzor, izbacuje elektrone, a elektronika to pretvara u napon. Zvuk zujanja lošeg napajanja može unijeti više ‘vida’ u vaš model nego stvarni objekat ispred leće. Ne kupujte skupe 4K kamere za početak. Više piksela znači samo više smeća koje vaš model mora obraditi. Zasto ti model griješi često se svodi na to da pokušavate obraditi previše beskorisnih podataka. Fokusirajte se na kontrast. Ako vaš senzor ne vidi razliku između tamno sive i crne, nijedan algoritam na svijetu to neće popraviti. Osjetit ćete miris ozona ako preopteretite procesor pokušavajući da analizirate sirovi 4K feed u realnom vremenu. Smanjite to na 640×480. Brzo je. Radi. Ne glumi heroja.

Close-up senzora kamere sa digitalnim podacima u stilu radionice

Matrica boli: Kako piksel postaje podatak

Slika je matrica. Tačka. Crno-bijela slika je 2D matrica gdje svaki broj od 0 do 255 predstavlja intenzitet svjetlosti. Slika u boji? To su tri takve matrice naslagane jedna na drugu (RGB). Slathering (razmazivanje) ovih podataka direktno u model je recept za propast. Morate uraditi ono što zovemo normalizacija. Ako ostavite vrijednosti od 0 do 255, vaš model će ‘eksplodirati’ jer će težine (weights) postati prevelike. Podijelite sve sa 255. Dobijte brojeve između 0 i 1. To je hladna, čista matematika. Sredi podatke prije nego uopšte pomislite na ‘učenje’. Ako osjetite da vam se prsti lijepe za tastaturu od muke dok pišete ove petlje, na dobrom ste putu.

Do I really need a GPU for this?

Ne, ne treba vam odmah. Za osnovne operacije kao što su detekcija ivica ili prosta konvolucija, vaš stari CPU je sasvim dovoljan. Ali, čim pređete na duboke neuronske mreže (CNN), bez GPU-a ćete stariti brže nego što se vaš model trenira. To je razlika između ‘vidim nešto’ i ‘vidim to u 60 frejmova u sekundi’.

WARNING: Nikada ne gledajte direktno u infracrvene LED diode koje neki CV senzori koriste za noćni vid. Iako su nevidljive, mogu vam spržiti mrežnjaču brže nego što vaš model prijavi ‘Error 404’. Testirajte ih kamerom telefona; ona vidi taj ljubičasti sjaj, vaše oči ne.

Detekcija ivica: Sobelov filter i DIY filtriranje šuma

Kako AI zna gdje prestaje sto, a počinje šolja kafe? On traži nagle promjene u brojevima. Ako piksel ima vrijednost 10 (tamno), a onaj do njega 200 (svijetlo), tu je ivica. Sobelov filter je matematička alatka koja ‘udara’ po slici i izvlači te ivice. To je kao da koristite čeličnu četku da skinete farbu i vidite šta je ispod. Ako ne razumijete ovo, nećete razumjeti ni moderne transformere. Shvati transformer arhitekturu je lakše kad znaš kako se osnovne informacije čupaju iz sirovih piksela. Zapamtite: šum je vaš neprijatelj. Jedna zrnca prašine na leći može biti interpretirana kao ‘neprijateljski dron’ ako nemate dobar Gaussian blur da to ispeglate.

Konvolucijski slojevi: Sito za informacije

Zamišljajte konvoluciju kao malo sito koje klizi preko vaše slike. To sito (kernel) traži specifične oblike – vertikalne linije, horizontalne linije, krugove. Prvi slojevi vide proste stvari. Dublji slojevi vide uši, oči, točkove. To je ‘Deep Learning’. Ali nemojte se zavaravati da model ‘razumije’. On samo sabira i množi. Ako mu date sliku mačke okrenutu naopačke, a niste ga trenirali za to, on će vidjeti samo besmislenu gomilu dlaka. Nauči Python jer ćeš u njemu pisati ove kernele. Bez Pythona, ti si samo posmatrač, a ne majstor.

Zašto moj AI model ne prepoznaje mačku po mraku?

Zato što fizika ne oprašta. Ako nema fotona koji udaraju u senzor, nema ni informacija. AI ne može izmisliti podatke koji ne postoje. Možete koristiti generativni AI da ‘popravi’ sliku, ali to je onda laž, a ne vid. Za pravi rad u mraku, treba vam termalna kamera ili aktivno IR osvjetljenje. Kratko i jasno: nema svjetla, nema vida.

Anatomija promašaja: Zašto će tvoj prvi projekt propasti

Opisat ću vam tačno šta će se desiti. Napravit ćete model koji prepoznaje vaš ključ na stolu. Radi savršeno. Onda ćete ga odnijeti u drugu sobu gdje je svjetlo malo žuće, i model će vidjeti… ništa. To se zove ‘overfitting’. Vaš model nije naučio kako izgleda ključ, naučio je kako izgledaju pikseli na vašem specifičnom stolu u 14:00 sati. To je kao da pokušavate zavrnuti vijak čekićem. Rješenje? Augmentacija podataka. Nasumično mijenjajte svjetlinu, rotirajte sliku, dodajte vještački šum. Natjerajte model da pati tokom treninga da bi radio u stvarnom svijetu. Ako vam proces treniranja traje 5 minuta, vjerovatno ste napravili smeće koje neće raditi nigdje osim na vašem ekranu.

Zašto ovo radi (Fizika fotona)

Svaki put kad otvorite ‘OpenCV’ biblioteku, vi manipulišete energijom. CMOS senzor koristi fotoelektrični efekat. Fotoni izbijaju elektrone iz silikona, stvarajući struju. Što je jača svjetlost, više je elektrona. Problem nastaje kod ‘curenja’ naboja između susjednih piksela, što stvara onaj odvratni digitalni šum na noćnim slikama. CV algoritmi moraju matematički predvidjeti taj šum i eliminisati ga prije nego što podaci stignu do neuronske mreže. To je borba protiv entropije u realnom vremenu.

Kada završite sa kodiranjem, ostaje vam deployment. Postavi AI model na server i vidjet ćeš pravu muku kada tvoja skripta koja je radila na Windowsu odjednom odbije saradnju na Linuxu jer fali jedna biblioteka za procesiranje slike. DIY duh znači da ne odustaješ kad dobiješ ‘Segmentation Fault’. To samo znači da si blizu cilja. Uzmi lemilicu, očisti leću i kreni ponovo. AI ne vidi, ali ti vidiš – i to je tvoja jedina prednost.

Slični tekstovi

Komentariši

Vaša email adresa neće biti objavljivana. Neophodna polja su označena sa *