Dimensionality Reduction za početnike: Kako očistiti bazu
Svaki gigabajt viška u tvojoj bazi podataka košta te tačno 0.10 dolara mjesečno na cloudu, ali te košta hiljade u izgubljenom vremenu dok čekaš da se upit izvrši. Ako tvoja tabela ima 200 kolona, a koristiš samo pet, ti ne radiš analizu nego skladištiš digitalni otpad. Važno je da shvatiš: tvoj server nije rupa bez dna. Vještine koje firme plaćaju najviše u 2026. uključuju upravo ovo – sposobnost da od ogromnog haosa napraviš čistu, upotrebljivu mašinu.
Zašto tvoja baza ždere resurse (i tvoj novac)
Direktno uputstvo: Dimensionality reduction nije brisanje podataka, nego sabijanje informacija tako da zadržiš suštinu, a baciš buku. Zamisli da pokušavaš ugurati ormar od punog drveta kroz uska vrata. Neće proći dok ga ne rastaviš na osnovne komponente. Isto je sa tvojim datasetom. Smanji haos u podacima odmah ili gledaj kako ti se sistem ruši pod sopstvenom težinom. Čuo sam to od starih admina stotinu puta – ‘Mali, nije problem u disku, nego u tvojoj lijenosti da očistiš smeće’.
Da li mi stvarno treba svih 500 kolona?
Ne treba. Većina tih kolona je ‘buka’. To su korelirani podaci koji samo zbunjuju model. Ako imaš kolonu ‘godina rođenja’ i ‘starost’, jedna mora letjeti vani. Odmah. 
Alat koji ti treba: Zašto PCA nije samo fensi skraćenica
PCA (Principal Component Analysis) je kao tvoj oštri cirkular u radionici. On siječe kroz podatke i pronalazi ‘pravce’ najveće varijanse. Ako ne razumiješ varijansu, zamisli to kao teksturu drveta. Tamo gdje je tekstura najizraženija, tamo je najviše informacija. PCA pronalazi te linije i odbacuje sve ostalo. Ali pazi, ako pogriješiš ugao reza, uništićeš materijal. Shvati bazu AI-ja prije nego što kreneš sa teškim alatima. Osjetićeš kako procesor zuji dok mašina žvaće hiljade redova – to je zvuk efikasnosti.
WARNING: Nikada ne pokreći PCA na bazi bez prethodnog skaliranja podataka. Ako jedna kolona ima vrijednosti od 1 do 10, a druga od 1000 do 10000, model će potpuno poludjeti i tvoji rezultati će biti beskorisno smeće. Shocks za tvoj sistem mogu biti fatalni.
Anatomija propasti: Šta se desi kad previše oguliš podatke
Opisaću ti jedan totalni promašaj. Radio sam na bazi za klijenta koji je htio ‘najbrži model na svijetu’. Ogulili smo 95% dimenzija. Rezultat? Model je radio munjevito, ali je predviđao gluposti. To je kao da napraviš stolicu sa dvije noge – jeste lakša za nošenje, ali niko na njoj ne može sjediti. Izgubili smo ‘lignin’ koji drži podatke na okupu. Šest mjeseci kasnije, sistem je počeo izbacivati greške jer nije prepoznavao ključne promjene na tržištu. Izbjegni skrivene greške tako što ćeš zadržati barem 85-90% varijanse. Ne budi škrt na bitnim stvarima.
Zašto ovo radi: Fizika varijanse
U svijetu podataka, informacija je kretanje. Ako se podaci u jednoj koloni ne mijenjaju, ta kolona je mrtva. Ona nema kinetičku energiju. PCA koristi matematičku rotaciju da tvoje podatke postavi u novi koordinatni sistem gdje su najbitnije promjene na prvom mjestu. To je čista hemija odnosa između brojeva. Kada koristiš Python skriptu za ovaj posao, ti zapravo programiraš filter koji odvaja zlato od pijeska. Pijesak samo troši RAM memoriju i grije ti server.
Koji algoritam izabrati za početak?
Za većinu DIY projekata, PCA je tvoj ‘svajcarski nož’. Ako su ti podaci jako zamršeni i nelinearni, t-SNE ili UMAP su moderniji, ali troše više struje i vremena. Drži se osnova dok ne osjetiš materijal pod prstima. Izaberi funkciju bez greške i testiraj polako. Nemoj odmah skakati na najskuplji alat ako ti obična ručna testera završava posao.
Prljava realnost radionice
Priprema podataka je prljav posao. Boljeće te leđa od sjedenja, a oči će ti krvariti od gledanja u CSV tabele. Ali to je jedini put. Ne kupuj skupe alate dok ne naučiš kako da ručno ‘išmirglaš’ dataset. AI za male firme ne mora biti skup ako znaš kako da bazu držiš vitkom. Smanji broj dimenzija, ubrzaj trening i uštedi novac za pivo poslije uspješnog koda. To je jedina prava istina u ovom poslu. Ne vjeruj marketingu, vjeruj brojevima koji ostaju nakon što baciš smeće.


![Deep Blue vs Kasparov: Zašto mašine više ne gube? [Analiza]](https://aiskola.org/wp-content/uploads/2026/03/Deep-Blue-vs-Kasparov-Zasto-masine-vise-ne-gube-Analiza.jpeg)
![Podijeli podatke za trening modela bez greške [DIY]](https://aiskola.org/wp-content/uploads/2026/02/Podijeli-podatke-za-trening-modela-bez-greske-DIY.jpeg)
