ReLU ili Sigmoid? Izaberi funkciju za svoj model [2026]
Prestani slušati stare tutorijale koji te uče da je Sigmoid osnova svega. To je marketinška laž iz ere sporih procesora koja će ti danas samo pojesti GPU sate bez ikakvog stvarnog napretka u tačnosti. Ako gradiš neuronsku mrežu u 2026. godini, a i dalje koristiš Sigmoid u skrivenim slojevima, tvoj model će biti spor, tromo će učiti i vjerovatno će se zaglaviti u ‘mrtvoj zoni’ gradijenta prije nego što uopšte vidiš prve rezultate. Ti trebaš brzinu i matematičku oštrinu koju nudi ReLU, ali moraš znati gdje on puca pod pritiskom.
Zašto Sigmoid guši tvoj gradijent: Anatomija propasti
Sigmoid funkcija sabija svaki ulazni broj u uski prostor između 0 i 1. To zvuči uredno, ali je u praksi recept za katastrofu u dubokim mrežama. Čim tvoji ulazni podaci postanu malo veći ili manji, kriva funkcije postaje ravna kao daska. Gradijent tada postaje nula. Tvoj model prestaje da uči. Stoji u mjestu. Osjetit ćeš miris pregrijane elektronike dok tvoj procesor uzalud vrti petlje, a tvoj loss ostaje isti, zakucan za dno. To je problem nestajućeg gradijenta koji je uništio više projekata nego loši podaci. Ako te zanima kako se uopšte pokreće cijeli proces, pogledaj kako neuronske mreže uče na osnovnom nivou prije nego što nastaviš.
WARNING: Nikada ne koristi Sigmoid u mrežama sa više od tri skrivena sloja bez Batch Normalizacije. Rizikuješ potpuni kolaps učenja jer će se gradijenti ‘ugasiti’ u prvih pet epoha, ostavljajući te sa beskorisnim težinama.
ReLU: Brz, sirov i opasno jednostavan
ReLU (Rectified Linear Unit) je kao prekidač u tvojoj radionici. Ako je vrijednost ispod nule, on je isključuje (izlaz je nula). Ako je iznad, propušta je tačno takvu kakva jeste. Nema komplikovane matematike, nema eksponenata, samo čista linearnost. To je razlog zašto tvoj AI hardver radi 10 puta brže sa ReLU funkcijom nego sa bilo čim drugim. Ne zahtijeva računanje teških funkcija, samo jedno poređenje. Ali, ReLU ima mračnu stranu. Ako ga previše pritisneš sa velikim learning rate-om, tvoji neuroni mogu trajno ‘umrijeti’. Postanu nula i više se nikada ne probude. To se zove ‘Dying ReLU’ problem. Mreža postane tiha, a ti ostaneš sa modelom koji ignoriše polovinu tvojih podataka.

Da li stvarno trebam Sigmoid na izlaznom sloju?
Da, ali samo ako radiš binarnu klasifikaciju (da/ne). Ako tvoj bot treba odlučiti da li je na slici haker ili nije, Sigmoid na samom kraju je jedini način da dobiješ vjerovatnoću u procentima. Za sve ostalo, bježi od njega. Ako tvoj model previše griješi, možda nije problem u funkciji, nego u tome kako si postavio temperature parametar ili druge hiperparametre.
Zašto ovo radi: Nauka o gradijentima
Evo zašto je ReLU kralj: njegova derivacija je ili 1 ili 0. Nema smanjivanja gradijenta dok putuje unazad kroz slojeve. Zamisli to kao prenos snage u mehanici. Sigmoid je kao stari, proklizali remen koji gubi 90% snage na svakom koraku. ReLU je čvrsti čelični zupčanik. On prenosi informaciju o grešci direktno do prvih slojeva bez gubitaka. Zato tvoji modeli konvergiraju u minutama umjesto u satima. Ako rucno popravljaš greške, moraš razumjeti kako raditi sa aktivacijskim funkcijama direktno u kodu.
Šta je sa Leaky ReLU funkcijom?
To je verzija za one koji se boje ‘smrti’ neurona. Umjesto nule, ona propušta mali procenat negativnih vrijednosti (npr. 0.01). To je kao mali odušak na ventilu koji sprečava da se sistem potpuno zaključa. Koristi ga ako primijetiš da tvoj loss stagnira uprkos svim trikovima.
Anatomija screw-upa: Kako sam spržio model za vikend
Sjedio sam u radionici do 3 ujutro pokušavajući da natjeram model za prepoznavanje lica da radi. Koristio sam Sigmoid u svih 12 slojeva jer sam mislio da je ‘glatkija’ funkcija bolja za osjetljive podatke. Model nije mrdnuo sa 51% tačnosti punih 10 sati. Bio je to čisti nasumični pogodak. Tek kad sam zamijenio sve te ‘glatke’ funkcije sa sirovim ReLU-om, tačnost je skočila na 89% u prve tri minute. Osjećao sam se kao idiot. Ne pravi istu grešku. Sigmoid je za vjerovatnoće, ReLU je za radne slojeve. Tačka.
Code Check: Pravila za 2026. godinu
Prema standardima AI arhitekture za 2026., ReLU je podrazumijevani izbor (default) za 95% slučajeva u Computer Vision i NLP zadacima. Ako koristiš PyTorch ili TensorFlow, tvoj prvi korak je uvijek ReLU. Sigmoid čuvaj za završni udarac, tamo gdje ti treba konkretna odluka. Slušaj fiziku modela: voda (podaci) mora teći slobodno kroz cijevi, a Sigmoid je u ovom slučaju začepljenje koje ne želiš čistiti u nedjelju navečer.
