Šta su L1 i L2 regularizacija i čemu služe?
L1 i L2 regularizacija: Zašto tvoj AI model mora da ‘zaboravi’ neke stvari (i kako mu to pomaže)?
Sjećaš se onog osjećaja kad si na fakultetu učio za ispit? Neke stvari si ‘bubao’ napamet, definiciju po definiciju, rečenicu po rečenicu. I onda dođeš na ispit, profesor malo preformuliše pitanje, a ti – blokada! Znaš sve, ali ne znaš da primijeniš. E, pa, tvoj AI model često proživljava istu dramu.
Kada pričamo o umjetnoj inteligenciji, pogotovo o mašinskom učenju, postoji jedan veliki ‘neprijatelj’ koji se zove overfitting (prekomjerno prilagođavanje). To ti je kao da je tvoj model postao preveliki štreber. Umjesto da razumije suštinu problema, on je naučio napamet svaki detalj, svaku anomaliju, svaku ‘greškicu’ iz podataka na kojima si ga trenirao. I onda, kad mu daš nove, neviđene podatke, on se zbuni. Ne prepoznaje ništa što nije video u svojoj ‘štreberskoj’ bilježnici.
Zvuči poznato? Vjerovatno ti se desilo da tvoj model radi savršeno na podacima koje je već vidio, a čim mu daš nešto novo – katastrofa! Rezultati su beskorisni, a ti se pitaš gdje si pogriješio. Upravo tu na scenu stupaju naši ‘spasioci’: L1 i L2 regularizacija.
Regularizacija: AI dijeta za tvoj model
Zamislite regularizaciju kao neku vrstu ‘AI dijete’ ili ‘fitnes programa’ za tvoj model. Nije poenta da model bude ‘najpametniji’ tako što će znati svaku sitnicu, već da bude ‘najfunkcionalniji’ – da može dobro da se snalazi u novim situacijama. Cilj je da se modelu ‘oduzme’ malo slobode da se previše prilagodi trening podacima, čime ga tjeramo da uči opštije obrasce.
Postoje dva glavna ‘trenera’ u ovom fitnes programu:
1. L1 Regularizacija (poznata i kao Lasso)
Zamislite da ste selektor fudbalske reprezentacije Bosne i Hercegovine. Imate ogroman spisak potencijalnih igrača, ali na teren može samo njih 11. Šta radite? Odaberete one koji su ključni, prave razliku, a one koji su ‘višak’ – jednostavno izbacite iz tima.
E, tako radi L1 regularizacija. Ona ‘kažnjava’ model zbog prevelikog broja karakteristika (ili ‘težina’ koje su daleko od nule). Ključna stvar je da neke od tih ‘težina’ postavi na tačno nulu. To znači da neke karakteristike (ulazni podaci) model jednostavno ignoriše, kao da ne postoje. Na primjer, ako analizirate cijene nekretnina u Sarajevu i imate 100 parametara, L1 može reći:
