Predvidi cijene uz AI: Kako radi linearna regresija [Lako]
Najamnik u agenciji za analizu tržišta košta 200 KM po satu. Brojevi koje on gleda su isti oni koje tvoj kompjuter upravo sada može procesuirati dok piješ kafu. Ako znaš koliko košta kvadrat stana u centru, a koliko na periferiji, ti već radiš regresiju u glavi. Razlika je u tome što AI ne zaboravlja detalje i ne griješi u sabiranju kad mu se spava. Ovaj vodič će ti pokazati kako da zavrneš rukave i natjeraš mašinu da predvidi cijene umjesto tebe. Zaboravi na skupe pretplate; koristiš ono što već imaš na svom stolu.
Matematika bez diplome: Zašto je tvoj mozak već linearna regresija
Linearna regresija nije ništa drugo nego povlačenje najravnije moguće linije kroz oblak tačaka. Zamisli da na zidu imaš razbacane eksere koji predstavljaju cijene kuća i njihovu kvadraturu. Tvoj posao je da rastegneš kanap tako da bude što bliže svakom ekseru. Taj kanap je tvoj model. Kada god dodaš novu kvadraturu, kanap ti kaže kolika bi trebala biti cijena. Osjetit ćeš onaj poznati otpor pod prstima kad pokušavaš da zategneš liniju, a jedan podatak (ekser) bježi previše visoko. To zovemo ‘outlier’. Ako njega ne ignorišeš, cijeli tvoj model će biti ‘nagnut’ i lagat će te.
Ali, ne možeš samo odokativno bacati kanap. Moraš razumjeti kako mašina ‘vidi’ te brojeve. To nije magija; to je čista fizika podataka. Ako te zanima šira slika o tome kako mašine uopšte uče, baci pogled na osnove mašinskog učenja.
Digitalna alatnica: Šta ti treba u pojasu za alat
Ne treba ti superkompjuter. Treba ti laptop koji se ne gasi kad otvoriš tri taba u Chrome-u i malo strpljenja.
UPOZORENJE: Nikada ne pokreći Python skripte koje si nasumično kopirao sa sumnjivih foruma. 120 linija koda može izgledati nevino, ali ako sadrži komandu za brisanje sistemskih fajlova, tvoj hard disk će postati beskoristan komad metala brže nego što kažeš ‘AI’. Testiraj sve u izolovanom okruženju.
Da bi počeo, instaliraj Python. To je tvoj čekić. Zatim ti treba Pandas (za tabele) i Scikit-learn (za samu regresiju). To je tvoj libela i metar. Bez njih, tvoj model će visiti nakrivo. 
Zašto tvoj Excel laže (i kako AI to popravlja)
Većina ljudi pokušava ovo raditi u Excelu. Excel je super za spiskove namirnica, ali kad mu daš 50 varijabli koje utiču na cijenu — od vlage u podrumu do blizine tramvajske stanice — on počinje da štuca. Linearna regresija u Pythonu ne gleda samo dvije kolone. Ona može procesuirati ‘multidimenzionalni’ prostor. To zvuči kao naučna fantastika, ali to je samo više kanapa koji se sjeku pod uglovima koje tvoje oko ne vidi, ali procesor osjeća kroz toplotu koju izbacuje kuler.
Prije nego što uopšte pustiš model u rad, moraš očistiti podatke. Ako unutra ubaciš smeće, dobićeš smeće. To je zlatno pravilo zanata. Pročitaj kako da središ podatke prije treninga jer je to 90% posla. Ostatak je samo pritiskanje dugmeta ‘Enter’.
Da li stvarno moram znati kodirati?
Da. Ali ne onoliko koliko misliš. Ako znaš promijeniti sijalicu ili pratiti uputstvo za sastavljanje ormara, možeš naučiti i ovo. Radi se o logici, a ne o kucanju čudnih simbola po cijeli dan.
Anatomija zezancije: Šta se desi kad naguraš loše podatke
Desilo mi se prošle godine. Pokušao sam predvidjeti cijenu polovnih automobila, ali sam zaboravio uključiti informaciju o tome da li je auto bio udaren. Model je bio ‘precizan’ na papiru, ali u stvarnosti je griješio za hiljade maraka. To je ‘overfitting’. Model je naučio napamet moje podatke, ali nije razumio tržište. To je kao da napraviš savršen ključ za jedna vrata, ali taj ključ ne paše ni na jedna druga u cijeloj zgradi.
Ako tvoj model predviđa da će kuća od 20 kvadrata koštati milion maraka, negdje si debelo zabrljao. Obično je to u fazi koda gdje si zaboravio skalirati brojeve. Mašina misli da je ‘1’ isto što i ‘1000’ ako joj ne kažeš drugačije. Gruba greška.
Zašto ovo radi: Nauka o materijalu (podacima)
Podesi kvačilo svog modela: Hiperparametri
Tvoj model ima ‘kvačilo’ koje se zove Learning Rate. Ako ga postaviš prebrzo, model će preskakati rješenje kao loš vozač koji stalno trza. Ako ga postaviš presporo, trebat će ti vječnost da dobiješ rezultat. Ne budi lijen. Testiraj različite postavke. Čut ćeš kako ventilator na laptopu ubrzava kad mu zadaš težak zadatak. To je zvuk napretka.
Uvijek koristi alate za provjeru tačnosti. Bez toga, ti samo nagađaš, a nagađanje u DIY svijetu obično završava sa rupom u zidu tamo gdje joj nije mjesto.
Škart materijal: Gdje naći besplatne podatke
Nemoj kupovati skupe baze podataka. Budi snalažljiv. Postoje mjesta kao što je Kaggle ili vladini portali sa otvorenim podacima. To su digitalni ekvivalenti stovarišta starog gvožđa gdje možeš naći vrhunski materijal ako znaš gdje da gledaš. Samo ga dobro ‘operi’ od duplih unosa i netačnih nula prije nego što ga ubaciš u mašinu.
Zapamti, tvoj cilj nije savršenstvo. Tvoj cilj je model koji griješi manje nego tvoj komšija koji ‘zna’ cijene. To je pobjeda.
Šta ako AI potpuno promaši cifru?
To znači da tvoj ‘kanap’ nije dovoljno fleksibilan. Linearna regresija je kruta. Ponekad ti treba nešto jače, kao što je logistička regresija ili neuronska mreža. Ali nemoj trčati pred rudu. Prvo savladaj ovo. Ako ne znaš zakucati ekser, nemoj ni pokušavati raditi sa pneumatskom heftalicom. Ispeci zanat na linearnim modelima pa onda gradi dalje.

