Što je varijabilnost pristranosti u strojnom učenju?



Ovaj članak pokriva koncept pristranosti i varijance u strojnom učenju s odnosom između njih koji određuje prediktivnu točnost modela.

U , izvedba modela temelji se na njegovim predviđanjima i koliko dobro generalizira prema neviđenim, neovisnim podacima. Jedan od načina za mjerenje točnosti modela je vođenje računa o pristranosti i varijansi u modelu. U ovom ćemo članku naučiti kako varijacija pristranosti igra važnu ulogu u određivanju autentičnosti modela. U ovom su članku razmatrane sljedeće teme:

Nesvodljiva pogreška

Bilo koji model u procjenjuje se na temelju pogreške predviđanja na novom neovisnom, neviđenom skupu podataka. Pogreška nije ništa drugo nego razlika između stvarnog i predviđenog rezultata. Da bismo izračunali pogrešku, radimo zbrajanje reducibilne i nesvodive pogreške, a.k. dekompozicijom pristranosti i varijance.





Nepovratna pogreška nije ništa drugo nego one pogreške koje se ne mogu smanjiti bez obzira na bilo koju koje koristite u modelu. Uzrokovane su neobičnim varijablama koje imaju izravan utjecaj na izlaznu varijablu. Dakle, kako bismo vaš model učinili učinkovitim, ostaje nam smanjiva pogreška koju moramo optimizirati pod svaku cijenu.

Smanjiva pogreška ima dvije komponente - Predrasude i varijance , prisutnost pristranosti i varijance utječu na točnost modela na nekoliko načina poput prekomjerno, nedovoljno opremljeno itd.Pogledajmo pristranost i varijancu kako bismo razumjeli kako se nositi sa smanjenom pogreškom u .



Što je pristranost u strojnom učenju?

Pristrasnost je u osnovi koliko smo predvidjeli vrijednost od stvarne vrijednosti. Kažemo da je pristranost previsoka ako su prosječna predviđanja daleko od stvarnih vrijednosti.

Visoka pristranost uzrokovat će da algoritam propusti dominantni obrazac ili odnos između ulaznih i izlaznih varijabli. Kada je pristranost previsoka, pretpostavlja se da je model prilično jednostavan i da ne podrazumijeva složenost skupa podataka da bi se odredio odnos i na taj način,uzrokujući nedovoljno opremanje.

Varijacija u modelu strojnog učenja?

Na neovisnom, neviđenom skupu podataka ili skupu provjere valjanosti. Kada model ne radi jednako dobro kao što je to slučaj s obučenim skupom podataka, postoji mogućnost da model ima odstupanja. U osnovi govori koliko su predviđene vrijednosti raštrkane od stvarnih vrijednosti.



Velika varijanta u skupu podataka znači da je model trenirao s puno buke i nebitnih podataka. Tako uzrokujući prekomjerno uklapanje u model. Kada model ima velike varijance, postaje vrlo fleksibilan i daje pogrešna predviđanja za nove podatkovne točke. Jer se prilagodio podatkovnim točkama skupa treninga.

Pokušajmo također matematički razumjeti koncept pristranosti-varijance. Neka varijabla kojoj predviđamo Y, a ostale neovisne varijable X. Pretpostavimo sada da postoji odnos između dvije varijable takav da:

Y = f (X) + e

U gornjoj jednadžbi, ovdje je je procijenjena pogreška sa srednjom vrijednošću 0. Kada klasifikator napravimo pomoću algoritama poput Linearna regresija , , itd., očekivana kvadratna pogreška u točki x bit će:

pogreška (x) = pristranost2+ Varijansa + nesvodiva pogreška

Razumijemo i kako će Bias-Variance utjecati na a Strojno učenje izvedba modela.

Kako to utječe na model strojnog učenja?

Odnos između varijance pristranosti možemo staviti u četiri dolje navedene kategorije:

  1. Visoka varijansa-velika pristranost - Model je nedosljedan i u prosjeku netočan
  2. Niska varijansa - velika pristranost - modeli su dosljedni, ali u prosjeku niski
  3. Visoke varijance-niske pristranosti - donekle precizne, ali nedosljedne u prosjeku
  4. Niske varijance-niske pristranosti - Idealan je scenarij, model je u prosjeku dosljedan i točan.

pristranost-varijansa u strojnom učenju-edureka

Iako je otkrivanje pristranosti i varijance u modelu sasvim očito. Model s velikom varijancom imat će malu pogrešku u treningu i visoku pogrešku validacije. A u slučaju velike pristranosti, model će imati visoku pogrešku u treningu, a pogreška provjere valjanosti jednaka je pogrešci u treningu.

Iako se otkrivanje čini lakim, stvarni je zadatak svesti ga na minimum. U tom slučaju možemo učiniti sljedeće:

  • Dodajte još značajki unosa
  • Više složenosti uvođenjem polinomskih značajki
  • Smanjite rok regularizacije
  • Dobivanje više podataka o treningu

Sad kad znamo što su pristranost i varijance i kako to utječe na naš model, pogledajmo kompromis pristranosti i varijance.

Kompromis pristranosti i varijance

Pronalaženje prave ravnoteže između pristranosti i varijance modela naziva se kompromisom Bias-Variance. To je u osnovi način da se osigura da model ni u kojem slučaju nije ni previše ni opremljen.

uporaba iteratora u javi

Ako je model previše jednostavan i ima vrlo malo parametara, patit će od velike pristranosti i male varijance. S druge strane, ako model ima velik broj parametara, imat će velike varijance i nisku pristranost. Ova bi trgovina trebala rezultirati savršeno uravnoteženim odnosom između njih dvoje. U idealnom slučaju, niska pristranost i mala varijansa cilj su svakog modela strojnog učenja.

Ukupna pogreška

U bilo kojem modelu strojnog učenja, dobra ravnoteža između pristranosti i varijance služi kao savršen scenarij u smislu točnosti predviđanja i izbjegavanja prekomjernog i nedovoljnog opremanja. Optimalna ravnoteža između pristranosti i varijance, u smislu složenosti algoritma, osigurat će da model uopće nikada ne bude previše ili manje opremljen.

Srednja kvadratna pogreška u statističkom modelu smatra se zbrojem kvadratne pristranosti i varijance i varijance pogreške. Sve se to može staviti u ukupnu pogrešku tamo gdje imamo pristranost, varijancu i nesvodivu pogrešku u modelu.

Razumijemo kako možemo smanjiti ukupnu pogrešku uz pomoć praktične primjene.

Stvorili smo a klasifikator linearne regresije u Linearna regresija u strojnom učenju članak o Edureki koji koristi skup podataka o dijabetesu u modulu skupova podataka scikit naučiti knjižnica.

Kada smo procijenili srednju kvadratnu pogrešku klasifikatora, dobili smo ukupnu pogrešku oko 2500.

Da bismo smanjili ukupnu pogrešku, klasifikatoru smo dodali više podataka, a zauzvrat je srednja kvadratna pogreška smanjena na 2000.

To je jednostavna primjena smanjenja ukupne pogreške unošenjem više podataka o treningu u model. Slično tome, možemo primijeniti druge tehnike za smanjenje pogreške i održavanje ravnoteže između pristranosti i varijance za učinkovit model strojnog učenja.

To nas dovodi do kraja ovog članka gdje smo naučili Bias-Variance u MahuUčenje s njegovom primjenom i primjenom. Nadam se da vam je jasno sve što je s vama podijeljeno u ovom vodiču.

Ako smatrate da je ovaj članak o “Bias-Variance in Machine Learning” relevantan, pogledajte pouzdana tvrtka za internetsko učenje s mrežom od više od 250 000 zadovoljnih učenika raširenih širom svijeta.

Ovdje smo da vam pomognemo u svakom koraku na putovanju i osmislimo kurikulum namijenjen studentima i profesionalcima koji žele biti . Tečaj je osmišljen kako bi vam pružio prednost u programiranju Pythona i osposobio vas za osnovne i napredne koncepte Pythona, zajedno s raznim Kao , itd.

Ako naiđete na neko pitanje, slobodno postavite sva svoja pitanja u odjeljku za komentare 'Predrasude-varijance u strojnom učenju' i naš će tim rado odgovoriti.