Обрачун статистичких закључака: Фреквентни лекари против Бајесанаца

Закључивање

Статистичко закључивање је веома важна тема која покреће савремене алгоритме машинског учења и дубоког учења. Овај чланак ће вам помоћи да се упознате са појмовима и математиком који чине закључивање.

Замислите да неке пријатеље желимо заварати неправедним новчићем. Имамо 10 новчића и желимо да проценимо да ли је било који од њих неправедан - што значи да ће се чешће појављивати као главе, или обрнуто.

Дакле, узмемо сваки новчић, бацимо га гомилу пута - рецимо 100 - и снимимо резултате. Ствар је у томе што сада имамо подскуп мерења из праве дистрибуције (узорак) за сваки новчић. Размотрили смо стање палца и закључили да би прикупљање додатних података било врло заморно.

Необично је знати параметре праве дистрибуције. Често желимо да на основу узорка закључимо на основу правих параметара популације.

Дакле, сада желимо да проценимо вероватноћу слетања новчића на Хеадс. Занима нас средња вредност узорка .

До сада сте вероватно већ помислили: „Само изброј број глава и подели са укупним бројем покушаја!“ Да, ово је начин да пронађемо неправедан новчић, али како бисмо могли доћи до ове формуле ако је уопште нисмо знали?

Закључак стоматолога

Присјетимо се да је бацање новчића најбоље моделирано Берноуллијевом дистрибуцијом, тако да смо сигурни да добро представља наше податке. Функција масе вероватноће (ПМФ) за Берноуллијеву дистрибуцију изгледа овако:

к је случајна променљива која представља посматрање бацања новчића (претпоставимо 1 за главе и 0 за репове), а п је параметар - вероватноћа главе. На све могуће параметре односићемо се као θ надаље . Ова функција представља колико је вероватно свака вредност к према закону расподеле који смо изабрали.

Када је к једнако 1 добијамо ф (1; п) = п, а када је нула ф (0; п) = 1-п. Дакле, Бернулијева расподела одговара на питање „Колико је вероватно да добијемо главе са новчићем који слете на главе са вероватноћом п? '. Заправо, то је један од најједноставнијих примера дискретне расподеле вероватноће.

Дакле, заинтересовани смо за одређивање параметра п из података. Фреквенистички статистичар ће вероватно предложити употребу поступка процене максималне вероватноће (МЛЕ). Ова метода узима приступ максимизирању вероватноће параметара с обзиром на скуп података Д :

То значи да се вероватноћа дефинише као вероватноћа података којима се дају параметри модела. Да бисмо максимизирали ову вероватноћу, мораћемо да пронађемо параметре који помажу нашем моделу да што ближе подудара податке. Не личи ли то на учење ? Максимална вероватноћа је једна од метода која чини да учење под надзором функционише.

Претпоставимо сада да су сва запажања која вршимо независна. То значи да се заједничка вероватноћа у горенаведеном изразу може поједноставити на производ основним правилима вероватноће:

Сада иде главни део: како да максимизирамо функцију вероватноће? У помоћ позивамо рачун, разликујемо функцију вероватноће у односу на параметре модела θ , постављамо је на 0 и решавамо једначину. Постоји фин трик који диференцијацију чини много лакшим у већини случајева - логаритми не мењају екстреме функције (минимум и максимум).

Процена максималне вероватноће има огроман значај и готово сваки алгоритам машинског учења. То је један од најпопуларнијих начина математичког формулисања процеса учења.

А сада применимо оно што смо научили и играјмо се са нашим новчићима. Направили смо н независних испитивања Бернулија да бисмо проценили правичност наше кованице. Дакле, све вероватноће се могу помножити и функција вероватноће ће изгледати овако:

Узимање деривата горњег израза неће бити лепо. Дакле, морамо да пронађемо вероватноћу дневника:

То изгледа лакше. Прелазак на диференцијацију

Овде делимо деривате користећи стандардни д (ф + г) = дф + дг. Даље, померамо константе и разликујемо логаритме:

Последњи корак може изгледати смешно због окретања знака. Узрок је тај што је лог (1-п) заправо састав две функције и овде морамо користити правило ланца:

Воила, готови смо са вероватноћом дневника! Сада смо близу да пронађемо статистику максималне вероватноће за средину Берноуллијеве дистрибуције. Последњи корак је решавање једначине:

Множењем свега са п (1-п) и проширивањем заграде добијамо

Отказивање услова и преуређивање:

Дакле, ево извода из нашегинтуитивна формула?. И или сада могу да играју са бернуллиевско дистрибуцију и његове процене средњи МЛЕ у визуелизацију испод

Честитамо на вашој новој сјајној вештини процене максималне вероватноће! Или само за освежавање постојећег знања.

Бајесово закључивање

Подсетимо се да постоји још један приступ вероватноћи. Баиесова статистика има свој начин да изведе вероватноћа закључивања. Желимо да пронађемо расподелу вероватноће параметара ТХЕТА датог узорка - П (ТХЕТА | Д) . Али како можемо закључити на ову вероватноћу? У спас долази Баиесова теорема:

  • П (θ) назива се претходна дистрибуција и укључује наша уверења у то који би параметри могли бити пре него што видимо било какве податке. Способност изношења претходних веровања једна је од главних разлика између максималне вероватноће и Бајесовог закључивања. Међутим, ово је такође главна тачка критике за Баиесов приступ. Како да наведемо претходну расподелу ако не знамо ништа о проблему који нас занима? Шта ако изаберемо лошег претходника?
  • П (Д | θ) је вероватноћа, срели смо је у процени максималне вероватноће
  • П (Д) назива се доказом или маргиналном вероватноћом

П (Д) се назива и нормализациона константа, јер осигурава да добијени резултати буду ваљана расподела вероватноће. Ако П (Д) препишемо као

Видећемо да је сличан нумератору у Баиесовој теореми, али збрајање прелази све могуће параметре θ . На овај начин добијамо две ствари:

  • Излаз је увек важећа расподела вероватноће у домену [0, 1].
  • Главне потешкоће када покушавамо да израчунамо П (Д), јер то захтева интегрисање или сумирање свих могућих параметара. То је немогуће у већини стварних проблема са речима.

Али да ли маргинална вероватноћа П (Д) чини све Баиесовске ствари непрактичним? Одговор није сасвим. У већини случајева користићемо једну од две опције да бисмо се решили овог проблема.

Прва је некако приближити П (Д) . То се може постићи употребом различитих метода узорковања, као што су Важно узорковање или Гиббсовско узорковање, или техником званом Вариатионал Инференце (што је иначе супер име?).

Друга је да се у потпуности извуче из једначине. Истражимо овај приступ детаљније. Шта ако се концентришемо на проналажење једне највероватније комбинације параметара (која је најбоља могућа)? Овај поступак се назива Процена максимума А постериори (МАП).

Једначина изнад средствима које желимо да пронађу θ за коју израз унутар арг мак узима своју максималну вредност - у Арг умент једног мак имум. Овде треба приметити да је П (Д) неовисно о параметрима и може бити изузет из арг мак :

Другим речима, П (Д) ће увек бити константан у односу на параметре модела и његов дериват ће бити једнак 1 .

Ова чињеница се толико користи да је уобичајено видети Баиесову теорему написану у овом облику:

Жичани знак непотпуне бесконачности у горенаведеном изразу значи „пропорционално са“ или „једнако до константе“.

Дакле, уклонили смо рачунски најтежи део МАП-а. То има смисла јер смо у основи одбацили све могуће вредности параметара из расподеле вероватноће и само скинули ону највероватнију.

Веза између МЛЕ и МАП

А сада размотрите шта се дешава када претпоставимо да је приор једнолик (константна вероватноћа).

Избацили смо константу Ц из арг мак, јер то не утиче на резултат као што је било са доказима. Свакако изгледа слично процени максималне вероватноће! На крају, математички јаз између фреквентистичког и бајесовог закључивања није толико велик.

Такође можемо да изградимо мост са друге стране и проценимо максималну вероватноћу кроз бајесове наочаре. Конкретно, може се показати да су Баиесови претходници уско повезани са терминима регуларизације. Али та тема заслужује још један пост (за више детаља погледајте ово СО питање и ЕСЛР књигу).

Закључак

Те разлике у почетку могу изгледати суптилно, али оне дају почетак двема школама статистике. Фреквенистички и бајесовски приступ разликују се не само у математичком третману, већ и у филозофским погледима на основне појмове у статистици.

Ако узмете Баиесов шешир, непознанице посматрате као расподелу вероватноће, а податке као не случајна фиксна посматрања. Укључујете претходна уверења да бисте закључили о догађајима које посматрате.

Као фреквентни лекар, верујете да постоји једна истинска вредност за непознанице које тражимо и да су подаци случајни и непотпуни. Специјалиста насумично узоркује податке непознате популације и помоћу овог узорка закључује о стварним вредностима непознатих параметара.

На крају, Баиесов и Фреквенистички приступ имају своје снаге и слабости. Свака има алате за решавање готово свих проблема које други могу. Као и различите програмске језике, и њих треба сматрати алатима једнаке снаге који могу боље одговарати одређеном проблему, а недостајати другима. Користите их обоје, користите их паметно и не упадајте у бес светег рата између два табора статистичара!

Научио нешто? Кликните ? рећи „хвала!“ и помозите другима да пронађу овај чланак.