Како читати табелу регресије

Шта је регресија?

Регресија је један од најважнијих и најчешће коришћених процеса анализе података. Једноставно речено, то је статистичка метода која објашњава снагу односа између зависне променљиве и једне или више независних променљивих.

Зависна променљива може бити променљива или поље које покушавате да предвидите или разумете. Независна променљива могу бити поља или тачке података за које мислите да могу утицати на зависну променљиву.

Притом одговара на неколико важних питања -

  • Које су променљиве битне?
  • У којој мери су ове променљиве битне?
  • Колико смо сигурни у ове променљиве?

Узмимо пример ...

Да бих боље објаснио бројеве у регресионој табели, сматрао сам да би било корисно користити узорак података и проћи кроз бројеве и њихову важност.

Користим мали скуп података који садржи ГРЕ (тест који студенти полажу да би се сматрали пријемним у градским школама у САД-у), оцене од 500 ученика и њихове шансе за пријем на универзитет.

Јер chance of admittanceзависи од GRE score, chance of admittanceје зависна променљива и GRE scoreнезависна је променљива.

Регресиона линија

Повлачење праве линије која најбоље описује однос између ГРЕ резултата ученика и њихових шанси за пријем даје нам линеарну линију регресије . Ово је познато као линија тренда у различитим БИ алатима. Основна идеја која стоји иза цртања ове линије је минимизирање растојања између тачака података на датој к-координати и и-координати кроз коју пролази регресиона линија.

Линија регресије олакшава нам представљање односа. Заснован је на математичкој једначини која повезује к-коефицијент и и-пресек.

И-пресек је тачка у којој линија пресеца осу и при к = 0. То је такође вредност коју би модел узео или предвидео када је к 0.

Коефицијенти пружају утицај или тежину променљиве на цео модел. Другим речима, пружа количину промене зависне променљиве за јединствену промену независне променљиве.

Израчунавање једначине регресионе линије

Да бисмо сазнали пресек и у моделу, продужавамо линију регресије довољно далеко док не пресече осу и при к = 0. Ово је наш пресек и и износи око -2,5. Број можда баш и нема смисла за скуп података на којем радимо, али намера је да се прикаже само прорачун и-пресека.

Коефицијент за овај модел представљаће само нагиб регресионе линије и може се израчунати добијањем промене у прихватљивости у односу на промену ГРЕ резултата.

У горњем примеру, коефицијент би био само

м = (и2-и1) / (к2-к1)

А у овом случају би било близу 0,01.

Формула и = м * к + б помаже нам у израчунавању математичке једначине наше регресионе линије. Замењујући вредности за пресек и и нагиб који смо добили продужењем регресионе линије, можемо формулисати једначину -

и = 0,01к - 2,48

-2,48 је тачнија вредност пресека и, коју сам добио из регресионе табеле, као што је приказано касније у овом посту.

Ова једначина омогућава нам предвиђање и предвиђање шансе за пријем ученика када је познат његов / њен ГРЕ резултат.

Сад кад имамо основе, кренимо на читање и тумачење регресионе табеле.

Читање регресионе табеле

Регресиона табела може се грубо поделити у три компоненте -

  • Анализа варијансе (АНОВА): пружа анализу варијансе у моделу, као што и само име говори.
  • регресиона статистика: пружити нумеричке информације о варијацији и о томе колико добро модел објашњава варијацију за дате податке / запажања.
  • резидуални излаз: пружа вредност предвиђену моделом и разлику између стварне уочене вредности зависне променљиве и њене предвиђене вредности регресионим моделом за сваку тачку података.

Анализа варијансе (АНОВА)

Степени слободе (дф)

Регресија дф је број независних променљивих у нашем регресионом моделу. С обзиром да у овом примеру разматрамо само ГРЕ резултате, то је 1.

Преостали дф је укупан број посматрања (редова) скупа података одузетих бројем променљивих које се процењују. У овом примеру се процењују и ГРЕ коефицијент резултата и константа.

Преостали дф = 500 - 2 = 498

Укупни дф - је збир регресије и заосталих степена слободе, који је једнак величини скупа података минус 1.

Збир квадрата (СС)

Регресија СС је укупна варијација у зависној променљивој која се објашњава регресионим моделом. То је збир квадрата разлике између предвиђене вредности и средње вредности свих тачака података.

∑ (ы - у) ²

Из АНОВА табеле, регресиона СС је 6,5, а укупна СС 9,9, што значи да регресијски модел објашњава око 6,5 / 9,9 (око 65%) свих варијабилности у скупу података.

Резидуални СС - је укупна варијација зависне променљиве која је регресионим моделом остала необјашњива. Такође се назива Збир грешака квадрата и представља збир квадрата разлике између стварних и предвиђених вредности свих тачака података.

∑ (и - ы) ²

Из табеле АНОВА, резидуални СС је око 3,4. Генерално, што је мања грешка, то регресиони модел боље објашњава варијације у скупу података, па бисмо обично желели да ову грешку минимизирамо.

Укупни СС - је збир и регресије и резидуалног СС или за колико ће шанса за пријем варирати ако се ГРЕ резултати НЕ узимају у обзир.

Средње квадратне грешке (МС) - представљају средњу вредност збира квадрата или збира квадрата подељених степеном слободе и за регресију и за остатке.

МС регресије = ∑ (ы - у) ² / Рег. дфРесидуал МС = ∑ (и - ы) ² / рез. дф

Ф - користи се за тестирање хипотезе да је нагиб независне променљиве нула. Математички се може израчунати и као

Ф = МС регресије / Резидуална МС

Ово се иначе израчунава упоређивањем Ф-статистике са Ф расподелом са регресијом дф у степенима бројилаца и резидуалним дф у степенима називника.

Значај Ф - није ништа друго до п-вредност за нулту хипотезу да је коефицијент независне променљиве нула и као и код било које п-вредности, ниска п-вредност указује на то да постоји значајна веза између зависних и независних променљивих.

Стандардна грешка - пружа процењену стандардну девијацију расподеле коефицијената. То је износ за који се коефицијент разликује у различитим случајевима. Коефицијент много већи од његове стандардне грешке подразумева вероватноћу да коефицијент није 0.

т-Стат - је т-статистика или т-вредност теста и његова вредност је једнака коефицијенту подељеном са стандардном грешком.

т-Стат = Коефицијенти / стандардна грешка

Опет, што је већи коефицијент у односу на стандардну грешку, то је већи т-Стат и већа је вероватноћа да се коефицијент удаљава од 0.

п-вредност - т-статистика се упоређује са т расподелом да би се утврдила п-вредност. Обично узимамо у обзир само п-вредност независне променљиве која пружа вероватноћу добијања узорка најближе оној која се користи за извођење регресионе једначине и верификујемо да ли је нагиб регресионе линије заправо нула или је коефицијент близу добијени коефицијент.

П-вредност испод 0,05 указује на 95% поузданости да нагиб регресионе линије није нула и стога постоји значајна линеарна веза између зависних и независних променљивих.

П-вредност већа од 0,05 указује да нагиб регресионе линије може бити нула и да на нивоу поузданости од 95% нема довољно доказа да постоји значајна линеарна веза између зависних и независних променљивих.

С обзиром да је п-вредност независне променљиве ГРЕ резултата врло близу 0, можемо бити изузетно уверени да постоји значајна линеарна веза између ГРЕ резултата и шансе за пријем.

Доња и Горња 95% - Будући да углавном користимо узорак података за процену регресионе линије и њених коефицијената, они су углавном апроксимација правих коефицијената и заузврат права регресиона линија. Доња и горња граница од 95% дају 95. интервал поузданости доње и горње границе за сваки коефицијент.

Будући да је интервал поузданости од 95% за ГРЕ резултате 0,009 и 0,01, границе не садрже нулу, тако да можемо бити 95% уверени да постоји значајна линеарна веза између ГРЕ резултата и шансе за пријем.

Имајте на уму да се ниво поузданости од 95% широко користи, али је ниво који није 95% могућ и може се поставити током регресионе анализе.

Статистика регресије

Р² (квадрат Р) - представља снагу модела. Приказује количину варијације у зависној променљивој коју независна променљива објашњава и увек лежи између вредности 0 и 1. Како се Р² повећава, модел објашњава све веће варијације података и бољи је модел у предвиђању. Низак Р² указује на то да модел не одговара подацима добро и да независна променљива не објашњава добро варијацију зависне променљиве.

Р² = Регресиона сума квадрата / Укупна сума квадрата

Међутим, Р квадрат не може да утврди да ли су процене и предвиђања коефицијената пристрасна, због чега морате да процените преостале табеле, о којима ће бити речи касније у овом чланку.

Р-квадрат такође не указује на то да ли је регресијски модел адекватан. Можете добити ниску вредност Р-квадрата за добар модел или високу вредност Р-квадрата за модел који не одговара подацима.

Р², у овом случају, износи 65%, што значи да ГРЕ резултати могу објаснити 65% варијације у шанси за пријем.

Прилагођени Р² - је Р² помножен са фактором прилагођавања. Ово се користи приликом упоређивања различитих регресионих модела са различитим независним променљивим. Овај број добро дође приликом одлучивања о правим независним променљивим у вишеструким регресионим моделима.

Вишеструки Р - позитиван је квадратни корен Р²

Стандардна грешка - разликује се од стандардне грешке коефицијената. Ово је процењена стандардна девијација грешке регресионе једначине и добро је мерило тачности регресионе линије. То је квадратни корен преосталих средњих квадрата грешака.

Стд. Грешка = √ (Рес.МС)

Преостали излаз

Резидуали су разлика између стварне вредности и предвиђене вредности регресионог модела, а резидуални излаз је предвиђена вредност зависне променљиве регресионим моделом и резидуална за сваку тачку података.

И као што име сугерише, резидуална парцела је распршена табела између резидуалне и независне променљиве, што је у овом случају ГРЕ оцена сваког ученика.

Резидуална парцела је важна за откривање ствари попут хетероскедастичности , нелинеарности и одступања . Процес њиховог откривања се не дискутује као део овог чланка, али чињеница да резидуална парцела за наш пример има податке расуте случајно нам помаже у утврђивању чињенице да је веза између променљивих у овом моделу линеарна.

Намера

Намера овог чланка није да изгради радни регресијски модел, већ да пружи пролаз кроз све регресионе променљиве и њихов значај када је то потребно помоћу узорка података у регресионој табели.

Иако овај чланак пружа објашњење са једном променљивом линеарном регресијом као пример, имајте на уму да би неке од ових променљивих могле имати већи значај у случајевима са више променљивих или у другим ситуацијама.

Референце

  • Скуп података о пријему дипломаца
  • 10 ствари о читању регресионе табеле
  • Освежавање регресионе анализе