Кратки увод у учење појачања

Појачање учења је аспект машинског учења где агент учи да се понаша у окружењу, извођењем одређених радњи и посматрањем награда / резултата које те радње добијају.

Са напретком у манипулацији роботском руком, Гоогле Дееп Минд је победио професионалног Алпха Го Плаиер-а, а недавно ОпенАИ тим који је победио професионалног ДОТА играча, поље учвршћивања заиста је експлодирало последњих година.

У овом чланку ћемо разговарати о:

  • Шта је учвршћивање учења и његова глупост попут награда, задатака итд
  • 3 категоризације учења појачања

Шта је учвршћивање учења?

Започнимо објашњење на примеру - рецимо да постоји мала беба која почиње да учи како ходати.

Поделимо овај пример на два дела:

1. Беба почиње да хода и успешно долази до кауча

Будући да је кауч крајњи циљ, беба и родитељи су срећни.

Дакле, беба је срећна и прима захвалност својих родитеља. Позитивно је - беба се осећа добро (позитивна награда + н).

2. Беба почиње да хода и пада због неке препреке између њих и добија модрице.

Јао! Беба се повређује и боли. Негативно је - беба плаче (негативна награда -н).

Тако и ми људи учимо - трагом и грешком. Појачано учење концептуално је исто, али је рачунски приступ учењу путем акција.

Учење ојачања

Претпоставимо да наш агент за појачање учи да игра Марио као пример. Процес учења појачања може се моделирати као итеративна петља која ради на следећи начин:

  • РЛ агент прима стање С ⁰ из околине, тј. Марио
  • На основу тог стања С⁰, РЛ агент предузима радњу А ⁰, рецимо - наш РЛ агент се креће удесно. У почетку је ово случајно.
  • Сада је окружење у новом стању С¹ (нови оквир од Марио-а или покретач игре)
  • Животна средина даје неку награду Р ¹ агенту РЛ. Вероватно даје +1 јер агент још није мртав.

Ова РЛ петља се наставља све док не умремо или док не стигнемо на одредиште и континуирано даје секвенцу стања, акције и награде.

Основни циљ нашег РЛ агента је да максимизира награду.

Максимализација награде

РЛ агент у основи ради на хипотези о максимизацији награде. Због тога би учење појачавања требало да има најбоље могуће акције како би максимализирало награду.

Кумулативне награде у сваком временском кораку са одговарајућом радњом записују се као:

Међутим, ствари не функционишу на овај начин када се сумирају све награде.

Разумимо ово детаљно:

Рецимо да се наш РЛ агент (роботски миш) налази у лавиринту који садржи сир, електричне ударе и мачке . Циљ је појести максималну количину сира пре него што га мачка поједе или добије струјни удар.

Чини се очигледним јести сир близу нас, а не сир близу мачке или струјни удар, јер што смо ближе електричном шоку или мачки, опасност од смрти расте. Као резултат тога, награда у близини мачке или струјни удар, чак и ако је већа (више сира), биће снижена. То се ради због фактора неизвесности.

Има смисла, зар не?

Попуст на награде делује овако:

Ми дефинишемо дисконтну стопу која се назива гама . Требало би да буде између 0 и 1. Што је гама већа, то је попуст мањи и обрнуто.

Дакле, наша кумулативна очекивана (снижена) награда је:

Задаци и њихове врсте у учењу појачања

Задатак је један случај проблема арматуре учења. У основи имамо две врсте задатака: континуирани и епизодни.

Непрекидни задаци

То су типови задатака који се настављају заувек. На пример, РЛ агент који обавља аутоматизовано Форек / Стоцк трговање.

У овом случају, агент мора да научи како да изабере најбоље акције и истовремено комуницира са околином. Не постоји почетна тачка и крајње стање.

РЛ агент мора да ради све док не одлучимо да га ручно зауставимо.

Епизодни задатак

У овом случају имамо почетну и завршну тачку која се назива терминално стање. Ово ствара епизоду : списак држава (С), радњи (А), награда (Р).

Зана пример , играјући игру контра удара , где пуцамо на противнике или нас убијају. Пуцамо у све њих и довршавамо епизоду или смо убијени. Дакле, постоје само два случаја за довршавање епизода.

Компликовање истраживања и експлоатације

У учењу појачања постоји важан концепт истраживања и експлоатације. Истраживање се састоји у проналажењу више информација о окружењу, док експлоатација користи већ познате информације како би максимализирала награду.

Пример из стварног живота: Рецимо да идете у исти ресторан сваки дан. У основи експлоатишете. Али с друге стране, ако сваки пут тражите нови ресторан пре него што одете у било који од њих, онда је то истраживање . Истраживање је веома важно за тражење будућих награда које би могле бити веће од блиских награда.

У горњој игри наш роботски миш може имати добру количину ситног сира (+0,5 сваки). Али на врху лавиринта налази се велика сума сира (+100). Дакле, ако се усредсредимо само на најближу награду, наш роботски миш никада неће достићи велику суму сира - он ће само експлоатисати.

Али ако роботски миш мало истражи, може наћи велику награду, тј. Велики сир.

Ово је основни концепт трговине и експлоатације.

Приступи ојачавању учења

Хајде сада да разумемо приступе решавању проблема учења са појачањем. У основи постоје 3 приступа, али у овом чланку ћемо узети само два главна приступа:

1. Приступ заснован на политикама

У учењу ојачавања заснованом на политикама, имамо политику коју морамо оптимизирати. Смернице у основи дефинишу како се агент понаша:

Учимо функцију политике која нам помаже у мапирању сваке државе на најбољи начин.

Улазећи дубоко у политике, даље делимо политике на две врсте:

  • Детерминистички : политика у датом стању (има) увек ће вратити исту радњу (а). Значи, унапред је мапиран као С = (с) ➡ А = (а).
  • Стохастички : Даје расподелу вероватноће током различитих радњи . тј. стохастичка политика ➡ п (А = а | С = с)

2. На основу вредности

У РЛ заснованом на вредности, циљ агента је да оптимизује вредносну функцију В (с) која је дефинисана каофункција која нам говори максималну очекивану будућу награду коју ће агент добити у свакој држави.

Вредност сваке државе је укупан износ награде коју РЛ агент може очекивати да ће убудуће прикупити од одређене државе.

Агент ће користити горњу функцију вредности да би изабрао које стање да изабере на сваком кораку. Агент ће увек узети државу са највећом вредношћу.

У доњем примеру видимо да ћемо на сваком кораку узети највећу вредност да бисмо постигли свој циљ: 1 3 4 ➡ 6 итд ...

Игра Понг - Интуитивна студија случаја

Узмимо стварни пример играња понг-а. Ова студија случаја само ће вас упознати са интуицијом како учење ојачања функционише . У овом примеру нећемо улазити у детаље, али у следећем чланку ћемо сигурно дубље копати.

Претпоставимо да научимо нашег РЛ агента да игра игру Понг.

У основи, у оквире игара (нова стања) уносимо РЛ алгоритам и остављамо алгоритму да одлучи где ће ићи горе или доле. За ову мрежу се каже да је мрежа смерница, о чему ћемо размотрити у следећем чланку.

Метода која се користи за обуку овог алгоритма назива се градијент политике . Хранимо случајне оквире из механизма игре, а алгоритам даје случајни излаз који даје награду и он се враћа алгоритму / мрежи. Ово је итеративни процес.

О градијентима политика ћемо разговарати у следећем чланку са више детаља.

У контексту игре, табла резултата делује као награда или повратна информација агенту. Кад год агент настоји да постигне +1, он схвата да је радња предузета у том стању била довољно добра.

Сада ћемо обучити агента да игра понг. За почетак ћемо у мрежу / алгоритам убацити гомилу оквира (стања) и дозволити алгоритму да одлучује о акцији. Почетне акције агента ће очигледно бити лоше, али наш агент понекад може имати довољно среће да постигне резултат тачка и ово би могао бити случајан догађај. Али због овог срећног случајног догађаја, он добија награду и то помаже агенту да схвати да је низ акција био довољно добар да донесе награду.

Дакле, у будућности ће агент вероватно предузети радње којима ће добити награду у односу на акције које то неће учинити. Интуитивно, РЛ агент се нагиње да игра игру.

Ограничења

Током тренинга агента, када агент изгуби епизоду, алгоритам ће одбацити или смањити вероватноћу предузимања свих серија радњи које су постојале у овој епизоди.

Али ако је агент имао добре резултате од почетка епизоде, али само због последње 2 акције агент је изгубио игру, нема смисла одбацити све акције. Уместо тога има смисла ако само уклонимо последње 2 радње које су резултирале губитком.

Ово се назива проблем додељивања кредита. Овај проблем настаје због оскудног постављања награда. Односно, уместо да на сваком кораку добијемо награду, награду добијамо на крају епизоде. Дакле, на агенту је да сазна које су акције биле тачне и које су стварне радње довеле до губитка игре.

Дакле, због ове ретке поставке награде у РЛ, алгоритам је врло неефикасан у узорку. То значи да се морају уложити огромни примери обуке како би се обучио агент. Али чињеница је да оскудна подешавања награда у многим околностима пропадају због сложености окружења.

Дакле, постоји нешто што се зове обликовање награда које се користи за решавање овог проблема. Али опет, обликовање награда такође пати од неких ограничења јер морамо да дизајнирамо прилагођену функцију награђивања за сваку игру.

Завршна напомена

Данас је учвршћивање учење узбудљиво поље студија. На терену су постигнути главни помаци, од којих је једно дубоко учвршћивање.

У нашим предстојећим чланцима покриваћемо дубоко учвршћивање. Овај чланак покрива пуно концепата. Узмите си времена да бисте разумели основне концепте учења ојачавања.

Али, желео бих да напоменем да појачање није тајна црна кутија. Каква год побољшања која данас видимо у пољу учења појачања резултат су бистрих умова који раде даноноћно на одређеним применама.

Следећи пут ћемо радити на К-агенту за учење и такође ћемо покрити неке основне ствари у учењу појачања.

До тада, уживајте у АИ?…

Важно : Овај чланак је први део серије Дубоко ојачано учење, Комплетна серија биће доступна и на обрасцима читљивим за текст на медијуму и у обрасцу за објашњење видеа на мом каналу на ИоуТубе-у.

За дубље и интуитивније разумевање учења појачања, препоручио бих вам да погледате видео испод:

Претплатите се на мој ИоуТубе канал За више АИ видео записа: АДЛ .

Ако вам се свидео мој чланак, кликните на ? а и даље сам мотивисан да пишем и молим вас пратите ме на Медиум &

Ако имате било каквих питања, јавите ми у коментару испод или на Твиттеру . Претплатите се на мој ИоуТубе канал за више техничких видео записа: АДЛ .