Увод у РОУГЕ и како га користити за процену резимеа

Увод у РОУГЕ и како га користити за процену резимеа

РОУГЕ је скраћеница од Рецалл-Ориентед Ундерстуди фор Гистинг Евалуатион. То је у основи скуп метрика за процену аутоматског сажимања текстова као и машинских превода.

Функционише упоређивањем аутоматски произведеног резимеа или превода са низом референтних сажетака (обично произведених у човеку). Рецимо да имамо следећи систем и резимее референци:

Сажетак система (шта је машина произвела):

the cat was found under the bed

Резиме референце (златни стандард - обично људи):

the cat was under the bed

Ако узмемо у обзир само појединачне речи, број преклапајућих речи између сажетка система и сажетка референце је 6. Ово, међутим, не говори вам много као метрика. Да бисмо добили добру квантитативну вредност, заправо можемо израчунати прецизност и опозвати помоћу преклапања.

Једноставно речено, подсетите се (у контексту РОУГЕ) односи се на то који део резимеа референцесажетак систем опоравља и хватање. Ако само разматрамо поједине речи, то се може израчунати као:

У овом примеру, опозив би тако био:

То значи да је системски резиме ухватио све речи у резимеу референце , што је заиста случај у овом примеру. Воила!

Ово изгледа заиста добро за систем сажимања текста. Али то вам не говори другу страну приче. Машински генерисани резиме (системски резиме) може бити изузетно дугачак, узимајући све речи у резимеу референце. Али, многе речи у сажетку система могу бити бескорисне, чинећи сажетак непотребно детаљним.

Овде прецизност долази до изражаја. Што се тиче прецизности, оно што у основи мерите је колико је сажетак система заправо био релевантан или потребан ? Прецизност се мери као:

У овом примеру би прецизност била:

То једноставно значи да је 6 од 7 речи у резимеу система заправо било релевантно или потребно. Ако бисмо имали следећи резиме система, за разлику од горњег примера -

Резиме система 2:

the tiny little cat was found under the big funny bed

Прецизност сада постаје:

Сад, ово не изгледа тако добро, зар не? То је зато што у резимеу имамо прилично непотребних речи. Прецизност аспект постаје стварно пресудно када покушавате да генеришу резиме који су концизни у природи. Због тога је увек најбоље израчунати и прецизност и опозив, а затим пријавити Ф-меру .

Ако су ваши сажеци на неки начин приморани да буду сажети кроз нека ограничења, можете размислити о употреби само опозива, јер је прецизност у овом сценарију мање забрињавајућа.

РОУГЕ-Н, РОУГЕ-С и РОУГЕ-Л могу се сматрати грануларношћу текстова који се упоређују између системских сажетака и референтних сажетака.

  • РОУГЕ-Н - мери униграм , биграм , триграми преклапање н-грама вишег реда
  • РОУГЕ-Л - мери најдуже подударање низа речи користећи ЛЦС. Предност употребе ЛЦС је у томе што не захтевају узастопна подударања већ подударања у низу која одражавају редослед речи на нивоу реченице. Будући да аутоматски укључује најдуже уобичајене н-граме у низу, не треба вам унапред дефинисана дужина н-грама.
  • РОУГЕ-С - Да ли је било који пар речи у реченици редом, омогућавајући произвољне празнине. Ово се такође може назвати слагањем прескакања грама. На пример, скип-биграм мери преклапање парова речи који могу имати највише два размака између речи. Као пример, за фразу „мачка у шеширу“ прескочени биграми би били „мачка у, мачка, мачји шешир, у, у шеширу, шешир“.

На пример, РОУГЕ-1 се односи на преклапање униграма између резимеа система и резимеа референце. РОУГЕ-2 се односи на преклапање биграма између система и референтних сажетака.

Узмимо пример одозго. Рецимо да желимо да израчунамо прецизност РОУГЕ-2 и опозовемо резултате.

Сажетак система:

the cat was found under the bed

Сажетак референце:

the cat was under the bed

Биграми сажетка система:

the cat, cat was, was found, found under, under the, the bed

Биграми сажетка референце:

the cat, cat was, was under, under the, the bed

На основу горњих биграма, опозив РОУГЕ-2 је следећи:

У основи, системски резиме је опоравио 4 биграма од 5 биграма из резимеа референце, што је прилично добро! Сада је прецизност РОУГЕ-2 следећа:

Прецизност овде нам говори да се од свих системских биграма са 67% преклапа са референтним резимеом. Ни ово није лоше. Имајте на уму да ће сажеци (и системски и референтни сажеци) постајати све дужи и дужи и биће мање преклапајућих биграма. Ово је нарочито тачно у случају апстрактног сажимања, где реченице не користите поново за сажимање.

Разлог због којег би се РОУГЕ-1 користио преко или заједно са РОУГЕ-2 (или другим финим детаљима РОУГЕ мера) је тај што такође показује флуентност сажетака или превода. Интуиција је да ако пажљивије пратите редослед речи референтног резимеа, онда је ваш резиме течнији.

За детаљније информације о овим показатељима процене можете се обратити Линовом раду. Коју меру користити, зависи од конкретног задатка који покушавате да процените. Ако радите на екстрактивном сажимању са прилично опширним системом и референтним сажетцима, онда би можда било смислено користити РОУГЕ-1 и РОУГЕ-Л. За врло сажете резимее, само РОУГЕ-1 може бити довољан, посебно ако примените и матичне речи и зауставите уклањање речи.

Радови за читање

  • РОУГЕ: Пакет за аутоматску евалуацију сажетака