Историја машинског превођења од хладног рата до дубоког учења

Гоогле преводилац отворим двоструко чешће од Фацебоок-а, а тренутни превод ознака са ценама за мене више није циберпунк. То називамо стварношћу. Тешко је замислити да је ово резултат стогодишње борбе за изградњу алгоритама машинског превођења и да током половине тог периода није било видљивог успеха.

Прецизни догађаји о којима ћу расправљати у овом чланку постављају основу свих савремених система за обраду језика - од претраживача до микроталаса управљаних гласом. Говорим о еволуцији и структури онлајн превођења данас.

У почетку

Прича почиње 1933. године. Совјетски научник Петер Троианскии је Академији наука СССР-а представио „машину за одабир и штампу речи при превођењу са једног језика на други“. Изум је био изузетно једноставан - имао је картице на четири различита језика, писаћу машину и филмску камеру старе школе.

Оператер је узео прву реч из текста, пронашао одговарајућу картицу, снимио фотографију и откуцао на писаћим машинама њене морфолошке карактеристике (именица, множина, генитив). Тастери писаће машине кодирали су једну од карактеристика. Трака и филм камере коришћени су истовремено, чинећи низ оквира са речима и њиховом морфологијом.

Упркос свему овоме, као што се често дешавало у СССР-у, проналазак се сматрао „бескорисним“. Тројански је умро од Стенокардије након 20 година покушаја да доврши свој изум. Нико на свету није знао за машину све док два совјетска научника нису пронашла његове патенте 1956. године.

Било је то на почетку хладног рата. 7. јануара 1954. године, у седишту ИБМ-а у Њујорку, започео је експеримент Георгетовн – ИБМ. Рачунар ИБМ 701 је први пут у историји аутоматски превео 60 руских реченица на енглески језик.

„Девојчица која није разумела ни реч совјетског језика избацила је руске поруке на ИБМ картицама. „Мозак“ је своје енглеске преводе избацио на аутоматском штампачу вратоломном брзином од две и по линије у секунди “, - известило је ИБМ-ово саопштење за штампу.

Међутим, тријумфални наслови сакрили су један мали детаљ. Нико није поменуо да су преведени примери пажљиво одабрани и тестирани како би се искључила било каква двосмисленост. За свакодневну употребу тај систем није био ништа бољи од џепног речника. Ипак, покренута је ова врста трке у наоружању: Канада, Немачка, Француска, а посебно Јапан, све су се придружиле трци за машинско превођење.

Трка за машинским превођењем

Узалудне борбе за побољшање машинског превођења трајале су четрдесет година. Амерички одбор АЛПАЦ је у свом чувеном извештају 1966. године машинско превођење назвао скупим, нетачним и неперспективним. Уместо тога, препоручили су фокусирање на развој речника, који је америчке истраживаче елиминисао из трке скоро деценију.

Упркос томе, основу за савремену обраду природног језика створили су само научници и њихови покушаји, истраживања и развој. Сви данашњи претраживачи, филтери за нежељену пошту и лични асистенти појавили су се захваљујући гомили држава које шпијунирају једна другу.

Машинско превођење засновано на правилима (РБМТ)

Прве идеје о машинском превођењу заснованом на правилима појавиле су се 70-их. Научници су завирили у рад тумача, покушавајући да приморају изузетно троме рачунаре да понове те радње. Ови системи су се састојали од:

  • Двојезични речник (РУ -> ЕН)
  • Скуп језичких правила за сваки језик (На пример, именице које се завршавају у одређеним суфиксима као што су -хеит, -кеит, -унг су женског рода)

То је то. Ако је потребно, системи би могли бити допуњени хаковима, као што су спискови имена, коректори правописа и транслитератори.

ПРОМПТ и Систран су најпознатији примери РБМТ система. Само погледајте Алиекпресс да бисте осетили благи дах овог златног доба.

Али чак су и они имали неке нијансе и подврсте.

Директно машинско превођење

Ово је најједноставнија врста машинског превођења. Текст дели на речи, преводи их, незнатно исправља морфологију и усклађује синтаксу да би цела ствар, више или мање, звучала исправно. Када сунце зађе, обучени лингвисти пишу правила за сваку реч.

Излаз враћа неку врсту превода. Обично је прилично усрано. Изгледа да су лингвисти узалуд трошили време.

Савремени системи уопште не користе овај приступ, а савремени лингвисти су захвални.

Машинско превођење засновано на трансферу

За разлику од директног превода, прво се припремамо одређивањем граматичке структуре реченице, онако како су нас учили у школи. Тада после манипулишемо целим конструкцијама, а не речима. Ово помаже у сасвим пристојној конверзији реда речи у преводу. Теоретски.

У пракси је то и даље резултирало дословним превођењем и исцрпљивањем лингвиста. С једне стране, донео је поједностављена општа граматичка правила. Али с друге стране, постало је компликованије због повећаног броја конструкција речи у поређењу са појединачним речима.

Интерлингвални машински превод

У овој методи, изворни текст се трансформише у средњу представу и обједињује се за све светске језике (интерлингуа). То је иста она интерлингуа о којој је Декарт сањао: мета-језик, који следи универзална правила и преводи превод у једноставан задатак „напријед-назад“. Даље, интерлингуа ће се претворити у било који циљни језик, и ту је била сингуларност!

Због конверзије, Интерлингуа се често меша са системима заснованим на трансферу. Разлика су у језичким правилима специфичним за сваки поједини језик и међујезик, а не у језичким паровима. То значи да у систем интерлингуа можемо додати трећи језик и преводити између сва три језика. То не можемо учинити у системима заснованим на трансферу.

Изгледа савршено, али у стварном животу није. Било је изузетно тешко створити такав универзални интерлингуа - многи научници су на њему радили читав свој живот. Нису успели, али захваљујући њима сада имамо морфолошке, синтаксичке, па чак и семантичке нивое репрезентације. Али једина теорија текста значења кошта богатство!

Вратиће се идеја средњег језика. Сачекајмо мало.

Као што видите, сви РБМТ су глупи и застрашујући, и то је разлог зашто се ретко користе, осим у одређеним случајевима (попут превода временских извештаја и тако даље). Међу предностима РБМТ-а често се помињу његова морфолошка тачност (не збуњује речи), поновљивост резултата (сви преводиоци добијају исти резултат) и могућност прилагођавања предметној области (да би се подучавали економисти или термини специфично за програмере, на пример).

Чак и кад би неко успео да створи идеалан РБМТ, а лингвисти га побољшају свим правописним правилима, увек би постојали изузеци: сви неправилни глаголи на енглеском, одвојиви префикси на немачком, суфикси на руском и ситуације када људи само реци другачије. Сваки покушај да се узму у обзир све нијансе изгубио би милионе радних сати.

И не заборавите на хомониме. Иста реч може имати различито значење у другом контексту, што доводи до различитих превода. Колико значења можете овде да ухватите: Видео сам човека на брду са телескопом ?

Језици се нису развили на основу утврђених скупова правила - чињеница коју лингвисти воле. На њих је много више утицала историја инвазија у протеклих триста година. Како бисте то могли објаснити машини?

Четрдесет година хладног рата није помогло у проналажењу јасног решења. РБМТ је био мртав.

Пример машинског превођења (ЕБМТ)

Јапан је био посебно заинтересован за борбу за машинско превођење. Није било хладног рата, али постојали су разлози: врло мало људи у земљи знало је енглески. Обећало је да ће то бити прилично важно на предстојећој странци глобализације. Тако су Јапанци били изузетно мотивисани да пронађу ефикасан метод машинског превођења.

Енглески-јапански превод заснован на правилима изузетно је сложен. Структура језика је потпуно другачија и готово све речи морају да се преуреде и додају нове. Макото Нагао са Универзитета у Кјоту 1984. године дошао је на идеју да користи готове фразе уместо поновљеног превода .

Замислимо да морамо превести једноставну реченицу - „Идем у биоскоп“. И рецимо да смо већ превели још једну сличну реченицу - „Идем у позориште“ - и реч „биоскоп“ можемо наћи у речнику.

Све што нам треба је да схватимо разлику између две реченице, преведемо реч која недостаје и онда је не зајебамо. Што више примера имамо, то је бољи превод.

Израђујем фразе на непознатим језицима потпуно на исти начин!

ЕБМТ је светлост дана указао научницима из целог света: испоставило се да можете само хранити машину постојећим преводима и не трошити године на формирање правила и изузетака. Још није револуција, али је очигледно први корак ка њој. Револуционарни изум статистичког превођења догодио би се за само пет година.

Статистичко машинско превођење (СМТ)

Почетком 1990. у ИБМ истраживачком центру први пут је приказан систем за машинско превођење који није знао ништа о правилима и лингвистици у целини. Анализирала је сличне текстове на два језика и покушала да разуме обрасце.

Идеја је била једноставна, али лепа. Идентична реченица на два језика подељена је на речи, које су се потом подударале. Ова операција се поновила око 500 милиона пута да би се на пример избројало колико пута је реч „Дас Хаус“ преведена као „кућа“ у односу на „зграду“ у односу на „изградњу“, и тако даље.

Ако је већину времена изворна реч била преведена као „кућа“, машина је ово користила. Имајте на уму да нисмо поставили никаква правила нити користили било какве речнике - сви закључци су изведени машински, вођени статистиком и логиком да „ако људи преводе на тај начин, и ја ћу“. И тако се родио статистички превод.

Метода је била много ефикаснија и тачнија од свих претходних. И нису били потребни лингвисти. Што смо више текстова користили, то смо добили бољи превод.

Преостало је још једно питање: како би машина повезала реч „Дас Хаус“ и реч „зграда“ - и како бисмо знали да су то прави преводи?

Одговор је био да не бисмо знали. На почетку је машина претпоставила да је реч „Дас Хаус“ подједнако корелирала са било којом речју из преведене реченице. Даље, када би се „Дас Хаус“ појавио у другим реченицама, повећао би се број корелација са „кућом“. То је „алгоритам поравнавања речи“, типичан задатак за машинско учење на универзитетском нивоу.

Машини су били потребни милиони и милиони реченица на два језика да би прикупила релевантне статистике за сваку реч. Како смо их добили? Па, одлучили смо да узмемо сажетке са седница Европског парламента и Савета безбедности Уједињених нација - били су доступни на језицима свих земаља чланица, а сада су доступни за преузимање у корпусима УН и Еуропарл Цорпора.

СМТ заснован на речи

У почетку су први статистички преводилачки системи деловали цепањем реченице на речи, јер је овај приступ био директан и логичан. Први ИБМ-ов модел статистичког превођења назван је Модел један. Сасвим елегантно, зар не? Погодите како су звали другог?

Модел 1: „врећа речи“

Први модел је користио класичан приступ - да се подели на речи и преброји статистику. Ред речи није узет у обзир. Једини трик био је превођење једне речи у више речи. На пример, „Дер Стаубсаугер“ би се могао претворити у „Усисивач“, али то није значило да ће се испоставити обрнуто.

Ево неколико једноставних примена у Питхону: схава / ИБМ-Модел-1.

Модел 2: разматрање реда речи у реченицама

Недостатак знања о редоследу речи у језицима постао је проблем за модел 1 и у неким случајевима је веома важан.

Модел 2 се тиме позабавио: запамтио је уобичајено место које реч заузима у излазној реченици и измешао речи ради природнијег звука у средњем кораку. Ствари су се поправиле, али и даље су биле некако усране.

Модел 3: додатна плодност

Нове речи су се у преводу појављивале прилично често, као што су чланци на немачком или коришћење „до“ када се негира на енглеском. "Ицх вилл кеине Персимонен" → "Ја не не желим Персиммонс." Да би се то решило, у модел 3 додата су још два корака.

  • Уметање НУЛЛ токена, ако машина сматра потребном нову реч
  • Избор праве граматичке честице или речи за свако поравнање лексеме

Модел 4: поравнање речи

Модел 2 је разматрао поравнање речи, али није знао ништа о преуређивању. На пример, придеви би често замењивали места именицом и без обзира колико је редослед добро запамћен, то не би побољшало излаз. Стога је Модел 4 узео у обзир такозвани „релативни поредак“ - модел је научио ако су се две речи увек замењивале.

Модел 5: исправке грешака

Овде нема ништа ново. Модел 5 је добио још неке параметре за учење и решио проблем са сукобљеним положајима речи.

Упркос својој револуционарној природи, системи засновани на речима и даље нису успевали да се баве случајевима, родом и хомонимијом. Свака машина је преведена на један истинит начин, према машини. Такви системи се више не користе, јер су замењени напреднијим методама заснованим на фразама.

СМТ заснован на фразама

Овај метод заснован је на свим принципима превођења заснованим на речима: статистикама, преуређивању и лексичком хаковању. Иако је за учење текст поделио не само на речи већ и на фразе. То су били н-грами, тачније, који су били непрекидни низ од н речи у низу.

Тако је машина научила да преводи стабилне комбинације речи, што је приметно побољшало тачност.

Трик је био у томе што фразе нису увек биле једноставне синтаксне конструкције, а квалитет превода је значајно опао ако се умешао неко ко је био упознат са лингвистиком и структуром реченица. Фредерицк Јелинек, пионир рачунарске лингвистике, једном се томе нашалио: „Сваки пут кад отпустим лингвиста, перформансе препознавача говора се повећавају.“

Поред побољшања тачности, превод заснован на фразама пружио је више могућности у одабиру двојезичних текстова за учење. За превод заснован на речи, тачно подударање извора било је критично, што је искључило сваки књижевни или бесплатни превод. Превод заснован на фрази није имао проблема да учи од њих. Да би побољшали превод, истраживачи су у ту сврху чак почели да рашчлањују веб локације са вестима на различитим језицима.

Почевши од 2006. године, сви су почели да користе овај приступ. Гоогле преводилац, Иандек, Бинг и други висококвалитетни онлајн преводиоци радили су као фразе све до 2016. Свако од вас вероватно се сећа тренутака када је Гоогле реченицу превео беспрекорно или је резултирао потпуном глупошћу, зар не? Бесмислице су долазиле од карактеристика заснованих на фразама.

Добри стари приступ заснован на правилима доследно је пружао предвидљив, мада ужасан резултат. Статистичке методе су биле изненађујуће и загонетне. Гоогле преводилац претвара „триста“ у „300“ без икаквог оклевања. То се назива статистичка аномалија.

Превођење засновано на фразама постало је толико популарно да када се чује „статистички машински превод“ управо се на то мисли. Све до 2016. године, све студије су хвалиле превођење засновано на фразама као најсавременије. Тада нико није ни помислио да Гоогле већ ложи ватру, спремајући се да промени целу нашу слику машинског превођења.

СМТ заснован на синтакси

Овај метод такође треба укратко споменути. Много година пре појаве неуронских мрежа, превођење засновано на синтакси сматрало се „будућношћу или преводом“, али идеја није узела маха.

Присталице превода заснованог на синтакси веровали су да је могуће спојити га са методом заснованом на правилима. Потребно је извршити прилично прецизну синтаксну анализу реченице - одредити субјекат, предикат и друге делове реченице, а затим изградити стабло реченица. Користећи га, машина учи да претвара синтаксичке јединице између језика, а остатак преводи речима или фразама. То би једном заувек решило питање поравнања речи.

Проблем је у томе што синтаксичко рашчлањивање делује ужасно, упркос чињеници да га већ неко време сматрамо решеним (јер имамо готове библиотеке за многе језике). Покушао сам да користим синтаксичка стабла за задатке мало компликованије него за рашчлањивање субјекта и предиката. И сваки пут сам одустао и користио другу методу.

Обавестите ме у коментарима ако успете да га користите бар једном.

Неурал Мацхине Транслатион (НМТ)

Прилично забаван чланак о коришћењу неуронских мрежа у машинском превођењу објављен је 2014. Интернет то уопште није приметио, осим Гооглеа - извадили су лопате и почели да копају. Две године касније, у новембру 2016. године, Гоогле је објавио најаву о промени игре.

Идеја је била близу преношења стила између фотографија. Сјећате се апликација попут Присме, које су побољшале слике у стилу неког познатог умјетника? Није било чаролије. Неуронска мрежа је научена да препозна уметникове слике. Затим су уклоњени последњи слојеви који садрже одлуку мреже. Добијена стилизована слика била је само средња слика коју је мрежа добила. То је фантазија мреже и ми је сматрамо лепом.

Ако стил можемо пренети на фотографију, шта ако покушамо да изворном тексту наметнемо други језик? Текст би био тај прецизни „уметников стил“, а ми бисмо покушали да га пренесемо задржавајући суштину слике (другим речима, суштину текста).

Замислите да покушавам да опишем свог пса - просечне величине, оштрог носа, кратког репа, увек лаје. Ако бих вам дао овај скуп особина пса и ако би опис био прецизан, могли бисте га нацртати, иако га никада нисте видели.

Сада, замислите да је изворни текст скуп специфичних карактеристика. У основи, то значи да га кодирате и пустите да га друга неуронска мрежа декодира натраг у текст, али на другом језику. Декодер зна само свој језик. Нема представу о пореклу обележја, али их може изразити на пример, на шпанском. Настављајући аналогију, није битно како нацртате пса - бојицама, акварелом или прстом. Бојиш је како можеш.

Још једном - једна неуронска мрежа може само кодирати реченицу према одређеном скупу карактеристика, а друга их може само декодирати натраг у текст. Обоје немају појма једно о другом и свако од њих зна само свој језик. Сећате се нечега? Интерлингуа се вратила. Та-да.

Питање је, како да пронађемо те карактеристике? Очигледно је када говоримо о псу, али како се носити са текстом? Пре тридесет година научници су већ покушали да створе универзални језички код и то је завршило тоталним неуспехом.

Ипак, сада дубоко учимо. И то је његов основни задатак! Примарна разлика између дубоког учења и класичних неуронских мрежа лежи управо у способности тражења тих специфичних карактеристика, без икакве идеје о њиховој природи. Ако је неуронска мрежа довољно велика, а при руци је неколико хиљада видео картица, могуће је пронаћи и те функције у тексту.

Теоретски, особине стечене са неуронских мрежа можемо пренети лингвистима, тако да они себи могу отворити храбре нове хоризонте.

Поставља се питање који тип неуронске мреже треба користити за кодирање и декодирање? Конволуционе неуронске мреже (ЦНН) савршено се уклапају у слике јер раде са независним блоковима пиксела.

Али у тексту нема независних блокова - свака реч зависи од свог окружења. Текст, говор и музика су увек доследни. Тако би понављајуће неуронске мреже (РНН) биле најбољи избор за руковање њима, јер се у нашем случају сећају претходног резултата - претходне речи.

Сада се РНН-ови користе свуда - Сири-јево препознавање говора (рашчлањивање низа звукова, при чему следећи зависи од претходног), савети тастатуре (запамтите претходника, погодите следећег), генерација музике, па чак и цхатботови.

За штребере попут мене: заправо, архитектура неуронских преводилаца се веома разликује. У почетку је коришћен редовни РНН, а затим је надограђен на двосмерни, где је преводилац разматрао не само речи испред изворне речи, већ и следећу реч. То је било много ефикасније. Затим је уследио хардцоре вишеслојни РНН са ЛСТМ јединицама за дугорочно чување преводилачког контекста.

За две године, неуронске мреже надмашиле су све што се појавило у последњих 20 година превођења. Неурални превод садржи 50% мање грешака у редоследу речи, 17% мање лексичких грешака и 19% мање граматичких грешака. Неуронске мреже су чак научиле да усклађују род и случај на различитим језицима. И нико их томе није научио.

Најуочљивија побољшања догодила су се на пољима у којима директни превод никада није коришћен. Статистичке методе машинског превођења увек су радиле користећи енглески као кључни извор. Дакле, ако сте превели са руског на немачки, машина је прво превела текст на енглески, а затим са енглеског на немачки, што доводи до двоструког губитка.

Неуралном преводу то није потребно - потребан је само декодер да би могао да функционише. Тада је први пут постало могуће директно превођење између језика без уобичајеног речника.

Гоогле преводилац (од 2016.)

Гоогле је 2016. године укључио неуронски превод за девет језика. Развили су свој систем под називом Гоогле Неурал Мацхине Транслатион (ГНМТ). Састоји се од 8 слојева енкодера и 8 декодера РНН-ова, као и веза пажње из мреже декодера.

Нису делили само реченице, већ и речи. Тако су се бавили једним од главних проблема НМТ - ретким речима. НМТ су беспомоћни када реч није у њиховом лексикону. Рецимо, „Вас3к“. Сумњам да је неко научио неуронску мрежу да преведе мој надимак. У том случају, ГМНТ покушава да сломи речи на делове речи и опорави њихов превод. Оштроуман.

Савет: Гоогле преводилац који се користи за превођење веб страница у прегледачу и даље користи стари алгоритам заснован на фразама. Гоогле га некако није надоградио и разлике су прилично приметне у поређењу са мрежном верзијом.

Гоогле користи механизам краудсорсинга у мрежној верзији. Људи могу да изаберу верзију коју сматрају најтачнијом, а ако се свиђа много корисника, Гоогле ће увек превести ову фразу на тај начин и означити је посебном значком. Ово фантастично функционише за кратке свакодневне фразе попут „Идемо у биоскоп“ или „Чекам те“. Гоогле зна разговорни енглески језик боље од мене :(

Мицрософтов Бинг ради тачно као Гоогле преводилац. Али Иандек је другачији.

Иандек Транслате (од 2017.)

Иандек је лансирао свој систем неуронског превођења 2017. Његова главна карактеристика, како је декларисано, била је хибридност. Иандек комбинује неуронски и статистички приступ за превођење реченице, а затим бира свој најбољи са својим омиљеним ЦатБоост алгоритмом.

Ствар је у томе што неуронско превођење често не успева приликом превођења кратких фраза, јер користи контекст за одабир праве речи. Било би тешко када би се реч појавила врло мало пута у подацима о тренингу. У таквим случајевима једноставан статистички превод брзо и једноставно проналази праву реч.

Иандек не дели детаље. Одбија нас од маркетиншких саопштења за штампу. У РЕДУ.

Изгледа да Гоогле користи СМТ за превод речи и кратких фраза. Они то не спомињу ни у једном чланку, али сасвим је уочљиво ако погледате разлику између превода кратких и дугих израза. Поред тога, СМТ се користи за приказивање статистике речи.

Закључак и будућност

Сви су и даље узбуђени због идеје о „бабељској риби“ - тренутном превођењу говора. Гоогле је направио кораке ка томе са својим Пикел Будс, али у ствари то још увек није оно о чему смо сањали. Тренутни превод говора разликује се од уобичајеног превода. Морате знати када почети са превођењем, а када ћутати и слушати. Још нисам видео одговарајуће приступе да се ово реши. Осим ако, можда, Скипе ...

И ево још једног празног подручја: сво учење је ограничено на скуп паралелних блокова текста. Најдубље неуронске мреже и даље уче у паралелним текстовима. Не можемо научити неуронску мрежу ако јој не пружимо извор. Људи уместо тога свој лексикон могу допунити читањем књига или чланака, чак и ако их не преводе на свој матерњи језик.

Ако људи то могу, у теорији то може и неуронска мрежа. Пронашао сам само један прототип који покушава да подстакне мрежу која познаје један језик да чита текстове на другом језику како би стекао искуство. И сам бих пробао, али сам блесав. Ок, то је то.

Ова прича је првобитно написана на руском језику, а затим је на Вас3к.цом на Вас3к.цом превео Василиј Зубарев. Он је мој пријатељ оловке и прилично сам сигурна да би његов блог требало ширити.

Корисни линкови

  • Пхилипп Коехн: Статистички машински превод. Најкомплетнија колекција метода које сам пронашао.
  • Мосес - популарна библиотека за креирање сопствених статистичких превода
  • ОпенНМТ - још једна библиотека, али за неуронске преводиоце
  • Чланак једног од мојих омиљених блогера који објашњава РНН и ЛСТМ
  • Видео „Како направити преводиоца за језик“, смешан момак, лепо објашњење. Још увек није довољно.
  • Текстуални водич из ТенсорФлов-а о стварању сопственог неуронског преводиоца за оне који желе још примера и да испробају код.

Други чланци са Вас3к.цом

Како функционишу Етхереум и Смарт Цонтрацтс

Дистрибуирана Тјурингова машина са Блоцкхаин заштитом вас3к.цом Блоцкцхаин Инсиде Оут: Како Битцоин ради

Једном заувек једноставним речима вас3к.цом

Још једна ствар ...

Ако вам се свидео овај чланак, кликните на ? испод и поделите га са другим људима како би и они могли уживати.