Машинный перевод vs языковой барьер: от эсперанто до нейросетей  - Hitecher
Машинный перевод vs языковой барьер: от эсперанто до нейросетей 

Машинный перевод vs языковой барьер: от эсперанто до нейросетей 

написал Ethan Oakes

Сколько существует человечество, столько существует и проблема языкового перевода.

Сколько существует человечество, столько существует и проблема языкового перевода.

Древние люди даже придумали легенду о Вавилонской башне, когда потомки Ноя пытались достичь небес, но Бог разрушил ее и «перемешал языки», чтобы строители больше не могли понимать друг друга и построить башню вновь. Сколько бы эпох ни минуло, по сей день одно из самых сокровенных и популярных человеческих желаний — это знать абсолютно все языки мира, чтобы языковой барьер больше никогда не был для них помехой. Вот только в мире, согласно данным крупнейшего языкового каталога Ethnologue, более 7000 языков… Попробуете осилить все? Нет?

На самом деле вам это уже и не нужно, ведь давно существует машинный перевод! А с недавних пор еще и ИИ-перевод, который в тысячу раз круче любого специалиста с любым образованием. В этой статье мы расскажем, как человечество пришло к тому, чтобы наконец-то осуществить свою давнюю мечту, и как работают с точки зрения перевода нейросети, которые уже доступны вам сегодня (и даже бесплатно, кстати).

Единый язык или языковая технология? Начало истории

Когда гении прошлого размышляли над тем, как же привести мир ко всеобщему пониманию и устранить языковой барьер, у них было два пути: придумать общий язык или изобрести технологию, которая бы позволяла понимать любой язык любому жителю планеты. Конечно, в XVII веке, когда начались поползновения в эту сторону в результате великих географических открытий и появления необходимости устанавливать контакт между разными народами, ни о каких подходящих технологиях не могло быть и речи. Не было тогда еще ни материалов, ни знаний, ни опыта для создания таковых. Словом, слишком рано. Поэтому ученые пошли по пути более простому — первому, и так начались разработки единого общемирового языка.

Среди тех, кто занимался разработкой, особенно отличились математики Рене Декарт и Готфрид Лейбниц, которые предложили комбинированный метод для создания искусственного и рационального (в отличие от существующих) языка с помощью чисел. Проще говоря, все буквы предлагалось заменить цифрами, но, как можно догадаться, распространения эта идея не получила, ибо далеко не всё население в XVII веке знало математику (да и цифры в принципе). 

Настоящего успеха достиг варшавский лингвист и окулист Лазарь Маркович Заменгоф, когда в результате десятилетней работы в 1887 году был создан искусственный язык под названием эсперанто. По сей день на эсперанто издаются книги и вещают некоторые радиостанции в Китае, Австралии и Польше. В Венгрии же этот язык и вовсе можно изучать в школах. В основе эсперанто лежит латынь и языки романской группы, то есть французский, итальянский и т.д. Однако такого распространения, как тот же самый английский, он, увы, не получил. Возможно, потому что для того, чтобы эсперанто пользоваться, его всё равно нужно изучать, то есть полностью проблему языкового барьера это не решает, а лишь дает инструмент для его снижения. 

Итак, как вы уже поняли, гении нашего мира всё-таки пришли к тому, что первый способ был неэффективен, и спустя годы, когда окружающие условия уже позволяли это, занялись вторым. Первый известный машинный переводчик, способный переводить отдельные слова и даже фразы с одного языка на другой, был изобретен французом Жоржем Арцруни и запатентован в 1930-х годах. Его переводчик в то же время являлся шифровальной машиной, поскольку шифровальные машины пользовались небывалым спросом после Первой мировой войны и в преддверии Второй. Особенностью и недостатком переводчика Арцруни было обязательное участие человека, способного привести полученный перевод в читабельный вид, поскольку это выглядело как набор символов, который требовалось расшифровать уже вручную. 

Следующим достижением в области машинного перевода стала система Петра Троянского, но принцип его работы был очень сложным и энергозатратным: требовалось сфотографировать каждое слово из текста, а на печатной машинке ввести морфологическую информацию о данной лексической единице (т.е. указать склонение, род, падеж, время и т.д.). Кстати, по некоторым сведениям, именно схема Троянского была использована для создания компьютерной клавиатуры с переключением. 

В 40-х годах XX века сделал шаг в развитии машинного перевода и американский ученый Уоррен Уивер. Он создал язык-посредник Interlingva, представляющий собой упрощенную версию английского, и переводил на него оригинальный английский текст, а уже с упрощенного — на язык требуемый. Но всё это, конечно, было очень далеко от тех переводческих инструментов, которые мы с вами имеем сегодня. 

Настоящим прорывом в истории машинного перевода стал Джорджтаунский эксперимент в 1954 году, когда команда ученых из одноименного университета при сотрудничестве с IBM (по сей день это лидеры в поставке ПО по всему миру) использовала для перевода их компьютер. В ходе демонстрации компьютер переводил отобранные фразы с русского языка на английский, в результате чего были выявлены ограничения машинного перевода, например, невозможность учитывать контекст, лексические особенности и т.д. Такая машина всё еще работала в строго заданных рамках в духе словаря — ни шага в сторону от того, что имелось в ее базе и было до этого вручную введено специалистом. Однако компьютеру IBM удалось перевести 60 предложений в сумме на основе 250 заданных терминов и 6 грамматических правил, что, согласитесь, уже неплохо для середины XX века. 

А что было дальше? Революция глубокого обучения и нейросетей

Все методы, которые использовались машинами до этого, относятся к статистическим и являются неэффективными там, где преобладает большое количество культурных, стилистических и импровизационных элементов. Только с появлением интернета в 1990-е годы эту проблему удалось решить. Сначала появился автоматизированный перевод веб-страниц, а в 2000-х годах был открыт так называемый метод глубокого обучения, который и изменил всё.

«Что именно?» — спросите вы. «Всё!» — повторим мы. Если раньше машина осуществляла перевод лишь на основе заранее сформированной базы данных, то в случае глубокого обучения она училась переводить самостоятельно. Принцип (он лежит и в основе современного ИИ) следующий: нейросеть обрабатывает, анализирует и систематизирует огромные массивы данных, то есть уже готовые переводы, и запоминает их. Чем больше таких массивов нейросеть обработает, тем умнее станет и тем, следовательно, точнее и качественнее будет ее собственный перевод. Всё как у людей: чем больше примеров вы проработаете, тем лучше будет ваш результат, верно? Модель глубокого обучения позволила нейросети самостоятельно устанавливать правила и преодолевать барьеры вроде недостатка информации, незнания стилистики и т.д. 

Так, на основе глубокого обучения разработана российская система PROMT, специализирующаяся на переводе профессиональной лексики. Данная система была успешно внедрена в космическую отрасль и доставлена на международные космические станции NASA, благодаря чему повысилось качество коммуникации между астронавтами. Впоследствии на основе PROMT для школьников был выпущен компьютерный переводчик Magic Gooddy, владеющий русским и английским и способный осуществлять практически мгновенный перевод с одного языка на другой. 

В 2016-м же на переводческую арену вышли нейросети уже знакомого нам с вами вида. В отличие от предыдущих систем, они рассматривали не каждую лексическую единицу в отдельности, а сразу целую фразу или даже абзац, что позволило сделать перевод более бесшовным и контекстным. Благодаря этому спустя время (и еще несколько вех в развитии глубокого обучения, которое продолжили совершенствовать) наконец-то удалось научить машину переводить игру слов и лексемы. Технически выглядит это так: при переводе текст разбивается на словарные сегменты, затем система с помощью декодеров измеряет «вес» каждого сегмента в тексте, далее вычленяются наиболее вероятные их значения, таким образом расставляются акценты и происходит перевод сегментов. После этого машина буквально «собирает» их вместе, как пазл, — и опля!

Самым первым, еще в 2016 году, кто предложил человечеству бесплатный перевод на основе нейросети, работающий на модели глубокого обучения, стал, конечно же, переводчик от Google — Google Neural Machine Translation. Он основан не на обычной нейросети, а на рекуррентной. Это значит вот что: система вычисляет значение слова или фразы на основе предыдущих, рассматривая всю последовательность фраз. Благодаря этому система переведет словосочетание «лук из дуба», например, не как onion (овощ), а как bow (т.к. речь о луке, из которого стреляют). При этом нейросеть Google двунаправленная, то есть ее работа разделена на два потока: первый поток разбивает предложение на смысловые элементы и занимается их анализом, а второй предлагает и синтезирует наиболее вероятный перевод. При этом любопытный факт: такая система считывает перевод не только слева направо, как при обычном чтении человеком, но и слева направо! Это позволяет добиться более глубокого понимания фразы. 

Также, помимо машинного обучения и глубокого, в переводе может использоваться модель обработки естественного языка (NLP). Она воспроизводит то, как переводит иностранную речь человек, то есть учитывает эмоциональную окраску, фразеологизмы, перекрестные фрагменты, взаимосвязи слов и т.д. Благодаря этому NLP лучше всего работает там, где важно обработать идиомы или культурные отсылки, но она не дает такой точности, как глубокое обучение, поэтому современные нейросетевые переводчики сочетают сразу две модели — NLP и глубокое обучение, а иногда еще и машинное. 

Конечно, вклад искусственного интеллекта к сферу переводов невозможно переоценить. Интеграция других современных технологий позволяет таким переводчикам воспринимать речь даже на слух в режиме реального времени и предлагать аудио- или текстовый перевод мгновенно. С этим сегодня справляется даже классический Google Translate, который теперь тоже использует нейросеть, благодаря чему его переводы стали еще точнее и качественнее — попробуйте сами!

Поделитесь этим с друзьями!

Ethan Oakes

Ethan Oakes

Постоянный автор HiTecher с 2017 года, журналист, имеет степень магистра по экономической безопасности. В сфере его интересов: программирование, робототехника, компьютерные игры, финансовые рынки.

Все посты Ethan Oakes

Будьте первым, кто оставит комментарий