Компьютеры могут переводить, но сначала им нужно научиться

Семья из Канады едет за границу с детьми, и вдруг дочь шепчет на ухо своей маме, что ей очень, ОЧЕНЬ сильно нужно в туалет. Другими словами, это ЧП. Но как мама спросит, где находится туалет, если вокруг люди говорят на турецком, португальском или китайском.

Если у нее есть смартфон, то она может воспользоваться сервисом Google Translate. Веб-сайт позволяет ввести слово, фразу или целое предложение на английском языке. Затем он показывает перевод на испанский или на любой другой из 100 языков. Когда люди говорят «Google Translate», иногда они имеют в виду веб-сайт. В других случаях они имеют в виду средство машинного перевода, поэтому именно так называют компьютерные программы перевода. (Называть такие программы Google Translate — это так же, как называть любые салфетки по названию бренда «Kleenex»).

Машинный перевод — или любой другой тип перевода — непростая задача. Языки никогда не соответствуют друг другу слово в слово. Например, подумайте о слове «медовый месяц». Это не значит, что месяц сделан из меда. Если вы хотите сказать «медовый месяц» на другом языке, сначала нужно подумать о том, что значит эта фраза: поездка, которую совершают люди после свадьбы. Поэтому на французском языке медовый месяц называется «voyage de noces», что дословно обозначает «свадебное путешествие».

Значение также важнее точных слов, когда мы имеем дело с переводом на английский язык. Представьте себе, что вы француз, и ваша старшая сестра рассказывает вам о своем свидании. «Ты не поверишь», говорит она на французском, «но он дал мне кролика». Конечно, обычно французы не ходят на свидания с кроликами. Фраза «Il m’a pose un lapin» — это французская идиома. Она значит: «он не пришел на свидание».

Если перевод сложен для людей, представьте себе, как сложно будет научить этому компьютер. И это действительно тяжело. Но программисты предприняли значительные попытки, чтобы помочь электронному мозгу правильно толковать «чужие» языки.

Давайте взглянем на некоторые трудности, с которыми им пришлось столкнуться. К счастью, награда в случае успеха может быть огромной: разным культурам больше не придется переводить на другой язык или учить новый, чтобы их могли понять люди по всему миру.

Обучение правилам и понимание того, когда их можно нарушить.

Системы машинного перевода учатся так же, как и дети. Назовем их машинным переводом (МП). Это сокращение, которым пользуются профессиональные переводчики.

Как и у детей, у МП есть мозг. У машинного перевода этот мозг называется двигателем. Эти двигатели пусты, пока их не наполнить словами. Иногда такие слова как «медовый месяц» будут осмысляться отдельно. Другие могут внедряться целыми фразами или предложениями, например: «Мои мама и папа ездили на медовый месяц в Гэтлинбург».

«Мозг» МП обрабатывает эти слова одним из двух способов: по правилу или по поведению. Для понимания языка требуется оба типа (это применимо и к компьютерам, и к людям).

Подумайте об этом. Люди постоянно используют целые предложения, когда говорят о детях. Конечно, они могут повторять слово «яблоко» много раз и показывать на яблоко. Но они также говорят: «Ух ты, МП, тебе действительно нравится твое яблоко». Когда МП видит, как слово работает в контексте других слов в предложении, мозг МП начинает медленно расти. Этот процесс может начаться с изучения значения слова «яблоко». Для этого МП учится понемногу каждый раз, когда используется слово. Но важно и то, что МП учится в тех случаях, когда слово не используется.

Например, вы никогда не скажете: «Мои родители ездили в Гэтлинбург на свое яблоко». Но вы можете сказать: «Они ездили в Большое Яблоко на медовый месяц!» Так как слова могут обозначать несколько предметов (Большое Яблоко — Нью-Йорк), то системы на основе поведения помогают МП понять использование конкретных слов — в данном случае «яблоко» — в разных ситуациях.

Но таких правил на основе поведения недостаточно. Поэтому имеются системы на основе правил. Они помогают МП понять грамматику определенного языка. Например, эти правила учат МП тому, что такое существительное, как существительное отличается от глагола, и что в английском языке существительные стоят до или после глагола в зависимости от того, как они к нему относятся. Поэтому системы на основе правил помогают МП узнать не только о том, что «яблоко» — это существительное, но также что «Я хочу яблоко» является правильным, а «Я яблоко хотеть» — нет.

Правильная грамматика позволяет вам выглядеть умным и образованным. Но иногда вы хотите звучать нестандартно. Для этого можно обойти или даже нарушить правило.

Например, эксперты в английской грамматике знают, что мы не должны заканчивать предложение предлогом (например, от, к, с). Однако люди делают это постоянно. Даже Уинстон Черчилль делал это. Он был премьер-министром Соединенного Королевства и признанным публичным оратором. Считается, что его мотивирующие речи помогли союзникам выиграть Вторую мировую войну.

Однажды его покритиковали за то, что он закончил предложение предлогом. Его ответ: «Заканчивать предложение предлогом — таким английским я не готов мириться с». Вместо того, чтобы сказать «с таким английским я не готов мириться» — как обычно говорят люди — Черчилль использовал глупую фразу. Он хотел сказать, что иногда можно звучать странно, при этом не нарушая правил.

Ер здесь проблема в том, что компьютеры не могут нарушать правила. Они не знают, как. Даже те, у которых есть искусственный интеллект, могут нарушать правила только так, как их научили.

Люди постоянно нарушают правила, чтобы составить новые предложения и слова. Чтобы машина смогла понять и сделать это, она должна выучить, когда правила можно или нужно нарушать. Поэтому хорошем двигателе МП требуется обучение на основе поведения и правил. Красота и практическая польза языка зависит от обоих факторов.

Слова как еда

Система, которая учится на основе правил и поведения называется гибридной. Компьютерные программисты обучают такие гибриды при помощи более крупных порций информации, а не просто изолированных слов или фраз.

«Большинство этих гибридов учится на данных», объясняет Кирти Ваши, частный консультант из Лос-Анджелеса, штат Калифорния. Он помогает переводческим компаниям построить свои собственные системы. Разработчики МП обычно начинают с загрузки в систему большого количества ранее переведенных слов и фраз. Они дают молодому двигателю МП цифровую библиотеку переводов с одного языка на другой. После поглощения этих данных система станет более сведущей и образованной в грамматике этого языка.

Раньше программисты МП обучали системы при помощи целых книг. Книги не только содержат предложения, которые соответствуют правилам грамматики, но и предложения, которые им не соответствуют. Чем больше предложений обоих типов загружали в МП, тем больше примеров получала МП. Например, компания машинного перевода Sovee включила в список текстов, которые она использует для обучения системы МП, даже Библию.

Машинный перевод не работает одинаково эффективно на всех языках. Почему? Самый простой ответ: ни одна система не сможет получить достаточно информации для обучения на каждом языке.

Майк Диллинджер контролирует работу в LinkedIn в области искусственного интеллекта (социальная сеть из Саннивейл, Калифорния). Он также является членом совета центра ADAPT в г. Дублин, Ирландия. «Мы обучаем каждую систему МП двигаться только в одном направлении», объясняет он. Таким языковым направлением может быть пара «английский-испанский». «Затем мы обучаем отдельному языку», отмечает он, «если мы хотим двигаться в другом направлении, например, с испанского на английский».

Некоторые языки, такие как испанский и французский, имеют богатую литературную историю. На этих языках написано много книг, и система МП имеет большой и разнообразный запас слов, которым она может научиться. Существует множество книг и других письменных работ, которые уже переведены с этих языков на английский.

Сравните их с сомалийским языком. На этом языке говорят в африканских станах: Сомали, Джибути, Эритрея, Кения и Эфиопия. До 1962 года в этом языке не существовало письменности! В течение следующего десятилетия политические лидеры Сомали сражались за то, как должен выглядеть их алфавит, отмечает Мохамуд Дирийе Абдуллахи. (В 2001 году он написал книгу «Культуры и обычаи Сомали»).

Теперь сравните с английским. Первый письменный текст на этом языке датируется 602 г. То есть, 1370 лет до письменного сомалийского. Даже сегодня люди, которые говорят на сомалийском, не всегда могут договориться о том, как пишутся слова. Из-за того, что имеется мало текстов и разное написание слов, система МП может быть поставлена в тупик.

Но даже если имеется много книг, иногда они не содержат нужной информации0», говорит Диллинджер. Помимо того, что требуется система для каждого направления, МП может работает наиболее эффективно, если имеет отдельные системы для разных предметных областей. Например, одна система переводов с английского на испанский может переводить о еде, а другая о спорте.

«Нам нужно выбрать примеры предложений, которые принадлежат одной тематике и стилю, которые мы хотим видеть в переводе», говорит Диллинджер. В конечном счете, «Мы не обучаем компьютер языку», поясняет он. «Мы показываем ему примеры предложений для копирования».