Компьютерлер де аудара алады, алайда алдымен үйренулері тиіс

Канадалық отбасы балаларымен шет елге сапарға шықты, жолда қызы анасының құлағына сыбырлап, ДЕРЕУ әжетханаға барғысы келіп тұрғанын айтты. Басқаша айтқанда, бұл нағыз ТЖ өзі. Алайда анасы әжетхананың қайда екенін қалай сұрайды, өйткені айналадағылар түрікше, португалша немесе қытайша сөйлеуде.

Қолында смартфон болса, ол Google Translate сервисін пайдалана алады. Веб-сайт сөзді, сөз тіркесін немесе тұтас сөйлемді ағылшын тілінде енгізуге мүмкіндік береді. Содан соң ол испанша немесе 100 тілдің кез-келгеніндегі аударманы көрсетеді. Адамдар «Google Translate» деп айтқан кезде, кейде осы веб-сайтты меңзейді. Басқа жағдайларда олар машиналық аударма құралын еске алады, өйткені аударушы компьютерлік бағдарламалар осылай аталады (бұл бағдарламалардың бәрін Google Translate деп атау қағаз сүлгінің бәрін  «Kleenex» бренді атауымен атағанмен тең).

Машиналық аударма — немесе аударманың басқа да түрлері  — оңай міндет емес. Бір тілдегі сөз екінші тілдегі дәл сол сөзге толық сәйкес келе бермейді. Мысалы, “бал айы” дегенді алайық. Бұл айдың балға еш қатысы жоқ қой. Егер «бал айы» сөз тіркесін басқа тілге аударғыңыз келсе, алдымен оның мағынасын ойластырып алыңыз: жас жұбайлар тойдан кейін жасайтын саяхат. Сондықтан француз тілінде «voyage de noces» деп аталады, сөзбе-сөз аударсақ, «той саяхаты» дегенді білдіреді.

Ағылшын тіліне аударған кезде дәл аудармадан мағынаның маңыздырақ екенін есте ұстау қажет. Сіз французсыз делік, сіздің әпкеңіз сізге жігітімен болған кездесуі туралы айтып жатыр. «Сенбеуің мүмкін» деп бастап, ол французша «бірақ ол маған үй қоянын берді» деп аяқтайды. Әрине, ешбір француздың кездесуге үй қоянын алып бармайтыны белгілі ғой. «Il m’a pose un lapin» — бұл бар болғаны француздардың тұрақты сөз тіркесі, идиома. Ол нені білдіреді: “ол кездесуге келмей қалды”.

Егер аударма адамдардың өздері үшін қиын болса, ал компьютерді қалай үйретуге болатынын ойлап көріңіз. Тым қиын болайын деп тұр. Алайда бағдарламашылар электронды мишыққа “бөтен” тілдердің бәрін сыйғызудың барлық амалдарын қарастыруда.

Енді олардың қандай қиындықтарға тап болғанына тоқталайық. Қуанышқа орай, сәттіліктің ауылы алыс емес: әртүрлі мәдениеттерді түсіну үшін ендігі уақытта басқа тілге аудару немесе ол тілді үйренудің қажеті болмайын деп тұр.

Ережелерді оқыту және оларды қай уақытта “бұзуға болатынын” түсіндіру

Машиналық аударма жүйелері балалар сияқты оқып-үйренеді. Мұны машиналық аударма (МА) деп атайық. Бұл кәсіби аудармашылар қолданатын қысқартылған сөз.

Балалар сияқты МА-ның да миы бар. Машиналық аударманың миы қозғалтқыш деп аталады.  Бұл қозғалтқыштар сөздермен толыққанға дейін бос тұрады. «Бал айы» сияқты сөз тіркестері жеке сөздерге бөлшектеніп берілуі мүмкін. Өзге сөздер фразалар немесе сөйлемдер түрінде беріледі, мысалы: «Менің әкем мен анам бал айын Гэтлинбургте өткізді».

МА “миы” бұл сөздерді мына екі тәсілмен өңдеуі мүмкін: ереже бойынша немесе сөздермен әрекеттесуі бойынша. Тілді түсіну үшін осы екі тәсіл де қажет (компьютерлер үшін де, адамдар үшін де).

Ойлап көріңіз. Адамдар балалар туралы айтқан кезде тұтас сөйлемдерді пайдаланады. Әрине, олар «алма» деп бірнеше рет қайталап, алманы көрсетуі мүмкін. Бірақ олар былай деп те айтуы мүмкін: «Мәссаған, МА, саған сенің алмаң ұнайтын сияқты ғой». МА сөздің сөйлемде басқа сөздермен қалай байланысатынын көрген кезде, МА миы өсе бастайды. Бұл процесс «алма» сөзінің мағынасын зерттеуден басталады. Бұл үшін МА осы сөзді пайдаланған сайын біртіндеп үйрене бастайды. Алайда МА бұл сөз пайдаланбаған жағдайларда да үйренуін тоқтатпайды.

Мысалы, сіз ешқашан “Менің ата-анам Гэтлинбургте “алма” өткізді” деп айтпайсыз. Алайда былай деп айтуға болады: «Олар бал айын өткізуге “Үлкен Алмаға” барды!» Өйткені бұл сөздің бірнеше мағынасы бар (“Үлкен Алма” — Нью-Йорк), бұл кезде жүйелер сөздердің әрекеттесуі негізінде МА-ға нақты сөздердің пайдаланылуын түсінуге көмектеседі – мысалы, әртүрлі жағдайлардағы «алма» сөзі.

Алайда әрекеттесуге негізделген ережелерді білу жеткіліксіз. Сондықтан осы ережелер негізіндегі жүйелер бар. Олар МА-ға белгілі бір тілдің грамматикасын түсінуге көмектеседі. Мысалы, осы ережелер МА-ға зат есімнің не екенін, зат есімнің етістіктен айырмашылығы неде екенін үйретеді, ағылшын тілінде етістіктерге деген қатынасына қарай зат есім сөйлемде одан бұрын немесе одан кейін тұруы мүмкін. Сондықтан ережелерге негізделген жүйелер МА-ға «алманың» зат есім ғана емес, сонымен қатар «Менің алма жегім келеді” дұрыс екенін, ал “Менің алма жегісі келеді” дұрыс емес екенін үйретеді.

Дұрыс құрылған грамматика ақылға қонымды әрі сауатты. Бірақ кейде өзгеше бірнәрсе айтқыңыз келеді. Бұл үшін ережені айналып өтуге, тіпті оны бұзуға болады.

Мысалы, ағылшын тілінің сарапшылары сөйлемді “предлогпен” (мысалы, от, к, с) аяқтауға болмайтынын біледі. Алайда адамдар сөйлегенде дәл осылай жасайды. Тіпті Уинстон Черчилль солай сөйлейтін. Ол Біріккен Корольдіктің Премьер-министрі және қызыл тілдің шебері болатын. Оның жалынды сөздері одақтастарына Екінші дүниежүзілік соғысты жеңуге көмектескені белгілі.

Бір күні оған сөйлемді “предлогпен” аяқтағаны үшін сын тағылды. Сондағы оның жауабы: «Заканчивать предложение предлогом — таким английским я не готов мириться с». «С таким английским я не готов мириться» деудің орнына (дұрысында осылай құрылуы тиіс) Черчилль осылай айтып салды. Сондағы оның айтқысы келгені -ережені бұзбай-ақ, кейде өзгелерден өзгеше сөйлеуге болады.

Бұл жердегі қиындық сол – компьютерлер де ереже бұза алады. Бірақ олар қалай бұзу керектігін білмейді. Ал жасанды интеллект ережені бұзуды қалай үйренсе, солай бұза алады.

Адамдар жаңа сөйлемдер мен сөздерді құру үшін, үнемі ережелерді бұзады. Машина қандай ережелерді бұзуға болатынын және қандай ережелерді бұзуға тиісті екенін түсініп алуы тиіс. Сондықтан МА жақсы қозғалтқышы сөздердің әрекеттесуі мен ережелері негізінде оқып-үйренуі тиіс. Тілдің әсемдігі мен практикалық пайдасы осы екі факторға байланысты.

Сөз азық ретінде

Ережелер мен әрекеттесу негізіндегі жүйе гибридтік деп аталады. Компьютерлік бағдарламалар мұндай гибридтерді оқшау сөздер немесе фразалардың емес, ірі ақпарат порциялары көмегімен үйретеді.

«Бұл гибридтердің көпшілігі деректер көмегімен үйренеді» -деп түсіндіреді Лос-Анджелестік (Калифорния штаты) жеке кеңесші Кирти Ваши. Ол аударма жасаушы компанияларға өз жеке жүйелерін құруға көмектеседі. МА жасақтаушылары алдымен жүйеге көп көлемде бұрын аударылған сөздер мен фразаларды енгізеді. Олар МА жаңа қозғалтқышына бір тілден екінші тілге аударудың цифрлық кітапханасын сыйлайды. Осы деректерді сіңіріп алғаннан кейін, жүйе осы тілдің грамматикасын түсіне бастайды, сауаты нығаяды.

Бұрын МА бағдарламашылары жүйелерді тұтас кітаптардың көмегімен үйреткен болатын. Кітаптар грамматикалық ережелерге сәйкес келетін, сондай-ақ сәйкес келмейтін сөйлемдерден тұрады. Екі үлгідегі сөйлемдер неғұрлым көп жүктелген сайын, МА мысалдары да көбейе түседі. Мысалы, Sovee машиналық аударма компаниясы МА үйретуге арналған мәтіндер тізіміне тіпті Библияны да қосып қойған.

Машиналық аударма барлық тілде бірдей тиімді емес. Неліктен? Ең қарапайым жауап: бірде-бір жүйе әр тілде оқытуға қажетті ақпаратты жеткілікті ала алмайды.

Майк Диллинджер жасанды интеллект жұмысын LinkedIn арқылы (Саннивейл әлеуметтік желісі, Калифорния) бақылайды. Ол сондай-ақ ADAPT орталығы кеңесінің мүшесі болып табылады (Дублин қ., Ирландия). “Біз әр МА жүйесін тек бір бағытта қозғалуға үйретеміз”,-деп түсіндіреді ол. Мұндай тілдер бағытына «ағылшын-испан» тілдерінің жұбын жатқызуға болады. «Егер басқа бағыт қажет болатын болса, мысалы, “испан-ағылшын” таңдалатын болса, одан соң біз жеке бір тілге үйретеміз», -деп түйді ол.

Испан және француз сияқты кейбір тілдердің әдеби тарихы өте бай. Бұл тілдерде өте көп кітап жазылған, ал МА жүйесінде МА үйретуге болатын сөз қоры өте үлкен әрі сан алуан. Осы тілдерден ағылшын тіліне бірқатар кітаптар мен жазба жұмыстар аударылғаны белгілі.

Оларды сомали тілімен салыстырыңыз. Бұл тілде көптеген африкалық халықтар сөйлейді: Сомали, Джибути, Эритрея, Кения және Эфиопия. 1962 жылға дейін бұл тілде жазу болмаған! Содан кейінгі онжылдықтарда Сомалидің саяси көсемдері өз әліпбилері үшін жан берісіп күресті, -дейді Мохамуд Дирийе Абдуллахи (2001 жылы ол «Сомалы мәдениеттері мен әдет-ғұрыптары» кітабын жазған болатын).

Енді ағылшын тілімен салыстырыңыз. Бұл тілдегі бірінші жазбаша мәтін 602 жылы жазылыпты. Яғни жазба сомали тіліне дейін 1370 жыл бұрын пайда болған. Бүгінде сомали тілінде сөйлейтін адамдар қай сөзді қалай жазуға болатынын білмей жатады. Бұл тілдегі мәтіндер тым аз болғандықтан, сөздер әртүрлі жазылатындықтан, МА жүйесі тығырыққа тірелді.

Кітап көп дегеннің өзінде қажетті ақпарат табылмай жатады», дейді Диллинджер. Әр бағыт үшін жүйе қажет болғандықтан, МА әр пәндік сала үшін бөлек жүйелер болған жағдайда тиімдірек жұмыс жасайды. Мысалы, ағылшын тілінен испан тіліне аударудың бір жүйесі тамақ туралы, ал екінші жүйесі спорттық бағытта аудара алады.

«Бізге аудармада болуға тиісті бір тақырып пен бір стильді қамтитын мысалдар таңдау қажет», дейді Диллинджер. Түпкілікті алғанда, «Біз компьютерге тіл үйретпейміз», деп түсіндіреді ол. «Біз оған көшіріп алуға арналған сөйлемдердің үлгілерін көрсетеміз».