Нейромережі навчилися перекладати текст без словника


Дізнайтесь більше про нові кар'єрні можливості в EchoUA. Цікаві проекти, ринкова оплата, гарний колектив. Надсилайте резюме та приєднуйтеся до нас.

Завдяки нейромережам технології машинного перекладу просунулися далеко уперед. Проте принципи машинного навчання вимагають величезної кількості інформації, мільйонів одних і тих же текстів на різних мовах, що не завжди доступно. Science проаналізував дві нові роботи в області машинного перекладу, навчання, що демонструють інший спосіб.

Машинний переклад без учителя

Більшість програм машинного навчання вимагають реакції від людини. Комп’ютер пропонує варіант, отримує правильну відповідь і відповідно до цього коригує роботу.

Такий принцип працює при навчанні поширеним мовам, приміром, перекладу між англійською і французькою, оскільки існує безліч документів, складених на обох мовах. Проте зовсім по-іншому справа йде з навчанням рідкісним мовам, для яких не так легко знайти достатній масив паралельних текстів.

Тому існує інший спосіб навчання, який виключає втручання людини. Аналізуючи різні тексти на двох мовах, система сама створює двомовний словник, причому їй ніхто не вказує, правильний це переклад або ні. Річ у тому, що принципи, по яких слова збираються в групи, в різних мовах дуже схожі. Приміром, слова, що означають ” стіл” і ” стілець”, часто використовуються в зв’язці в усіх мовах.

Тому, якщо система створить для мови структуру на кшталт дорожнього атласу, на якому замість міст позначені слова, то такі карти для різних мов будуть схожі один на одного, розрізняючись тільки назвами пунктів. Яким способом краще всього накласти одну карту на іншу, система здатна з’ясувати сама – і ось вже готовий двомовний словник.

Стратегії машинного навчання для перекладу

У нових роботах, що описують напрочуд схожий метод, системи теж можуть перекладати з однієї мови на іншу на рівні пропозицій. Обоє використовують такі стратегії навчання, як зворотний переклад і шумозаглушування.

У зворотному перекладі пропозиція на одній мові приблизно перекладається на інший, а потім назад на мову джерела. Якщо пропозиція, отримана зворотним перекладом, не ідентична первинному, то нейромережа коригує роботу так, щоб наступного разу вони були більше схожі один на одного.

Метод шумозаглушування схожий на зворотний переклад, проте замість подвійного перегону пропозиції туди і назад він додає в пропозицію “шум” – вносить або прибирає деякі слова і потім намагається побудувати переклад початковою мовою.

Використовувані в зв’язці, ці стратегії допоможуть нейромережам глибше проникнути в структуру мови.

Результати

У перекладі набору з приблизно 30 мільйонів пропозицій між англійською і французькою обидві нові системи отримали по 15 балів в обох напрямах за оцінкою BLEU (bilingual evaluation understudy). Це не так багато, якщо порівнювати з показником Google Translate, що використовує звичний алгоритм навчання нейромереж, – близько 40 балів, а люди і зовсім можуть отримати більше 50, але все таки це краще, ніж дослівний переклад.

Автори упевнені, що є простий спосіб поліпшити ці системи – зробити їх наполовину контрольованими, тобто, спочатку передати декілька тисяч паралельних текстів і потім надати системі можливість навчатися самостійно.

Джерело: Science

Київ, Харків, Одеса, Дніпро, Запоріжжя, Кривий Ріг, Вінниця, Херсон, Черкаси, Житомир, Хмельницький, Чернівці, Рівне, Івано-Франківськ, Кременчук, Тернопіль, Луцьк, Ужгород, Кам'янець-Подільський, Стрий - за статистикою саме з цих міст програмісти найбільше переїжджають працювати до Львова. А Ви розглядаєте relocate?


Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *