Google представила Tacotron 2, нову систему для перетворення тексту на мовлення


Дізнайтесь більше про нові кар'єрні можливості в EchoUA. Цікаві проекти, ринкова оплата, гарний колектив. Надсилайте резюме та приєднуйтеся до нас.

Як повідомляє Google, розробка системи перетворення тексту на природне мовлення – одна з основних дослідницьких цілей компанії. Новітній винахід у цій галузі – Tacotron 2 – виконує це завдання простіше й ефективніше за своїх попередників Tacotron і WaveNet.

Старі проблеми

Попередні системи генерації мови мали ряд істотних недоліків. WaveNet, наприклад, видавала дуже різкі звуки, що різали слух. І хоча перетворення тексту виконувалося алгоритмом ефективно, для успішної роботи йому була потрібна величезна кількість метаданих про мовлення, починаючи з вимови і закінчуючи специфічними мовними особливостями. Tacotron же краще впорався з відтворенням високорівневих особливостей мовлення (на зразок інтонації або просодії), але на виході не міг видавати повноцінний “мовленнєвий продукт”.

Головні переваги

Tacotron 2 створений з урахуванням помилок попередніх систем. У ньому сполучені їх успішні функції, “приправлені” спрощеною системою збору даних для навчання.

Для обчислення лінгвістичних правил алгоритму потрібний сам текст і його озвучення. Друкована версія конвертується в спеціальну Tacotron-спектрограму, в якій розподіляються ритм і наголоси, а слова вже генеруються в системі а-ля WaveNet.

Ось тепер все зрозуміло.

Що ж вийшло?

Вихідний аудіозапис насправді дуже схожий на мовлення живої людини (проте англомовні слухачі стверджують, що деякі слова система вимовляє важко, ламано). Темп мовлення звучить дуже переконливо, а основні запинки відбуваються на словах із “неінтуїтивною” вимовою. Іноді наголоси робляться не на той склад, а словникові/запозичені слова система зчитує буквально по літерах. “Іноді вона навіть випадково генерує дивні звуки,” – пишуть дослідники.

Однією з основних проблем нового алгоритму є відсутність регулювання тонів розмови. Не можна передбачити, яка фраза буде вимовлена весело і оптимістично, а яка – жорстко або самовпевнено. Проте це цілком компенсується можливістю налаштування інших мовних тонкощів, наприклад, акцентів.

Варто зазначити, що в цій галузі у Google є серйозні конкуренти. Так, у травні 2017 року компанія Baidu представила систему для переведення тексту в мовлення, що розрізняє і відтворює сотні акцентів.

Джерело: блог Google Research

Київ, Харків, Одеса, Дніпро, Запоріжжя, Кривий Ріг, Вінниця, Херсон, Черкаси, Житомир, Хмельницький, Чернівці, Рівне, Івано-Франківськ, Кременчук, Тернопіль, Луцьк, Ужгород, Кам'янець-Подільський, Стрий - за статистикою саме з цих міст програмісти найбільше переїжджають працювати до Львова. А Ви розглядаєте relocate?


Коментарі 2

  • Штучний інтелект на даний час розвивається, як ніколи. Приємно спостерігати, що така компанія як Google і надалі працює над полегшенням життя людей. Я слухав зразок программи на офіційному сайті Google і дійсно, його майже не відрізниш від живої людини. Думаю, в майбутньому ця система може замінити як мінімум живих операторів, а в подальшому стане ще більш функціональною, що допоможе покращити та спростити життя людству.

  • Треба віддати належне компанії Google, технології стрімко розвиваються.
    Зараз дуже затребувані нові технології для людей з обмеженою можливістю.
    Компанія Google вже давно розробляла програму, за якою, людина не має
    Можливості друкувати на клавіатурі, тепер може потрібний текст вимовляти в мікрофон,
    І спеціальна програма від Google наговореної текс розміщує в текстовому документі.
    Завдяки такій програмі, люди з обмеженими можливостями можуть знайти роботу
    У мережі інтернет.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *