ШІ AlphaGo від Google DeepMind став повністю самонавчальним


Дізнайтесь більше про нові кар'єрні можливості в EchoUA. Цікаві проекти, ринкова оплата, гарний колектив. Надсилайте резюме та приєднуйтеся до нас.

Дослідження ШІ швидко просуваються в різних галузях, від розпізнавання мовлення і класифікації зображень до генетики і відкриття нових видів ліків. У багатьох випадках це спеціалізовані системи, які використовують величезну кількість людських знань і даних.

Проте для деяких завдань людські знання можуть бути занадто дорогими, ненадійними або просто недоступними. Тому давня мета досліджень ШІ полягає в тому, щоб обійти цей крок, створюючи алгоритми, які досягають надлюдської продуктивності в різних і складних галузях без людської участі.

Компанія DeepMind, британський підрозділ Google, опублікувала статтю у науково-популярному журналі Nature, що демонструє значні кроки назустріч цій меті.

AlphaGo Zero

Дана стаття представляє світу проект AlphaGo Zero, що є нащадком AlphaGo, першою у світі комп’ютерної програми, яка перемогла людину-чемпіона в Го. Zero є ще потужнішим і, можливо, найсильнішим гравцем Го в історії.

Попередні версії AlphaGo навчалися грі за наданими їм тисячами ігор любителів і професіоналів Го. Новий ШІ AlphaGo Zero пропускає цей крок і навчається грі, граючи в неї проти себе, починаючи з абсолютно випадкової гри. При цьому він швидко перевершив людський рівень гри і переміг колишнього чемпіона AlphaGo з рахунком 100:0.

Сам собі вчитель

Подібний результат став можливим завдяки використанню підходу навчання з підкріпленням. Саме у такому вигляді навчання AlphaGo Zero стає власним учителем. Система розпочинає самонавчання з нейронної мережі, яка нічого не знає про Го. Потім ШІ грає проти себе, об’єднуючи свою нейронну мережу з потужним алгоритмом пошуку. З часом нейронна мережа настроюється і оновлюється для прогнозування ходів і можливого переможця гри.

Навчання триває декілька ітерацій підряд, у кожній з яких продуктивність системи збільшується, що призводить до появи точніших нейронних мереж і все потужніших версій AlphaGo Zero.

Цей підхід є кращим порівняно з використовуваними в AlphaGo, тому що він більше не обмежується можливостями людського знання. Натомість він може навчитися всьому в найсильнішого гравця у світі: чемпіона світу AlphaGo.

Відмінності Zero від його попередника

  • AlphaGo Zero використовує тільки чорні й білі камені з дошки Go як вихідні дані, тоді як навчання AlphaGo мало невелику кількість функцій, написаних програмістами спеціально;
  • Zero використовує тільки одну нейронну мережу, а не дві. AlphaGo міг звертатися до бази ігор майстрів Го, в його наборі була нейронна мережа, яка імітувала їх стиль, а друга нейронна мережа оцінювала якість позицій для визначення переможця в кожен момент гри;
  • AlphaGo Zero не використовує швидкі, випадкові ігри, як інші програми і алгоритми, щоб передбачити, який гравець виграє від поточної позиції на дошці. Замість цього він покладається на свою нейронну мережу для оцінки позицій.

Ці алгоритмічні зміни роблять нову версію системи потужнішою та ефективнішою порівняно з попередньою версією алгоритму:

Якісний прорив

Після триденного навчання AlphaGo Zero зміг перемогти версію AlphaGo, яка перемогла 18-кратного чемпіона світу Лі Седоля. Після 40 днів самостійної підготовки AlphaGo Zero став навіть сильнішим, ніж версія AlphaGo, відома як ” Майстер”, що перемагала кращих гравців світу, у тому числі першого у рейтингу гравців Го Ке Цзе.

Поданий графік демонструє ступінь відносних рівнів кваліфікації гравців у таких іграх, як Го. Це є показником того, що AlphaGo стає сильнішим з кожним етапом розвитку проекту.

Користь самонавчання

За час мільйона зіграних партій “AlphaGo проти AlphaGo” система поступово вивчила гру Го з нуля, накопичивши тисячі років людських знань протягом декількох днів. AlphaGo Zero також виявив нові знання, розробив нетрадиційні стратегії та незвичайні підходи до розв’язання задач, що перевершили методи, які AlphaGo використав в іграх проти Лі Седоля і Ке Цзе .

Місія ШІ

DeepMind говорять, що подібні моменти креативу, продемонстровані ШІ, доводять важливість його використання. Він здатний поліпшити людську винахідливість і допомогти у розв’язанні деяких найбільш важливих задач, що стоять перед людством.

Якщо подібні методи зможуть бути застосовані до таких структурованих проблем, як згортання білків, зниження споживання енергії або пошук революційно нових матеріалів, то досягнуті в цих галузях технологічні прориви позитивно вплинуть на суспільство.

Джерело: блог DeepMind

Київ, Харків, Одеса, Дніпро, Запоріжжя, Кривий Ріг, Вінниця, Херсон, Черкаси, Житомир, Хмельницький, Чернівці, Рівне, Івано-Франківськ, Кременчук, Тернопіль, Луцьк, Ужгород, Кам'янець-Подільський, Стрий - за статистикою саме з цих міст програмісти найбільше переїжджають працювати до Львова. А Ви розглядаєте relocate?


Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *