Vespa, движок обробки “великих даних” сервісів Yahoo, став відкритим проектом [*]


Дізнайтесь більше про нові кар'єрні можливості в EchoUA. Цікаві проекти, ринкова оплата, гарний колектив. Надсилайте резюме та приєднуйтеся до нас.

Про це компанія оголосила у своєму прес-релізі. Зазначається, що Oath завжди була націлена на випуск усіх своїх продуктів обробки Big Data у вільний доступ – від відкриття вихідного коду Hadoop,  що відбулося 2006 року, до відкриття GitHub-репозиторія движка Vespa.

Архітектура проекту Vespa

Навіщо потрібний Vespa?

Створення додатків передбачає використання величезних об’ємів даних. Розробники можуть використати Hadoop для зберігання і обробки Big Data, Storm для потокової обробки даних, проте дотепер не було технології, що дозволяла показувати результати в зручному для кінцевого користувача вигляді.

Обробка запитів користувачів для пошуку у великому об’ємі даних є серйозним викликом, особливо, коли необхідно миттєво дати відповідь на запит. Саме із цим може допомогти Vespa. Проект здатний знаходити відповіді на запити серед великих об’ємів даних у режимі реального часу з мінімальними затримками, незалежно від розміру даних.

Яскравим прикладом використання є пошукові системи та системи персональних рекомендацій, генеровані, залежно від переваг користувача, навігаційні блоки, відображення хмар тегів. Загалом, усі додатки, результати роботи яких залежать від запиту користувача, а не від заздалегідь підготовлених відповідей.

Де використовується Vespa?

Нині Vespa використовується у багатьох сервісах Yahoo, включаючи Yahoo.com, Yahoo News, Yahoo Sports, Yahoo Gemini, Flickr і інші, і дозволяє виконувати мільярди запитів користувачів для мільярдів чинних документів. Наприклад, у сервісі Flickr Vespa здійснює сотні запитів на секунду до бази даних, що складається з мільярдів зображень.

Ключові особливості Vespa:

  • Вибір контенту з використанням SQL-подібних запитів і текстового пошуку;
  • групування всіх результатів для компонування підсумкових сторінок;
  • ранжирування записів із застосуванням машинних моделей релевантності;
  • виведення результату на запит протягом декількох мілісекунд;
  • забезпечення запису даних для постійного зберігання в режимі реального часу; декілька тисяч записів за секунду на один вузол;
  • переналаштування кластерів без переведення серверів у режим офлайн;
  • застосування розподіленої системи обчислень без використання мастер-кода для уникнення втрати продуктивності;
  • запуск системи як на одному вузлі, так і на кластері.

Приступаємо до роботи

Для полегшення установки Vespa команда розробників підготувала Docker-контейнери і rpm-пакети, а також керівництво з установки системи на робочому комп’ютері чи хмарних сервісах AWS.

Розробники обіцяють випустити серію керівництв, що пояснює, як створити додаток із використанням Vespa. Вже доступна документація продукту, яка допоможе розпочати роботу з Vespa невідкладно.

Джерело: блог Oath

Київ, Харків, Одеса, Дніпро, Запоріжжя, Кривий Ріг, Вінниця, Херсон, Черкаси, Житомир, Хмельницький, Чернівці, Рівне, Івано-Франківськ, Кременчук, Тернопіль, Луцьк, Ужгород, Кам'янець-Подільський, Стрий - за статистикою саме з цих міст програмісти найбільше переїжджають працювати до Львова. А Ви розглядаєте relocate?


Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *