Що таке генеративний ШІ і як він змінює голосові помічники?

Що таке віртуальний асистент?

Віртуальний асистент — це програмне забезпечення, яке може виконувати ряд завдань або послуг для користувача на основі вхідних даних, таких як команда або запитання. Взаємодія між асистентом і користувачем може відбуватися за допомогою тексту, графічного інтерфейсу або голосу.

Що таке голосовий помічник?

Голосовий асистент — це тип віртуального помічника, який здатний інтерпретувати людську мову і відповідати синтезованим голосом. Голосові асистенти працюють на підключених до Інтернету пристроях, таких як смартфони та «розумні колонки», і використовують алгоритми розпізнавання голосу та обробки мови, щоб слухати певні голосові команди та надавати відповідну інформацію або виконувати певні функції за запитом користувача.

Початково голосові асистенти були розроблені для виконання наступних завдань:

  • надиктовування 
  • читання тексту або електронних повідомлень вголос 
  • пошук телефонних номерів 
  • планування зустрічей 
  • здійснення телефонних дзвінків 
  • нагадування користувачу про зустрічі

Сьогодні голосові помічники інтегровані в багато пристроїв, якими ми користуємося щодня, наприклад, смартфони, комп'ютери та «розумні колонки». Завдяки широкому спектру інтеграцій голосові асистенти можуть пропонувати дуже специфічний набір функцій або бути універсальними, щоб допомагати практично в будь-якій ситуації. Кілька провідних технологічних компаній додали розумні голосові помічники у свої колонки, поєднуючи високоякісні музичні можливості з інтеграцією в систему "розумний дім".

Розумні колонки від Acer

Розумний динамік Halo HSP3100G

Яскраве доповнення до кімнати будь-якого розміру, Acer Halo має підставку з RGB-підсвічуванням, яке можна налаштувати. Ця розумна колонка працює на базі Google Assistant.

Специфікації Halo HSP3100G:

  • Компактна та стильна «розумна колонка» з Google Assistant 
  • Професійний об’ємний звук DTS Sound 
  • Google Assistant 
  • Дві всеспрямовані мікрофонні решітки дальнього поля; 1 x 3,5-мм аудіороз'єм 
  • Світлодіодний дисплей з можливістю налаштування; підставка з RGB-підсвічуванням, що реагує на музику

Розумний портативний динамік Halo Swing HSP5100G

Шикарна та незвичайна колонка з Bluetooth і WiFi, видає сильний звук, попри свої компактні розміри. Чудова колонка для тих, кому потрібна музика на ходу.

Специфікації Halo Swing HSP5100G:

  • Всеспрямований звук DTS 
  • Google Assistant, Bluetooth 5.2 і Wi-Fi 6 
  • Налаштовуваний світлодіодний дисплей за допомогою програми Acer Halo App реагує на музику 
  • Портативний водонепроникний дизайн IPX5 
  • USB-порт і док-станція забезпечують до 8 годин прослуховування музики без підзарядки

Найпопулярніші технології голосових помічників

Серед продуктів, представлених на ринку, найбільшого успіху досягли наступні:

  • Google Assistant. Це віртуальний голосовий помічник, розроблений компанією Google для пристроїв на платформі Android. Google Assistant може виконувати різноманітні завдання, включаючи відповіді на запитання, налаштування апаратних параметрів на пристрої користувача, планування подій та будильників, а також ігри. 
  • Siri. Вбудований персональний віртуальний асистент Apple, керований голосом, доступний на пристроях з iOS, iPadOS, watchOS, macOS і tvOS. Siri використовує технологію розпізнавання голосу на основі штучного інтелекту. 
  • Alexa. Це хмарний голосовий сервіс, який відповідає на прості мовні запити, наприклад "яка сьогодні погода?" або "увімкнути попмузику на колонці в їдальні", і використовується в основному через лінійку колонок гучного зв'язку Amazon, відому під назвою Echo. 
  • Bixby. Віртуальний асистент зі штучним інтелектом від Samsung працює переважно на мобільних пристроях, а також на деяких "розумних" холодильниках. Bixby можна використовувати для різних завдань, зокрема для написання текстів, отримання інформації про погоду в конкретному місці, встановлення нагадувань про зустрічі та читання новин. 
  • Mycroft AI. Це голосовий помічник з відкритим вихідним кодом, який можна запустити на будь-якій платформі, включаючи настільні комп'ютери, автомобілі та Raspberry Pis. Він фокусується на голосовому управлінні будь-яким пристроєм, перетворюючи його на розумного віртуального асистента.

Що таке генеративний ШІ?

Генеративний ШІ — це тип штучного інтелекту, який навчається на наявних фактах, щоб генерувати реалістичні нові моделі інформації (у масштабі), які відображають характеристики навчальних даних. Він може створювати різноманітний новий контент, наприклад, зображення, відео, музику, мову, текст, програмний код і дизайн продуктів. 

Генеративний ШІ здатний створювати високореалістичний і складний контент. Найчастіше він створює контент у відповідь на запити природною мовою — знання кодування не потрібні. Сфери застосування можуть бути численні: технологія може бути використана в іграх, розвагах, обслуговуванні клієнтів, створенні контенту, дизайні продуктів, розробці програмного забезпечення та багато у чому іншому.

Генеративний ШІ потрапив у заголовки новин наприкінці 2022 року із запуском ChatGPT — чат-бота OpenAI, здатного до взаємодії дуже схожої на людську. Інструмент DALL-E 2 від OpenAI аналогічним чином створює зображення з описового тексту, що є ще однією інновацією в галузі генеративного ШІ. Кількість випадків використання генеративного ШІ, ймовірно, зростатиме, оскільки люди та підприємства відкриватимуть для себе все більше інноваційних застосувань цієї технології у повсякденній роботі та житті.

Стан ринку голосових помічників

За даними Business Insider, у першому кварталі 2022 року підрозділ Amazon Worldwide Digital зазнав операційних збитків у розмірі понад 3 мільярди доларів, більша частина яких припала на «розумні колонки» Echo та голосову технологію Alexa. Цей збиток став найбільшим серед усіх бізнес-підрозділів Amazon. Повідомлення ЗМІ про скорочення інвестицій Alphabet у Google Assistant ще більше свідчать про постійні збитки, що відбуваються на цьому ринку.

Але чому ці підрозділи голосових помічників не є прибутковими? Це не може бути пов'язано з недостатньою популярністю; Siri та Google Assistant встановлені на сотнях мільйонів смартфонів. Було продано понад 100 мільйонів пристроїв Echo з Alexa, і Alexa також встановлена на аналогічній кількості пристроїв без функції Echo. Це також не може бути пов'язано з відсутністю використання: користувачі взаємодіють з цими голосовими помічниками мільярди разів щотижня.

Виявляється, що побудувати сценарії монетизації навколо голосових помічників дуже складно. Досі основним методом монетизації цих технологій були роялті від сторонніх виробників, які інтегрували ці асистенти у свої продукти. Наступні канали, які спочатку передбачалися як генератори доходу, мали обмежений успіх:

  • Комерція за допомогою голосу так і не злетіла. На відміну від мобільних додатків і вебсайтів, голосові асистенти не можуть показувати зображення товарів або надавати докладні описи продуктів. Крім того, обмежувальним фактором є неможливість для користувачів читати відгуки про товари. 
  • Стратегії монетизації на основі реклами також не є життєздатними. Порівняно з іншими цифровими каналами, голосова реклама під час аудіовзаємодії здається більш нав'язливою і подразливою. 
  • Розробка сторонніх додатків, таких як Alexa Skills, мала обмежений успіх. Попри 150 000 навичок у каталозі Alexa, типовий користувач Alexa не встановлював, не використовував і не підписувався на них. Це означає обмежений дохід для розробників Навичок Alexa, а також для магазину Навичок Alexa.

Мабуть, найбільша проблема полягає в тому, що споживачі вважають голосових помічників, які інтегровані в їхні смартфони, розумні пристрої, системи домашньої автоматизації та автомобілі, функціями цих продуктів, а не самими продуктами, за які варто платити.

Генеративний ШІ та наступна ітерація голосових помічників

Генеративний ШІ — це природний наступний крок для технологій голосових помічників, що дозволяє їм надавати більш інтелектуальні відповіді, ніж це можливо за допомогою поточних моделей команд і відповідей. Генеративний ШІ, побудований на новітніх великих мовних моделях (LLM), може ефективніше розуміти запити користувачів, ніж пошукові алгоритми або інші старі моделі, які також використовують обробку природної мови. Генеративний ШІ також може відповідати на запитання, надаючи більш точну і персоналізовану інформацію. Голосові помічники, які використовують генеративний ШІ, можуть краще розуміти підказки та запити користувача і бути більш ефективними.

Персоналізовані голосові помічники

Чи можуть голосові помічники зі штучним інтелектом мати особистість? Відповідь — так. Генеративний ШІ може імітувати вигаданих персонажів і навіть реальних людей. Уявіть, що ви можете поспілкуватися з вашим улюбленим історичним персонажем або знаменитістю, і цей персонаж запам'ятає ваші розмови — це відкриває нові можливості для голосових помічників у наданні персоналізованих послуг. Одна компанія, Character.ai, розробила платформу чат-ботів, яка робить цю ідею реальністю.

Character.AI — це вебдодаток, який дозволяє користувачам створювати персоналізованих чат-ботів і спілкуватися з ними. Ці чат-боти, які називаються Characters, можуть бути оригінальними творіннями або імітаціями відомих особистостей, вигаданих персонажів чи спеціалістів у певних галузях. Платформа була випущена для громадськості у вересні 2022 року і стала дуже популярною серед користувачів.

Розвиток Alexa та Google Assistant

Власна велика мовна модель Amazon "Alexa Teacher Model" використовується для додавання розмовних можливостей і поліпшення функціональності Alexa. Аналогічно, компанія Google розпочала розробку оновленого Google Assistant, починаючи з мобільної версії продукту. Новий Google Assistant використовуватиме технологію, подібну до ChatGPT, що покращить його асистентські можливості, розуміння природної мови та загальний спектр функцій.

Ми можемо очікувати, що голосові помічники майбутнього відіграватимуть більш проактивну роль у взаємодії. Замість того, щоб просто чекати на команди користувача, асистенти збиратимуть контекстно-залежну інформацію, а потім братимуть на себе ініціативу, пропонуючи користувачу корисні пропозиції.

Анатолій — український автор з міста Києва. IT журналіст, перекладач, кореспондент, фотограф та ПК ентузіаст з 20-річним досвідом.

Позначено тегом:

Офіційні соціальні мережі