OpenAI представляє GPT-4o і додає більше можливостей до ChatGPT

Нещодавно OpenAI представила GPT-4o, свою останню флагманську модель ШІ, яка може обробляти текст, зображення та аудіо швидше, ніж будь-коли. Ця подія стала головною у весняному оновленні OpenAI, відео якого транслювалося в прямому ефірі 13 травня 2024 року, разом з демонстрацією можливостей моделі та оголошенням про її поступове розгортання.

Ця новітня модель зберігає рівень інтелекту GPT-4, але пропонує підвищену швидкість і розширені можливості для створення природних взаємодій. Літера «o» в GPT-4o означає «omni», що вказує на його передові мультимодальні функції. За даними OpenAI, GPT-4o наразі є найефективнішою моделлю, коли мова йде про розуміння аудіо та зору.

Які особливості GPT-4o?

GPT-4o має революційні можливості, які незабаром з'являться в ChatGPT. Ось кілька прикладів цих ключових функцій і того, як ми можемо побачити їх у дії.

Мультимодальні можливості:

Значним кроком вперед є те, що GPT-4o здатна обробляти та інтерпретувати не лише текстові дані, але й зображення, відео та аудіо. Користувачі можуть вводити будь-яку з цих даних як підказку, а у відповідь модель може надавати текст, зображення та аудіо на виході. Голосовий режим був головною особливістю демонстрації весняного оновлення OpenAI: GPT-4o може розпізнавати міміку користувача або здійснювати переклади в реальному часі між двома людьми, які розмовляють різними мовами. Функція голосового режиму не була новою, але швидкість її обробки стала сюрпризом. Раніше для цієї функції використовувалися три окремі моделі, які транскрибували аудіо в текст, забезпечували інтелектуальну обробку (використовуючи GPT-3.5 або GPT-4) і перетворювали текст в аудіо. Мультимодальний GPT-4o тепер виконує всі ці етапи самостійно, а це означає, що інформація не втрачається між етапами, і він може створювати ширший діапазон вихідних даних.

Відмінні розмовні здібності:

Покращена здатність GPT-4o розуміти та генерувати природну мову є визначною особливістю, адже тепер він може розмовляти з користувачами так само як це робить людина, і так само швидко, як це робить людина. (За даними OpenAI, швидкість реакції моделі на звукові підказки в середньому становить 0,32 секунди). Вражає не лише швидкість, а й здатність додавати до голосу, згенерованого ШІ, людські інтонації та емоції. Демонстрація GPT-4o в реальному часі показала, як ChatGPT може залучити користувача до легкого жарту або розповісти історію все більш драматично, як тільки йому буде запропоновано. Він навіть може сміятися і співати.

Ці знакові функції відкривають нові можливості для додатків GPT-4o в освіті, створенні контенту та інших сферах. Наприклад, додаток Be My Eyes опублікував відео, в якому показано, як GPT-4o може функціонувати як віртуальний гід для людей з вадами зору, словесно описуючи те, що відбувається навколо, і навіть допомагаючи їм викликати таксі на вулиці. Інші демонстрації голосового режиму OpenAI показують, як модель використовується в ролі академічного тьютора або партнера в рольових іграх, наприклад, для підготовки до співбесіди на роботу. Нові типи текстових і графічних виводів не менш привабливі та включають 3D-візуалізацію, макети продуктів і резюме завантажених презентацій або аудіофайлів.

Інші функції ChatGPT, оголошені під час весняного оновлення OpenAI, включають підтримку більш ніж 50 мов, покращений вебінтерфейс і новий додаток для настільних комп'ютерів macOS з поточною версією голосового режиму. Користувачам Windows доведеться почекати до кінця року, щоб використовувати ChatGPT на десктопі. І цього часу достатньо, щоб придбати комп'ютер з ШІ, оптимізований для роботи зі штучним інтелектом, наприклад, ноутбук Acer Swift Go 14.

Хто має доступ до GPT-4o?

Користувачі як безплатної, так і платної версій ChatGPT тепер можуть випробувати GPT-4o. Раніше користувачі ChatGPT Free були обмежені GPT-3.5, а GPT-4 був доступний тільки для абонентів Plus. Тепер ChatGPT Free автоматично використовує GPT-4o, але існує обмеження на кількість повідомлень, які ви можете надсилати, і ChatGPT повернеться до моделі GPT-3.5, як тільки ви використаєте всі виділені на день повідомлення. OpenAI не надала конкретної інформації про ліміт для безплатних користувачів, лише зазначивши, що він «буде змінюватися залежно від поточного використання і попиту». Наразі він становить 10 повідомлень на 24-годинний період.

Передплатники ChatGPT Plus мають ліміт повідомлень, який оновлюється кожні три години: 80 повідомлень з використанням GPT-4o і 40 повідомлень з використанням GPT-4. Ці ліміти можуть бути зменшені в пікові періоди, «щоб зробити GPT-4 і GPT-4o доступними для якомога більшої кількості людей», повідомляє OpenAI. Користувачі з підпискою ChatGPT Team отримують більший ліміт повідомлень, ніж користувачі Plus, хоча OpenAI не називає конкретних цифр.

Платні користувачі, як і раніше, отримують ексклюзивний доступ до більш просунутих функцій, включаючи нову версію голосового режиму, яка стане доступною для ChatGPT Plus в найближчі тижні.

Що стосується доступу для розробників, то GPT-4o зараз доступний у вигляді текстової та візуальної моделі в API, а підтримка нових відео та аудіофункцій спочатку буде доступна невеликій кількості партнерів. Переваги GPT-4o для розробників полягають у тому, що він вдвічі швидший, вдвічі дешевший і забезпечує в п'ять разів більшу швидкість, ніж GPT-4 Turbo.

Що люди кажуть про GPT-4o?

Розробники та користувачі ChatGPT прагнули протестувати GPT-4o, особливо після того, як багато хто був вражений та заінтригований демоверсією OpenAI. Однак, оскільки просунуті можливості технічного зору ще не доступні широкому загалу, чи виправдає ChatGPT свій ажіотаж, ще належить з'ясувати. Користувачі погоджуються з тим, що GPT-4o забезпечує розрекламований приріст швидкості, генеруючи відповіді швидше, ніж його попередники. З іншого боку, відгуки про точність відповідей були неоднозначними. Деякі люди повідомляли, що GPT-4o дає більш ґрунтовні відповіді, ніж GPT-4 і GPT-4 Turbo, в той час, як інші говорили, що остання модель була швидшою, але не обов'язково кращою в міркуваннях.

Також було багато застережень щодо здатності GPT-4o взаємодіяти з користувачами у більш людський спосіб, ніж це було можливо раніше. Кілька публіцистичних статей (наприклад, ці статті від CNN та MSNBC) назвали ці розробки «моторошними». Занепокоєння викликає, зокрема, кокетливий характер жіночого голосового асистента і те, чи не підштовхує він до розмови про гендерні стереотипи, а також ризик того, що користувачі стануть занадто залежними від антропоморфних моделей ШІ або прив'яжуться до них. У пресрелізі OpenAI визнає, що шикарні аудіофункції GPT-4o несуть з собою новий набір ризиків. Компанія заявляє, що буде розв'язувати питання безпеки, зручності використання та технічні проблеми в міру розгортання всіх можливостей GPT-4o протягом наступних місяців.

Незалежно від того, чи вважаєте ви GPT-4o захопливим або жахливим (а можливо, і те, і інше), він встановив новий стандарт для моделей штучного інтелекту та можливостей, які вони пропонують. Досліджуйте інноваційні варіанти використання, як тільки новаторські можливості аудіо та зору стануть доступними, або завантажте ChatGPT прямо зараз і подивіться, що ви вже можете робити з GPT-4o.

Хочете бути в курсі таких тем, як штучний інтелект, ігри, комп'ютерні технології, бізнес та освіта? Підпишіться, щоб отримувати щотижневий дайджест електронної пошти Acer Corner, який відповідає вашим інтересам.

Рекомендовані продукти

Анатолій — український автор з міста Києва. IT журналіст, перекладач, кореспондент, фотограф та ПК ентузіаст з 20-річним досвідом.

Позначено тегом:

Офіційні соціальні мережі