Не ваш звичайний LLM: чого Google AI прагне досягти за допомогою Gemini

Aнатолій.Іванченко · October 2024

Обіцяючи революційні можливості в міркуваннях, генерації коду та мультимодальному розумінні, Gemini від Google викликав хвилю інтересу в технологічному світі, коли був анонсований у грудні 2023 року. Модель була розроблена Deepmind, дочірньою компанією Google, що спеціалізується на інноваціях у сфері ШІ, і, здавалося, мала зробити революцію в галузі ШІ. Однак початковий ажіотаж був пом'якшений прохолодною публічною реакцією. Заглибимось у деталі та дослідимо поточний стан амбітного проєкту Google у сфері штучного інтелекту.

https://youtu.be/_TVnM9dmUSk

Ми вже писали про перше знайомство з Google Gemini, включно з розмірами його моделі та деякими початковими порівняннями з його конкурентом, ChatGPT від OpenAI. Сьогодні ми детальніше розглянемо розширені можливості, які привернули увагу ентузіастів ШІ. Ось короткий огляд основних функцій Gemini:

Вроджена мультимодальність: У той час, як інші моделі ШІ можуть потребувати окремого навчання для різних завдань (наприклад, обробка тексту, коду та зображень), Gemini може без проблем працювати з різними форматами. Це дозволяє йому розуміти складні взаємозв'язки між різними типами інформації.
Розширені міркування: Google AI підкреслив, що Gemini перевершив експертів-людей у тесті MMLU (Massive Multitask Language Understanding), який оцінює здібності штучного інтелекту в різних галузях, включаючи математику, фізику, історію, право та медицину. Це свідчить про те, що можливості Gemini виходять за рамки простого розпізнавання образів. Він може мати здібності міркувати над проблемами та робити логічні висновки, що робить його добре пристосованим для завдань, які потребують глибшого розуміння.
Прямий доступ до Інтернету: На відміну від деяких моделей ШІ, які покладаються на попередньо завантажені дані, Gemini може безпосередньо отримувати доступ і обробляти інформацію з Інтернету в режимі реального часу через пошук Google та інші ресурси. Це дозволяє йому залишатися в курсі подій і надавати більш точні результати.
Інтеграція з Google Workspace: Як продукт Google, Gemini може бути тісно інтегрований з різними інструментами Google Workspace, такими як Gmail, Docs і Drive. Ця безшовна інтеграція може значно підвищити продуктивність користувачів.

Як сприйняли Gemini від Google AI

Обіцянка того, що Gemini може робити інакше і краще, ніж його конкуренти, спочатку створила ажіотаж у сфері ШІ, але модель не отримала найтепліших відгуків. Першим серйозним тривожним сигналом стало вірусне відео, що демонструвало мультимодальні навички Google Gemini, яке, як виявилося пізніше, було частково несправжнім. Це поставило під сумнів прозорість Google та справжні можливості моделі. Gemini також звинувачували у створенні неточних зображень, що змусило Google просити вибачення і призупинити створення ШІ зображень людей.

Google AI випустив обмежену версію для розробників, надаючи перевагу відгукам технічних користувачів, а не широкомасштабному публічному доступу. Ця стратегія, можливо, дозволила б удосконалити систему перед широким впровадженням, але вона створила відчуття таємничості навколо реального користувацького досвіду. Поступове розгортання мультимодальних функцій Gemini також призвело до того, що розробники були вражені тим, на що насправді здатен Gemini. Відгуки були неоднозначними: деякі розробники були вражені потенціалом Gemini, а інші залишалися обережними через обмежену кількість доступної інформації.

Від громадськості також надходили різноманітні відгуки: деякі користувачі повідомляли про помилки та галюцинації у відповідях Gemini, а інші оголошували її своєю новою улюбленою платформою. Здається, що ефективність Gemini відрізняється залежно від завдань. Багато людей хвалили цей інструмент як допоміжний засіб для написання текстів, але деякі відгуки свідчать про те, що він не дуже добре справляється з кодуванням і генерацією зображень.

Доступ для розробників до Gemini

Зараз, схоже, існує вичікувальний підхід до Gemini, і це охоплює й те, як Gemini розвивається і працює в руках розробників. ШІ доступний через Google AI Studio та Google Cloud Vertex AI. Google також випустив Gemma, сімейство моделей з відкритим вихідним кодом, заснованих на тих же дослідженнях і технологіях, що і Gemini. Якщо ви хочете створювати та експериментувати з Gemini або моделями Gemma, найкраще мати комп'ютер зі штучним інтелектом, створений для ефективної роботи з вашими проєктами та робочими навантаженнями, наприклад, ноутбук Acer Swift X 14. Оптимізований для багатьох програм зі штучним інтелектом, він також оснащений процесорами нового покоління, які забезпечують підвищену продуктивність, швидкість і графіку.

Наразі справжні можливості Gemini та його вплив на сферу ШІ залишаються незрозумілими. Лише час покаже, чи зможе модель штучного інтелекту від Google реалізувати свій трансформаційний потенціал і чи зможе технологічний гігант стати гідним суперником у світі ШІ.