Ce este Google Gemini? Demistificarea celei mai avansate inteligențe artificiale de până acum

Alexandru Popescu
editat iunie 10 în AI

Salutați Gemini, inteligența artificială multimodală îndrăzneață de la Google! Gemini are ca scop principal să vadă, să audă și să înțeleagă lumea așa cum o facem chiar noi. Folosind o abordare multimodală revoluționară, acesta poate integra date din text, cod, imagini, audio și chiar video, pentru a obține o înțelegere de nivel superior.

Primele demonstrații arată versatilitatea lui Gemini în ceea ce privește răspunsul la întrebări prin analiza audio și generarea de idei noi din imagini. Este începutul unei inteligențe artificiale care nu doar calculează, ci și conectează și comunică.

Legați-vă centura - Gemini ne teleportează în următoarea frontieră a comunicării fluide între oameni și IA. În continuare, vom prezenta ce este Gemini și cum funcționează și vom împărtăși resurse pentru a vă ajuta să începeți.

Ce este Google Gemini? 

Gemini este noul și puternicul model de inteligență artificială de la Google care poate înțelege text, imagini și audio. Fiind un Large Multimodal Model (LMM), Gemini poate îndeplini sarcini complexe în domeniul programării, al matematicii și al fizicii.

Gândiți-vă la el ca la un briceag elvețian al lumii digitale. Multimodal înseamnă că Gemini nu este limitat doar la introducerea de text. Funcționează în mai multe moduri, astfel încât poate înțelege și răspunde și la întrebări audio și video. Imaginați-vă că puneți o întrebare arătând un videoclip, iar Gemini înțelege.

Cum pot accesa Google Gemini? 

Recenta lansare de către Google a lui Gemini, un trio de modele lingvistice puternice de inteligență artificială, stârnește entuziasm și curiozitate. Iată patru modalități de a accesa Google Gemini:

  • Google Bard: Chatbotul dvs. de inteligență artificială: Deși nu este versiunea completă, Gemini Pro este motorul din spatele lui Google Bard. Acesta vă răspunde la întrebări, creează povești și chiar și haiku-uri. 
  • Google Pixel 8: Inteligența artificială la îndemâna dumneavoastră: Dețineți un Pixel 8? Gemini răspunde la întrebări, compune e-mailuri și chiar vă ajută să scrieți descrierile perfecte pentru Instagram. 
  • Google AI Studio: Terenul de joacă al inventatorului: Această platformă ușor de utilizat deblochează potențialul lui Gemini în mâinile dvs. Experimentați prin întrebări, antrenați-l pe seturi de date specifice și adaptați-l la preferințele dvs. Ajustați "temperatura" răspunsului și setările de siguranță pentru a obține răspunsuri creative suplimentare. 
  • Vertex AI Studio: Pentru dezvoltatori și corporații, Vertex AI Studio deblochează terenul de joacă AI suprem. Creați modele personalizate, analizați seturi vaste de date și depășiți limitele a ceea ce este posibil, totul în cloud-ul Google. 
  • Duet AI: Duet AI este un asistent cu inteligență artificială care vă poate ajuta la scris, la crearea de imagini și la analizarea foilor de calcul. La începutul anului 2024 a fost lansat Gemini pentru Google Workspace. 

Ce sunt Google Gemini Nano, Pro și Ultra? 

Gemini nu este un monolit, ci este optimizat pentru trei scenarii de utilizare sau dimensiuni diferite:

1. Gemini Nano - AI compact pentru utilizare mobilă 

Gemini Nano este conceput în mod explicit pentru smartphone-uri precum Pixel 8. Ideal pentru sarcinile de zi cu zi, Gemini Nano permite procesarea eficientă a AI direct pe telefon și funcționează offline.

Este ideal pentru aplicațiile mobile și poate oferi sugestii inteligente în aplicațiile de mesagerie sau rezumând articole. Există două versiuni de Gemini Nano pentru a echilibra performanța și eficiența mobilă: 

  • Gemini Nano-1 (1,8 miliarde de parametri): Această versiune mai mică este excelentă pentru utilizarea zilnică a smartphone-urilor, echilibrând inteligența AI cu eficiența dispozitivului. 
  • Gemini Nano-2 (3,25 miliarde de parametri): O opțiune mai avansată, care oferă capacități îmbunătățite pentru sarcini complexe pe dispozitive mobile.

Mai mulți parametri permit gestionarea raționamentelor de nivel superior - Gemini se adaptează de la asistența de zi cu zi la inteligența artificială mobilă avansată.

2. Gemini Pro - AI de înaltă performanță 

Gemini Pro, care rulează în centrele de date ale Google, este conceput pentru sarcini de mare capacitate. Este motorul din spatele Google Bard și gestionează interogări complexe cu o înțelegere profundă și timpi de răspuns rapizi. Gemini Pro Vision acceptă, de asemenea, imagini și videoclipuri ca intrare și generează text ca ieșire în 38 de limbi.

Potrivit Google, Gemini Pro depășește OpenAI GPT-3.5 în șase benchmark-uri de bază și este mai eficient la:

  • Brainstorming 
  • Scriere 
  • Rezumare
  • Programare

Google nu a dezvăluit în mod oficial numărul exact de parametri ai Gemini Pro, dar probabil că este în același registru cu GPT-3.5 (175B parametri).

Platforme de dezvoltare a inteligenței artificiale: 

Puteți personaliza Gemini Pro în funcție de propriile necesități de inteligență artificială în 2 moduri:

  1. Google AI Studio - ușor: Google AI Studio este un instrument gratuit, bazat pe web, pentru dezvoltarea rapidă a lui Gemini. Acesta oferă până la 60 de întrebări pe minut, perfect pentru dezvoltarea și testarea interogărilor AI. Oferă șabloane pentru a se integra fără probleme în diferite medii de dezvoltare. Google menține confidențialitatea utilizatorilor prin eliminarea identificării datelor dvs. și poate revizui interacțiunile dvs. pentru a îmbunătăți calitatea produsului. 
  2. Vertex AI - avansat, manageriat: Vertex AI din Google Cloud intervine atunci când proiectele necesită mai multă sofisticare și personalizare. Îl puteți configura cu datele companiei dvs. pentru a antrena modele AI personalizate. Vertex AI sprijină construirea de agenți conversaționali și de căutare avansată într-o configurație ușor de utilizat, asigurând în același timp siguranța datelor și IP-ului dvs.

3. Gemini Ultra - saltul inteligenței artificiale de la Google în viitor 

Gemini Ultra reprezintă vârful de lance al capacităților de inteligență artificială ale Google - cel mai avansat și mai amplu model al său. Dar nu este încă disponibil pentru utilizare generală. 

Google susține că acesta depășește chiar și GPT-4 în cele mai multe criterii de referință academice. Mai exact, acesta strălucește în testele MMLU (înțelegere masivă a limbajului în mai multe sarcini), obținând un scor impresionant de 90,0%. Acesta este un mod elegant de a spune că se pricepe la orice, de la matematică, la drept și etică. Potrivit Google, se mândrește cu o inteligență superioară celei umane în diverse domenii.

Dar Gemini Ultra rămâne învăluit în mister, fiind supus unor ajustări fine și verificări de siguranță înainte de a se aventura în sfera publică. Google are în vedere integrarea sa în următoarea generație Bard Ultra, care ar putea sosi la începutul anului 2024.

Este promițător, dar până când nu va fi folosit în lumea reală rămâne o cutie misterioasă a potențialului de inteligență artificială. Nu am văzut încă Gemini Ultra în acțiune.

Câte informații poate gestiona Google Gemini? 

Toate modelele Gemini pot procesa și memora până la 32.768 de token-uri simultan. Gândiți-vă la asta astfel: un token este de obicei un cuvânt, astfel încât aceste modele pot gestiona o secvență de informații de până la 130 de pagini într-o singură sarcină. Acest lucru le permite să înțeleagă și să răspundă eficient la interogări lungi și detaliate.

În schimb, modelul standard GPT-4 de la Open AI oferă 8.000 de token-uri. Dar GPT-4 Turbo are 128.000 de token-uri - 300 de pagini de text într-o singură solicitare. 

Care este diferența dintre ChatGPT și Google Gemini? 

ChatGPT și Google Gemini folosesc amândouă inteligența artificială generativă, dar abordează sarcinile în mod diferit. 

ChatGPT - orientat spre text, prin extensii 

ChatGPT, în special cea mai recentă versiune a sa, cu tehnologie GPT-4, se ocupă în principal de text. Deși poate gestiona intrări și ieșiri audio, o face prin intermediul unor modele separate, cum ar fi Whisper pentru conversia vorbire-text și un altul pentru conversia text-vorbire. În mod similar, ChatGPT creează mesaje text pentru generarea de imagini, pe care Dall-E 2, un model diferit, le procesează în imagini. În esență, nucleul ChatGPT se bazează pe text.

Google Gemini - nativ multimodal 

În schimb, Gemini este un model "nativ multimodal". Este construit de la zero pentru a procesa direct diferite tipuri de date - text, audio, imagini și video. Nu se bazează pe modele separate pentru diferite tipuri de date. Abordarea Gemini reprezintă o schimbare semnificativă pentru a integra mai intuitiv informațiile senzoriale din lumea reală. 

Diferența de date 

GPT-4 excelează în text, învățând din aproximativ 500 de miliarde de cuvinte. Natura multimodală a lui Gemini îi permite să exploateze un nou și vast fond de date de instruire din imagini, audio și video. Acesta ar putea marca un pas esențial în dezvoltarea inteligenței artificiale, conducând la modalități mai organice și mai naturale de interacțiune cu inteligența artificială.

Care este mai actual: ChatGPT sau Gemini? 

În lumea în mișcare rapidă a inteligenței artificiale, cât de actuale sunt informațiile pe care le folosește un model de inteligență artificială poate face o diferență uriașă. Haideți să comparăm modul în care ChatGPT și Gemini AI se situează în ceea ce privește menținerea la zi. 

ChatGPT: intervale fixe 

Antrenamentul ChatGPT este ca un instantaneu al internetului până la un anumit punct. Pentru modelul GPT-3.5, acest "instantaneu" a fost în septembrie 2021. Dar OpenAI a oferit modelelor sale actualizări periodice, GPT-3.5 primind ulterior informații până în ianuarie 2022, iar cel mai nou GPT-4 Turbo se extinde până în aprilie 2023.

Pentru clienții plătitori, plugin-urile ChatGPT permit căutarea pe internet cu Bing, accesând informații actuale, inclusiv despre celebrități decedate recent. 

Gemini AI: actualizări frecvente 

Gemini AI de la Google are o abordare diferită, dezvoltând în mod constant baza de date cu actualizări regulate și o colecție vastă de texte și programe. Nu există o dată limită explicită, dar nu poate extrage cele mai recente știri sau tendințe în timp real. 

Google AI Studio și Vertex nu au acces la internet, așa că nu pot prelua cele mai recente știri de pe web.

Această diferență în ceea ce privește prospețimea datelor și integrarea internetului modelează modul în care fiecare AI interacționează cu lumea, ceea ce face ca fiecare să fie potrivit în mod unic pentru diferite tipuri de sarcini și interogări.

A fost trucat videoclipul Google Gemini?

Recentul videoclip-demonstrație pentru Gemini de la Google pare magie, deoarece înțelege semnele mâinilor, urmărește trucuri de iluzionism și sortează imagini ale planetelor. Problema este că videoclipul nu este real. 

Gemini nu poate procesa și răspunde la datele video în timp real. Nu este ca și cum ar putea să răspundă la chat. Puteți vizualiza instrucțiunile de text atent configurate cu imagini fixe care arată modul mai diferit de lucru cu Gemini.

Google încearcă să recupereze decalajul în domeniul inteligenței artificiale generative de la începutul acestui an pentru a ajunge din urmă modelul ChatGPT de la OpenAI. Dar videoclipul este mai mult magie rezultată din filmare decât o reflectare a capacităților Gemini. 

Zorii inteligenței artificiale intuitive 

Pe măsură ce AI avansează rapid, trecem de la chat-ul bazat pe text la modele care se fac ecoul experiențelor noastre din lumea reală. ChatGPT și Gemini oferă o imagine a unei inteligențe automate mai intuitive la orizont - una care înțelege cu adevărat lumea așa cum o înțelegem noi.

Abordarea nativ multimodală a lui Gemini urmărește să deblocheze noi frontiere ale înțelegerii, alimentând o interacțiune mai naturală. Imaginați-vă un asistent digital care nu se ocupă doar de planurile dumneavoastră de cină, ci care împărtășește și momentul privirii apusului soarelui împreună cu dumneavoastră.

Era mașinilor raționale se apropie. Așa că puneți-vă centura - Gemini este doar începutul unei călătorii dezlănțuite! Să sperăm că nu ne vom prăbuși. 

Socials