OpenAI a lansat GPT-4o și a adăugat mai multe funcții la ChatGPT

Vasile.Botog · April 30

OpenAI a dezvăluit recent GPT-4o, ultimul său model emblematic care poate procesa text, viziune și audio mai rapid ca niciodată. Această dezvăluire a fost punctul culminant al actualizării de primăvară a OpenAI transmisă live în 2024, împreună cu demonstrații live ale capacităților modelului și anunțuri privind lansarea sa treptată.

Acest nou model păstrează nivelul de inteligență al GPT-4, dar oferă o viteză sporită și capacități îmbunătățite în generarea de interacțiuni naturale. „O” din GPT-4o înseamnă «omni», o aluzie la funcționalitățile sale multimodale de ultimă oră.

https://youtu.be/DQacCB9tDaw

Care sunt capabilitățile principale ale modelului GPT-4o?

GPT-4o are abilități revoluționare care au ajuns și la ChatGPT. Iată câteva exemple ale acestor caracteristici cheie și modul în care le putem vedea în acțiune.

Capabilități multimodale:

Într-un salt semnificativ, GPT-4o este capabil să proceseze și să interpreteze nu numai text, ci și imagini, materiale video și audio. Utilizatorii pot include oricare dintre aceste materiale în solicitări, iar ca răspuns modelul poate furniza text, imagine și sunet ca ieșire. Modul de voce a fost un punct culminant în demonstrațiile live ale actualizării de primăvară a OpenAI, GPT-4o fiind capabil să detecteze expresiile faciale ale unui utilizator sau să ofere traduceri în timp real între două persoane care vorbesc limbi diferite. Funcția Voice Mode nu a fost nouă, dar viteza de procesare a acesteia a fost. Înainte, această funcționalitate folosea trei modele separate care transcriau audio în text, furnizau informații (folosind GPT-3.5 sau GPT-4) și converteau textul în audio. Multimodal GPT-4o gestionează acum toate aceste etape pe cont propriu, ceea ce înseamnă că nu se pierde nicio informație între etape și că există o gamă mai largă de rezultate pe care le poate produce.

Abilități conversaționale superioare:

Capacitatea îmbunătățită a modelului GPT-4o de a înțelege și de a genera limbaj natural este o caracteristică remarcabilă, deoarece acum poate vorbi cu utilizatorii la fel ca un om—și la fel de repede ca un om. (OpenAI spune că rata de răspuns a modelului la solicitările audio este de 0,32 secunde în medie). Nu doar viteza este impresionantă, ci și capacitatea de a adăuga inflexiuni și emoții umane vocii generate de AI. Demonstrațiile live GPT-4o au arătat cum ChatGPT poate implica un utilizator într-o conversație ușoară sau poate povesti o poveste în mod din ce în ce mai dramatic, după cum i se solicită. Poate chiar să râdă și să cânte.

https://youtu.be/Zq710AKC1gg

Aceste caracteristici de referință deschid noi posibilități pentru aplicațiile GPT-4o în educație, crearea de conținut și nu numai. De exemplu, aplicația Be My Eyes a publicat un videoclip care arată cum GPT-4o poate funcționa ca un ghid virtual pentru persoanele cu deficiențe de vedere, descriind verbal ce se întâmplă în jurul lor și ajutându-le chiar să cheme un taxi pe stradă. Alte demonstrații Voice Mode ale OpenAI arată că modelul este utilizat ca meditator sau ca partener de discuție care joacă roluri în scenarii precum pregătirea pentru un interviu de angajare. Noile tipuri de rezultate sub formă de text și imagini sunt la fel de convingătoare și includ randări 3D, machete de produse și rezumate ale prezentărilor sau fișierelor audio încărcate.

Alte caracteristici ChatGPT anunțate în timpul actualizării de la OpenAI includ suport pentru peste 50 de limbi, o interfață web îmbunătățită și o nouă aplicație desktop macOS cu versiunea curentă Voice Mode. Utilizatorii Windows au trebuit să aștepte până mai târziu în decursul anului pentru a utiliza ChatGPT pe desktop. (acum este momentul pentru a cumpăra un PC AI optimizat pentru volumele de lucru AI, precum laptopul Acer Swift Go 14).

Cine are acces la GPT-4o?

Utilizatorii versiunilor gratuite și plătite ale ChatGPT pot acum să încerce GPT-4o. Anterior, utilizatorii ChatGPT Free erau limitați la GPT-3.5, GPT-4 fiind disponibil doar pentru abonații Plus. Acum, ChatGPT Free utilizează automat GPT-4o, dar există o limită a mesajelor pe care le puteți trimite, iar ChatGPT va reveni la modelul GPT-3.5 odată ce ați utilizat mesajele alocate pentru o zi. OpenAI nu a furnizat detalii cu privire la plafonul pentru utilizatorii gratuiți, menționând doar că limita „va varia în funcție de utilizarea și cererea curentă”. În prezent, aceasta pare să fie de 10 mesaje pe fereastră de 24 de ore.

Abonații ChatGPT Plus au limite de mesaje care se actualizează la fiecare trei ore: 80 de mesaje utilizând GPT-4o și 40 de mesaje utilizând GPT-4. Aceste limite pot fi reduse în perioadele de vârf „pentru a menține GPT-4 și GPT-4o accesibile unui număr cât mai mare de persoane”, spune OpenAI. Cei cu abonamente ChatGPT Team primesc o limită de mesaje mai mare decât utilizatorii Plus, deși OpenAI nu oferă valori specifice.

Utilizatorii plătitori au în continuare acces exclusiv la funcții mai avansate, inclusiv la noua versiune Voice Mode care va deveni disponibilă pentru ChatGPT Plus în săptămânile următoare.

În ceea ce privește accesul dezvoltatorilor, GPT-4o este acum disponibil ca model de text și viziune în API, suportul pentru noile funcționalități video și audio fiind lansat mai întâi pentru un număr mic de parteneri. Avantajele GPT-4o pentru dezvoltatori sunt că acest model este de două ori mai rapid, de două ori mai ieftin și oferă limite de cinci ori mai avantajoase decât GPT-4 Turbo.

Ce spun utilizatorii despre GPT-4o?

Dezvoltatorii și utilizatorii ChatGPT au fost nerăbdători să pună modelul GPT-4o la încercare, mai ales după ce mulți au fost impresionați și intrigați de demonstrațiile OpenAI. Utilizatorii au fost de acord că GPT-4o a oferit creșterea de viteză anunțată, generând răspunsuri mai rapid decât predecesorii săi. Din nou, feedback-ul cu privire la acuratețea răspunsurilor a fost amestecat. Unii oameni au raportat că GPT-4o a oferit răspunsuri mai detaliate decât GPT-4 și GPT-4 Turbo, în timp ce alții au spus că ultimul model a fost mai rapid, dar nu neapărat mai bun în raționamente.

De asemenea, au existat multe îndoieli cu privire la capacitatea modelului GPT-4o de a interacționa cu utilizatorii într-un mod mai asemănător cu cel uman decât era posibil anterior. Mai multe articole de opinie (cum ar fi aceste articole de opinie de la CNN și MSNBC) au numit evoluțiile drept "ciudate". Preocupările includ personalitatea aparent cochetă a asistentului feminin din modul de voce, discuțiile despre sterotipurile de gen, și riscul ca utilizatorii să devină prea dependenți sau atașați de modelele AI antropomorfe. Notele de lansare ale OpenAI recunosc că funcțiile audio sofisticate ale GPT-4o vin la pachet cu o nouă serie de riscuri. Compania spune că va aborda problemele tehnice, de siguranță și de utilizare pe măsură ce capabilitățile GPT-4o sunt lansate.

Indiferent dacă modelul GPT-4o vi se pare palpitant sau terifiant (sau poate ambele), acesta a stabilit un nou standard pentru modelele de inteligență artificială și posibilitățile pe care acestea le oferă. Explorați cazuri de utilizare inovatoare de îndată ce capabilitățile audio și vizuale de pionierat vor deveni disponibile sau porniți ChatGPT chiar acum și vedeți ce puteți face deja cu GPT-4o.

Doriți să rămâneți la curent cu subiecte precum AI, Gaming, PC Tech, Afaceri și Educație? Abonați-vă aici pentru a primi un Acer Corner Email Digest săptămânal, adaptat intereselor dumneavoastră.