Potrebbe essere tecnicamente la stagione del Sagittario, ma è il momento dei Gemelli.
Il 6 dicembre, Google DeepMind ha annunciato il rilascio del suo modello AI nativamente multimodale e concorrente di GPT-4, chiamato Gemini.
In un post sul blog in cui si annuncia l’arrivo di Gemini, il CEO e co-fondatore di Google DeepMind, Demis Hassabis, ha definito il loro ultimo sviluppo come il “modello più capace e generale che abbiamo mai creato.” Alimentando le voci secondo cui questa serie di prodotti potrebbe essere una seria candidata per l’intelligenza artificiale generale (AGI), l’impatto di Gemini si fa già sentire nel competitivo settore AI per il business.
Ma quale sarà il suo impatto sui prodotti digitali nell’anno a venire? Ecco cosa c’è da sapere—il buono, il cattivo e il potenzialmente brutto.
Che cos’è Gemini?
Gemini non è un solo prodotto, ma tre; una famiglia di grandi modelli multimodali (LMM) che succedono alle reti neurali LaMDA e PaLM 2 di Google DeepMind. I tre prodotti sono:
- Gemini Ultra: Il modello più potente, che sarà reso disponibile agli sviluppatori all’inizio del 2024. Ultra promette la capacità di “comprendere”, generare e combinare praticamente una vasta gamma di input, tra cui audio, video, testo, codice e immagini, a velocità impressionanti prossime al tempo reale.
- Gemini Pro: Il modello a livello consumer attualmente disponibile per gli sviluppatori. Gli utenti nei paesi dove Bard è disponibile possono interagire con Gemini Pro dal momento dell’annuncio, il 6 dicembre.
- Gemini Nano: Il modello compatto progettato per alimentare applicazioni mobili. Gemini Nano, come Gemini Ultra, deve ancora essere rilasciato e Google non ne ha ancora specificato le prestazioni.
Che cos’è l’AI multimodale?
L’AI multimodale è l’intelligenza artificiale capace di elaborare diversi tipi di dati utilizzando molteplici algoritmi di elaborazione. Ad esempio, un modello di AI da testo-a-immagine come Midjourney è considerato un’AI multimodale.
Anche se molti LMM hanno già invaso il mercato, ciò che differenzia Gemini dagli altri grandi modelli multimodali è il fatto che è progettato per “comprendere” numerosi input (testo, video, audio, codice e immagini) in modo che imiti la comprensione e la creatività umane.
Il Buono: Il potenziale della tecnologia AI multimodale
Nemmeno un anno intero dopo che la generazione testo-su-testo di ChatGPT ha conquistato l’immaginario pubblico, Gemini segna una nuova era in cui la funzionalità multimodale diventerà presto una caratteristica imprescindibile per i prodotti alimentati da AI.
Ken Hubbell, CEO della piattaforma AI Soffos.ai, prevede un enorme potenziale per la tecnologia nel nuovo anno.
“Abbiamo iniziato a pensare a cose come l’analisi in tempo reale di ciò che stai vedendo visivamente”, afferma Hubbell. “Perciò vedo nuovi prodotti, come occhiali in grado di ricevere un feed video, che ora possono prendere il feed video e generare risultati (in tempo reale).”
Sebbene ciò consentirà ai team di prodotto un livello di flessibilità mai visto prima, porterà inevitabilmente anche a una precoce obsolescenza dei prodotti che erano stati creati per espandere la funzionalità di piattaforme come GPT-4 per abilitare funzionalità simili a Gemini—tutti prodotti che hanno solo pochi mesi di vita.
“(Questi prodotti) presto saranno irrilevanti o dovranno essere completamente riprogettati per incorporare tutte le novità che prima avevano ‘aggirato’ con dei trucchi”, dice Hubbell.
(Questi prodotti) presto saranno irrilevanti o dovranno essere completamente riprogettati per incorporare ciò che prima avevano ‘aggirato’ con dei trucchi.
KEN HUBBELL, CEO, SOFFOS.AI
Sebbene Hubbell ammetta che molte aziende subiranno grosse perdite sugli investimenti riversati in queste soluzioni ormai obsolete, afferma che questa è in realtà una buona notizia sotto mentite spoglie.
“Quando Alexa è uscita, molte persone trovavano modi per fare cose che il prodotto Alexa stesso non poteva fare—ero uno di quelli”, ride Hubbell, notando che il team di Amazon si accorgeva rapidamente delle funzionalità sviluppate da esterni e le integrava nella piattaforma Alexa.
“Ci ha un po’ danneggiato, a noi sviluppatori, ma d’altra parte ha migliorato così tanto il back end che ora potevamo concentrarci su cose per cui non dovevamo più trovare escamotage—e potevamo finalmente realizzare il prodotto finale che davvero desideravamo.”
Il Cattivo: Le prime reazioni a Gemini

Sebbene questa nuova era dell’IA multimodale altamente capace sembri rivoluzionaria, la ricezione iniziale di Gemini Pro è stata ampiamente deludente. Durante la settimana successiva all’annuncio del lancio del prodotto, i feed di LinkedIn e X si sono rapidamente riempiti di recensioni scontente da parte degli utenti che avevano provato Gemini Pro.
Il problema? Gemini sembra essere…piuttosto poco intelligente.
Articoli su TechCrunch e di numerosi autori su Medium hanno messo in evidenza post di utenti sui social che mostravano screenshot di Gemini incapace di rispondere correttamente alle domande.
Ma, come spiega Hubbell, la piattaforma sta facendo esattamente ciò che chiunque avrebbe dovuto aspettarsi.
“Far crescere una IA è in realtà molto simile a crescere un bambino”, dice Hubbell che (prima che lo chiediate), è anche padre. Sottolinea che i LM possono apprendere solo fino a un certo punto nelle fasi iniziali dell’addestramento, che avviene in un ambiente chiuso con un campione molto ristretto di utenti. "Una volta rilasciata nel mondo reale, è lì che avviene la vera crescita."
Una volta rilasciata nel mondo reale, è lì che avviene la vera crescita.
KEN HUBBELL, CEO, SOFFOS.AI
La Bruttezza: la questione dell'etica
Nei materiali di rilascio, Google è stata molto trasparente nel promettere di aver sviluppato Gemini in modo "responsabile".
Questa promessa ha fatto, comprensibilmente, storcere il naso a diversi critici.
Un articolo di ZDNET sottolinea che Google ha deciso di omettere le model card per i prodotti Gemini, che illustrano dettagli come i potenziali effetti negativi di una rete neurale. Questo risulta particolarmente inquietante considerando che un team di Google ha inventato proprio le model card.
Sorge anche spontanea la domanda: con un prodotto addestrato su un dataset intrinsecamente di parte, chi decide cosa significhi davvero "responsabilità"?
In un articolo pubblicato a maggio sul blog di Mind Foundry, Frankie Garcia, nuovo Operational AI Ethics and Safety Manager di Google DeepMind e precedentemente AI Governance Product Manager di Mind Foundry, spiega cosa rende affidabile un modello di machine learning.
"Quando le decisioni hanno un impatto materiale sulla vita degli individui e delle popolazioni, non si può sottovalutare l'importanza dell'affidabilità e della responsabilità del modello", scrive Garcia nell'articolo co-firmato dal Professor Brent Mittelstadt dell’Internet Institute dell’Università di Oxford.
L’articolo sostiene che vi sono tre aree chiave per l'affidabilità del machine learning:
- Bias e imparzialità: L’uso di diversi gruppi di “metriche di equità”, che gli autori ammettono spesso essere in contrasto tra loro, per assicurare che il modello si comporti in modo equo.
- Interpretabilità e spiegabilità: Questo descrive il livello in cui un utente umano può comprendere la logica e il processo usato dal modello di IA per arrivare al suo output.
- Data drift e fragilità del modello: Questo riguarda il modo in cui i cambiamenti rispetto al dataset di addestramento originale dovuti a pattern di input degli utenti e altre variabili possono influenzare negativamente gli output del modello.
Possiamo dedurre che Google tenga sotto stretto controllo questi fattori per assicurare che la famiglia di prodotti Gemini rimanga "sotto controllo". Se vedremo un impegno simile anche tra i concorrenti in corsa per la quota di mercato, resta tuttora da vedere.
Come si confronta Gemini con ChatGPT?
In termini di prestazioni pure, Google ha fatto affermazioni ambiziose su ciò che gli sviluppatori possono aspettarsi. Ecco i benchmark delle prestazioni per Gemini Ultra e Gemini Pro rispetto a ChatGPT, secondo Google.
- rn t
- rn
- rn t
- GPT-4: 86.4% (5-shot) rn
rn
- rn t
- rn
- rn t
- Gemini Ultra: 90% (CoT@32*) rn
rn
- rn t
- rn
- rn t
- Gemini Pro: 79.1% (CoT@32*) rn
rn
- rn t
- rn
- rn t
- GPT-4: 83.1% (3-shot, API) rn
rn
- rn t
- rn
- rn t
- Gemini Ultra: 83.6% (3-shot) rn
rn
- rn t
- rn
- rn t
- Gemini Pro: 75% (3-shot) rn
rn
- rn t
- rn
- rn t
- GPT-4: 80.9% (3-shot) rn
rn
- rn t
- rn
- rn t
- Gemini Ultra: 82.4% (Tiri variabili) rn
rn
- rn t
- rn
- rn t
- Gemini Pro: 74.1 (Punteggio F1) rn
rn
- rn t
- rn
- rn t
- GPT-4: 95.3% (10-shot) rn
rn
- rn t
- rn
- rn t
- Gemini Ultra: 87.8% (10-shot) rn
rn
- rn t
- rn
- rn t
- Gemini Pro: 84.7% (10-shot) rn
rn
- rn t
- rn
- rn t
- GPT-4: 92% (5-shot CoT) rn
rn
- rn t
- rn
- rn t
- Gemini Ultra: 94.4% (maj1@32) rn
rn
- rn t
- rn
- rn t
- Gemini Pro: 86.5% (maj1@32) rn
rn
- rn t
- rn
- rn t
- GPT-4: 52.9% (4-shot, API) rn
rn
- rn t
- rn
- rn t
- Gemini Ultra: 53.2% (4-shot) rn
rn
- rn t
- rn
- rn t
- Gemini Pro: 32.6% (4-shot) rn
rn
- rn t
- rn
- rn t
- GPT-4: 67% (0-shot, riportato) rn
rn
- rn t
- rn
- rn t
- Gemini Ultra: 74.4% (0-shot, IT) rn
rn
- rn t
- rn
- rn t
- Gemini Pro: 67.7% (0-shot, IT) rn
rn
- rn t
- rn
- rn t
- GPT-4: 73.9% (0-shot, API) rn
rn
- rn t
- rn
- rn t
- Gemini Ultra: 74.9% (0-shot) rn
rn
- rn t
- rn
- rn t
- Gemini Pro: 69.6% (0-shot) rn
rn
