Cosa Significa Google Gemini per i Team di Prodotto nel 2026

Hannah Clark

on Jun 29, 2026

Il tanto atteso concorrente di GPT-4 sviluppato da Google DeepMind è nato—e si trova già sotto una forte pressione per iniziare a muovere i primi passi e primeggiare nella corsa al dominio dell’IA. Scopri cosa comporterà l’arrivo di Gemini per lo sviluppo prodotto nel prossimo anno.

Potrebbe essere tecnicamente la stagione del Sagittario, ma è il momento dei Gemelli.

Il 6 dicembre, Google DeepMind ha annunciato il rilascio del suo modello AI nativamente multimodale e concorrente di GPT-4, chiamato Gemini.

In un post sul blog in cui si annuncia l’arrivo di Gemini, il CEO e co-fondatore di Google DeepMind, Demis Hassabis, ha definito il loro ultimo sviluppo come il “modello più capace e generale che abbiamo mai creato.” Alimentando le voci secondo cui questa serie di prodotti potrebbe essere una seria candidata per l’intelligenza artificiale generale (AGI), l’impatto di Gemini si fa già sentire nel competitivo settore AI per il business.

Ma quale sarà il suo impatto sui prodotti digitali nell’anno a venire? Ecco cosa c’è da sapere—il buono, il cattivo e il potenzialmente brutto.

Che cos’è Gemini?

Gemini non è un solo prodotto, ma tre; una famiglia di grandi modelli multimodali (LMM) che succedono alle reti neurali LaMDA e PaLM 2 di Google DeepMind. I tre prodotti sono:

Gemini Ultra: Il modello più potente, che sarà reso disponibile agli sviluppatori all’inizio del 2024. Ultra promette la capacità di “comprendere”, generare e combinare praticamente una vasta gamma di input, tra cui audio, video, testo, codice e immagini, a velocità impressionanti prossime al tempo reale.
Gemini Pro: Il modello a livello consumer attualmente disponibile per gli sviluppatori. Gli utenti nei paesi dove Bard è disponibile possono interagire con Gemini Pro dal momento dell’annuncio, il 6 dicembre.
Gemini Nano: Il modello compatto progettato per alimentare applicazioni mobili. Gemini Nano, come Gemini Ultra, deve ancora essere rilasciato e Google non ne ha ancora specificato le prestazioni.

Che cos’è l’AI multimodale?

L’AI multimodale è l’intelligenza artificiale capace di elaborare diversi tipi di dati utilizzando molteplici algoritmi di elaborazione. Ad esempio, un modello di AI da testo-a-immagine come Midjourney è considerato un’AI multimodale.

Anche se molti LMM hanno già invaso il mercato, ciò che differenzia Gemini dagli altri grandi modelli multimodali è il fatto che è progettato per “comprendere” numerosi input (testo, video, audio, codice e immagini) in modo che imiti la comprensione e la creatività umane.

Il Buono: Il potenziale della tecnologia AI multimodale

Nemmeno un anno intero dopo che la generazione testo-su-testo di ChatGPT ha conquistato l’immaginario pubblico, Gemini segna una nuova era in cui la funzionalità multimodale diventerà presto una caratteristica imprescindibile per i prodotti alimentati da AI.

Ken Hubbell, CEO della piattaforma AI Soffos.ai, prevede un enorme potenziale per la tecnologia nel nuovo anno.

“Abbiamo iniziato a pensare a cose come l’analisi in tempo reale di ciò che stai vedendo visivamente”, afferma Hubbell. “Perciò vedo nuovi prodotti, come occhiali in grado di ricevere un feed video, che ora possono prendere il feed video e generare risultati (in tempo reale).”

Sebbene ciò consentirà ai team di prodotto un livello di flessibilità mai visto prima, porterà inevitabilmente anche a una precoce obsolescenza dei prodotti che erano stati creati per espandere la funzionalità di piattaforme come GPT-4 per abilitare funzionalità simili a Gemini—tutti prodotti che hanno solo pochi mesi di vita.

“(Questi prodotti) presto saranno irrilevanti o dovranno essere completamente riprogettati per incorporare tutte le novità che prima avevano ‘aggirato’ con dei trucchi”, dice Hubbell.

(Questi prodotti) presto saranno irrilevanti o dovranno essere completamente riprogettati per incorporare ciò che prima avevano ‘aggirato’ con dei trucchi.
KEN HUBBELL, CEO, SOFFOS.AI

Sebbene Hubbell ammetta che molte aziende subiranno grosse perdite sugli investimenti riversati in queste soluzioni ormai obsolete, afferma che questa è in realtà una buona notizia sotto mentite spoglie.

“Quando Alexa è uscita, molte persone trovavano modi per fare cose che il prodotto Alexa stesso non poteva fare—ero uno di quelli”, ride Hubbell, notando che il team di Amazon si accorgeva rapidamente delle funzionalità sviluppate da esterni e le integrava nella piattaforma Alexa.

“Ci ha un po’ danneggiato, a noi sviluppatori, ma d’altra parte ha migliorato così tanto il back end che ora potevamo concentrarci su cose per cui non dovevamo più trovare escamotage—e potevamo finalmente realizzare il prodotto finale che davvero desideravamo.”

Il Cattivo: Le prime reazioni a Gemini

*Gli utenti sono stati impazienti riguardo alle prime prestazioni di Gemini.*

Sebbene questa nuova era dell’IA multimodale altamente capace sembri rivoluzionaria, la ricezione iniziale di Gemini Pro è stata ampiamente deludente. Durante la settimana successiva all’annuncio del lancio del prodotto, i feed di LinkedIn e X si sono rapidamente riempiti di recensioni scontente da parte degli utenti che avevano provato Gemini Pro.

Il problema? Gemini sembra essere…piuttosto poco intelligente.

Articoli su TechCrunch e di numerosi autori su Medium hanno messo in evidenza post di utenti sui social che mostravano screenshot di Gemini incapace di rispondere correttamente alle domande.

Ma, come spiega Hubbell, la piattaforma sta facendo esattamente ciò che chiunque avrebbe dovuto aspettarsi.

“Far crescere una IA è in realtà molto simile a crescere un bambino”, dice Hubbell che (prima che lo chiediate), è anche padre. Sottolinea che i LM possono apprendere solo fino a un certo punto nelle fasi iniziali dell’addestramento, che avviene in un ambiente chiuso con un campione molto ristretto di utenti. "Una volta rilasciata nel mondo reale, è lì che avviene la vera crescita."

Una volta rilasciata nel mondo reale, è lì che avviene la vera crescita.
KEN HUBBELL, CEO, SOFFOS.AI

La Bruttezza: la questione dell'etica

Nei materiali di rilascio, Google è stata molto trasparente nel promettere di aver sviluppato Gemini in modo "responsabile".

Questa promessa ha fatto, comprensibilmente, storcere il naso a diversi critici.

Un articolo di ZDNET sottolinea che Google ha deciso di omettere le model card per i prodotti Gemini, che illustrano dettagli come i potenziali effetti negativi di una rete neurale. Questo risulta particolarmente inquietante considerando che un team di Google ha inventato proprio le model card.

Sorge anche spontanea la domanda: con un prodotto addestrato su un dataset intrinsecamente di parte, chi decide cosa significhi davvero "responsabilità"?

In un articolo pubblicato a maggio sul blog di Mind Foundry, Frankie Garcia, nuovo Operational AI Ethics and Safety Manager di Google DeepMind e precedentemente AI Governance Product Manager di Mind Foundry, spiega cosa rende affidabile un modello di machine learning.

"Quando le decisioni hanno un impatto materiale sulla vita degli individui e delle popolazioni, non si può sottovalutare l'importanza dell'affidabilità e della responsabilità del modello", scrive Garcia nell'articolo co-firmato dal Professor Brent Mittelstadt dell’Internet Institute dell’Università di Oxford.

L’articolo sostiene che vi sono tre aree chiave per l'affidabilità del machine learning:

Bias e imparzialità: L’uso di diversi gruppi di “metriche di equità”, che gli autori ammettono spesso essere in contrasto tra loro, per assicurare che il modello si comporti in modo equo.
Interpretabilità e spiegabilità: Questo descrive il livello in cui un utente umano può comprendere la logica e il processo usato dal modello di IA per arrivare al suo output.
Data drift e fragilità del modello: Questo riguarda il modo in cui i cambiamenti rispetto al dataset di addestramento originale dovuti a pattern di input degli utenti e altre variabili possono influenzare negativamente gli output del modello.

Possiamo dedurre che Google tenga sotto stretto controllo questi fattori per assicurare che la famiglia di prodotti Gemini rimanga "sotto controllo". Se vedremo un impegno simile anche tra i concorrenti in corsa per la quota di mercato, resta tuttora da vedere.

Come si confronta Gemini con ChatGPT?

In termini di prestazioni pure, Google ha fatto affermazioni ambiziose su ciò che gli sviluppatori possono aspettarsi. Ecco i benchmark delle prestazioni per Gemini Ultra e Gemini Pro rispetto a ChatGPT, secondo Google.

<!-- wp:acf/accordion {"name":"acf/accordion","data":{"title":"Benchmark di Prestazioni: GPT-4 vs Gemini Ultra & Gemini Pro","_title":"field_accordion_title","description":"Un elenco completo dei benchmark di prestazione riportati per Gemini Ultra e Gemini Pro rispetto a GPT-4. I benchmark di prestazione per Gemini Nano non sono ancora stati resi pubblici.\r\n\r\n ","_description":"field_accordion_description","cta":"","_cta":"field_accordion_cta","heading_tag":"h3","_heading_tag":"field_accordion_heading_tag","add_faq_schema":"0","_add_faq_schema":"field_accordion_add_faq_schema","accordion_0_row_header":"Generale","_accordion_0_row_header":"field_row_header","accordion_0_row_content":"rnrnRappresentazione MMLU: Domande su 57 materie, comprese materie STEM e umanistiche.rn

rn
- GPT-4: 86.4% (5-shot)
rn

rn rn

rn
- Gemini Ultra: 90% (CoT@32*)
rn

rn rn

rn
- Gemini Pro: 79.1% (CoT@32*)
rn

rnrnrnrnrnrnrnrnrnBig-Bench Hard: Vasta gamma di compiti impegnativi che richiedono ragionamento multi-steprn

rn
- GPT-4: 83.1% (3-shot, API)
rn

rn rn

rn
- Gemini Ultra: 83.6% (3-shot)
rn

rn rn

rn
- Gemini Pro: 75% (3-shot)
rn

rnrnrnrnrnrnrnDROP: Comprensione della lettura (Punteggio F1)rn

rn
- GPT-4: 80.9% (3-shot)
rn

rn rn

rn
- Gemini Ultra: 82.4% (Tiri variabili)
rn

rn rn

rn
- Gemini Pro: 74.1 (Punteggio F1)
rn

rnrnrnrnrnrnrnHellaSwag: Ragionamento basato sul buon senso per le attività quotidianern

rn
- GPT-4: 95.3% (10-shot)
rn

rn rn

rn
- Gemini Ultra: 87.8% (10-shot)
rn

rn rn

rn
- Gemini Pro: 84.7% (10-shot)
rn

rnrnrnrnrnrnrnGSM8K: Manipolazioni aritmetiche di base (incl. problemi di matematica delle scuole primarie)rn

rn
- GPT-4: 92% (5-shot CoT)
rn

rn rn

rn
- Gemini Ultra: 94.4% (maj1@32)
rn

rn rn

rn
- Gemini Pro: 86.5% (maj1@32)
rn

rnrnrnrnrnrnrnMATH: Problemi matematici complessi (algebra, geometria, pre-calcolo e altri)rn

rn
- GPT-4: 52.9% (4-shot, API)
rn

rn rn

rn
- Gemini Ultra: 53.2% (4-shot)
rn

rn rn

rn
- Gemini Pro: 32.6% (4-shot)
rn

rnrnrnrnrnrnrnHumanEval: Generazione di codice Pythonrn

rn
- GPT-4: 67% (0-shot, riportato)
rn

rn rn

rn
- Gemini Ultra: 74.4% (0-shot, IT)
rn

rn rn

rn
- Gemini Pro: 67.7% (0-shot, IT)
rn

rnrnrnrnrnrnrnNatural2Code: Generazione di codice Python.rn

rn
- GPT-4: 73.9% (0-shot, API)
rn

rn rn

rn
- Gemini Ultra: 74.9% (0-shot)
rn

rn rn

rn
- Gemini Pro: 69.6% (0-shot)
rn

rnrnrnrnrn

Cosa Significa Google Gemini per i Team di Prodotto nel 2026

Che cos’è Gemini?

Want more from The CPO Club?

Che cos’è l’AI multimodale?

Il Buono: Il potenziale della tecnologia AI multimodale

Il Cattivo: Le prime reazioni a Gemini

More Articles

La Bruttezza: la questione dell'etica

Come si confronta Gemini con ChatGPT?

Che cos’è Gemini?

Want more from The CPO Club?

Che cos’è l’AI multimodale?

Il Buono: Il potenziale della tecnologia AI multimodale

Il Cattivo: Le prime reazioni a Gemini

More Articles

La Bruttezza: la questione dell'etica

Come si confronta Gemini con ChatGPT?

Cosa è successo in OpenAI? Una cronologia (e cosa succederà)

Analisi della Catena del Valore: Guida Completa + Esempi

Post mortem di prodotto: 6 prodotti falliti e cosa possiamo imparare