L’IA può risolvere problemi di matematica di livello olimpionico… e allo stesso tempo commettere errori nei calcoli più elementari. Ma perché accade? Secondo Dhruv Batra, la risposta sta nell’“irregolarità” dell’intelligenza: l’IA può eccellere in alcuni ambiti e fallire completamente in altri. Dhruv, co-fondatore e Chief Scientist di Yutori, si unisce a Hannah Clark per analizzare la dissonanza cognitiva che provano gli utenti quando un modello sorprende in un momento e delude in quello successivo.
Insieme esplorano come le aspettative degli utenti — plasmate da decenni di interfacce intuitive e dialoghi umani — spesso si scontrano con i limiti fondamentali dei sistemi di IA. Dalle soluzioni di automazione basate su browser ai cicli di feedback di lungo termine e alla costruzione della fiducia, questa conversazione offre uno sguardo trasparente su ciò che l’IA è davvero in grado di fare oggi (e dove invece sta ancora bluffando). Se stai sviluppando con l’IA o vuoi capire cosa sia possibile realizzare, questa puntata ti aiuterà a ricalibrare le tue aspettative — in senso positivo.
Cosa imparerai
- Perché le capacità dell’IA sono irregolari — e perché questo conta oggi più che mai
- Come le aspettative degli utenti vengono influenzate da anni di interazione con la “vecchia” tecnologia
- Perché fiducia, definizione degli obiettivi e feedback degli utenti sono fondamentali nella progettazione di prodotti IA
- Quali tipi di attività l’IA può gestire con affidabilità oggi — e cosa resta ancora lontano
- Come definire le funzionalità IA evitando la trappola del “tutto è possibile”
Punti chiave
- L’irregolarità dell’intelligenza è reale: L’IA può essere eccellente in alcuni compiti e sorprendentemente inefficace in altri. Definire il tuo prodotto significa comprendere — e comunicare chiaramente — dove si trova il suo “bordo irregolare”.
- Costruisci la fiducia gradualmente: Chiedi meno all’inizio. Offri un valore ristretto all’inizio. Poi, scala la “scaletta della fiducia” man mano che gli utenti vedono i risultati.
- Progetta per il recupero dagli errori: Non tutti gli errori sono recuperabili — soprattutto nell’automazione. Parti con attività in sola lettura prima di tentare di “scrivere” nel mondo.
- Attenzione alla trappola della casella di testo: Dare agli utenti una finestra vuota e dire “Chiedimi qualsiasi cosa” sembra accattivante. Ma è anche una strada sicura verso la frustrazione se il modello non riesce a soddisfare le richieste.
- Il feedback non è controllo qualità: Non aspettarti che siano gli utenti a fare debug del tuo sistema. Ma crea comunque strumenti che permettano loro di plasmarlo e personalizzarlo.
Capitoli
- [00:00] Gli utenti come dati di addestramento
- [01:27] Il percorso di Dhruv nell’IA
- [03:08] Spiegazione dell’intelligenza irregolare
- [08:14] Perché i compiti “semplici” mettono in crisi l’IA
- [14:15] Evoluzione dei comportamenti degli utenti
- [17:59] Errori comuni nei prodotti
- [24:21] Cosa può (e non può) fare l’IA
- [29:07] Feedback, fiducia e personalizzazione
- [36:07] Perché ora è il momento giusto per Yutori
Conosci il nostro ospite

Dhruv Batra è co-fondatore e Chief Scientist di Yutori, e porta con sé un’importante esperienza maturata nei ruoli di Senior Director of Embodied AI presso il laboratorio FAIR di Meta e di Professore Associato al Georgia Tech. La sua ricerca esplora le frontiere dell’intelligenza artificiale — spaziando tra machine learning, visione artificiale, robotica e linguaggio — e ora guida la missione di Yutori per costruire agenti IA di nuova generazione, in grado di comprendere, agire e navigare in ambienti complessi in modo autonomo.
Risorse da questa puntata:
- Iscriviti alla newsletter The CPO Club
- Collegati con Dhruv su LinkedIn
- Visita il sito web di Dhruv e Yutori
Articoli e podcast correlati:
Hannah Clark: L’innovazione è cumulativa—e con questo intendo che i modi in cui risolviamo i problemi oggi non sarebbero efficaci se non fossero stati preceduti da soluzioni adottate in passato. E sebbene oggi le parole 'dati di addestramento' siano solitamente utilizzate nel contesto dello sviluppo dell’IA, vale la pena ricordare che anche gli utenti sono consumatori e detentori di enormi quantità di dati di addestramento derivati da anni di scoperta e adozione di ogni singolo software che hanno mai usato. Quindi, mentre siamo impegnati a ossessionarci su casi d’uso e nuove funzionalità per i nostri prodotti IA, gli utenti stanno seguendo uno schema diverso. Operano con preferenze, abitudini e, soprattutto, aspettative che hanno acquisito fin dalla prima volta che hanno aperto un browser web.
Oggi il mio ospite è Dhruv Batra, co-fondatore e Chief Scientist di Yutori. Come sentirete, l’esperienza di Dhruv nella ricerca, nello sviluppo, addestramento e leadership nell’IA si estende su oltre 20 anni. Quindi, come potete immaginare, ha molti più spunti affascinanti sulla tecnologia di quanti ne potremmo coprire in un solo episodio. Con questo in mente, quando ho chiesto a Dhruv cosa vorrebbe maggiormente comunicare ai leader di prodotto, non ha esitato. Mi ha detto che le capacità dell’IA sono estremamente frastagliate. E ora scoprirete esattamente cosa significa questo per i vostri utenti, per la vostra organizzazione e per il futuro prossimo dei prodotti. Iniziamo.
A proposito, teniamo conversazioni come questa ogni settimana, quindi se ti interessa, perché non ti iscrivi? Bene, ora buttiamoci dentro.
Bentornati al podcast Il Product Manager. Oggi sono qui con Dhruv Batra, co-fondatore e Chief Scientist di Yutori.
Dhruv, grazie mille per essere con me oggi.
Dhruv Batra: Certo. Grazie a te per avermi invitato, Hannah.
Hannah Clark: Iniziamo con qualche informazione di background. Puoi raccontarci un po’ del tuo percorso e come il tuo viaggio nella ricerca sull’IA—dal deep learning all’attuale rivoluzione generativa—ha plasmato la tua visione su dove siamo ora con questa tecnologia?
Dhruv Batra: Sono un ricercatore di IA. Sono nel campo da quasi 20 anni ormai. La ricerca sull’IA, nella discussione moderna, sembra iniziare intorno alla rivoluzione di ChatGPT del 2022. Sono entrato nel settore nel 2005, prima dell’ultima epoca del deep learning. Ho conseguito il dottorato alla CMU lavorando su problemi di machine learning applicati a visione artificiale, come il rilevamento di oggetti nelle immagini.
Nel corso degli anni, ho costruito chatbot, realizzato i primi sistemi capaci di rispondere a domande su immagini, tenere dialoghi su di esse. Sono stato professore a Georgia Tech per molti anni. Ho creato il corso di deep learning. Ho anche trascorso otto anni in Meta. Ero senior director, a capo di FAIR Embodied AI. FAIR è la divisione di ricerca fondamentale sull’IA di Meta.
Embodied AI è IA per la robotica e per gli smart glasses. Uno dei miei team in Meta ha costruito la primissima versione di un modello di risposte a domande sulle immagini che è stato incluso come assistente multimodale nella prima versione degli occhiali RayBan Meta. Altri team che guidavo hanno creato il simulatore 3D più veloce al mondo per addestrare robot virtuali e simulare prima di schierarli su robot Boston Dynamics.
Ho quindi visto l’intero spettro: dalla visione artificiale, ai chatbot, alla robotica, e sono semplicemente affascinato dall’intelligenza e dalla costruzione di sistemi intelligenti—ed è questo che mi ha condotto oggi a Yutori.
Hannah Clark: Sei chiaramente una persona molto qualificata per discutere su questo argomento, che tutti noi desideriamo imparare il più possibile. Sono davvero entusiasta dell’argomento di oggi perché analizzeremo molto più da vicino le aspettative contro la realtà, per quanto riguarda lo stato attuale della tecnologia IA. Ho l’impressione che sia necessario avere un certo livello di competenza per poter parlare in modo approfondito di questi temi e rispondere alle domande che abbiamo in mente.
Oggi lo guarderemo da tre prospettive: lato utente, lato business e lato tecnologico dell’IA. Partiamo dal lato utente: attualmente siamo chiaramente coinvolti in un ciclo di hype enorme sull’IA, ma gli utenti possono spesso sperimentare risultati estremamente incoerenti a seconda degli strumenti e degli usi che perseguono.
Cosa credi stia causando il divario tra ciò che gli utenti si aspettano dall’IA e ciò che attualmente può davvero offrire?
Dhruv Batra: Ottima domanda. Essa tocca un problema essenziale che risiede non solo nella creazione di prodotti, ma anche nella ricerca sull’IA, e riguarda la cosiddetta natura frastagliata dell’intelligenza.
Come per molti di questi argomenti, c’è una famosa vignetta XKCD in cui una figura da product manager chiede a un ingegnere: “Puoi costruirmi un’app? Ogni volta che un utente scatta una foto, vorrei sapere se quella foto è in un parco nazionale”, e l’ingegnere risponde: “Certo, sembra solo una semplice query GPS su un database. Dammi qualche ora, si può fare”. La frase successiva del PM è: “Fammi sapere se la foto è di un uccello”, e l’ingegnere replica: “Mi serve un team di ricerca, 50 milioni di dollari e 5 anni, forse allora riusciremo a rispondere”. Ora, l’esempio specifico non è più valido.
La visione artificiale ha fatto abbastanza progressi da rendere la rilevazione di specie di uccelli o cani un problema risolto. Ma il punto che si vuole sottolineare è che esistono transizioni estremamente nette da problemi banali a problemi praticamente impossibili. E questa nettezza è difficile da concettualizzare o prevedere.
Questo vale non solo per gli utenti della tecnologia, ma anche per chi la costruisce e per i ricercatori IA. Non sono propriamente le credenziali ad importare, ma il fatto che, dedicandosi a queste tecnologie, diversi ricercatori finiscono per costruire dei modelli mentali di ciò che le macchine possono o non possono fare.
Oggi, ad esempio, si scherza su come abbiamo costruito chatbot che sanno risolvere problemi di matematica internazionale di livello olimpico, ma contemporaneamente commettono errori come sostenere che 9.11 sia maggiore di 9.9—cosa che nessun umano farebbe. Ma questo è proprio il tipo di errore che fanno i chatbot. Dove ci porta tutto ciò?
Innanzitutto, perché succede? Dove ci conduce? Succede per diversi motivi. Stiamo costruendo sistemi intelligenti che occupano un posto diverso nel panorama dell’intelligenza, ma gli umani si approcciano ai sistemi intelligenti secondo la propria comprensione umana, derivata dal relazionarsi con altre persone.
Se parlo con qualcuno che mi dice di aver frequentato il liceo, l’università o di avere un dottorato in discipline diverse, io mi aspetto diverse cose da lui. Se qualcuno afferma di avere un dottorato in chimica, non mi aspetto che commetta un errore del tipo “9.11 è maggiore di 9.9”, mi aspetto semplicemente che sia numericamente competente, generalmente informato sul mondo e così via. Queste aspettative crollano con i sistemi IA perché non possiamo più contare sugli stessi presupposti condivisi. La performance su determinati compiti richiede addestramento su quei compiti.
E anche se abbiamo costruito sistemi a scopo generale negli ultimi anni, con “generalità” si intende qualcosa di molto specifico. E questo rende molto difficile per i consumatori sviluppare modelli mentali. Ne consegue che spesso vivono un’esperienza frustrante: arrivano a un prodotto, questo sostiene di poter fare tante cose, chiedi che faccia una cosa menzionata sul sito del produttore e magari la fa, poi chiedi una variazione di quella richiesta e non ci riesce. E questo può essere frustrante.
Hannah Clark: Assolutamente, sì. Ed è anche un comportamento nuovo per i consumatori: siamo stati abituati a funzionalità molto specifiche, intuitive e facili da usare. Quindi le persone applicano il loro addestramento nell’interagire con il chat o con altri esseri umani a una funzione perlopiù indefinita.
Non afferriamo bene i limiti in diverse, potremmo dire, competenze. Quindi sì, una tecnologia molto complessa che stiamo apprendendo tutti insieme ad usare. Pensando quindi alle attività quotidiane che l’IA potrebbe automatizzare—come prenotare viaggi, gestire agende—cosa rende questi compiti più difficili di quanto si immagini?
Dhruv Batra: Userò Yutori e ciò che stiamo costruendo come esempio. In Yutori sviluppiamo assistenti personali che automatizzano flussi di lavoro noiosi sul web. Il nostro primo prodotto si chiama Scouts. È un team di agenti che monitora qualsiasi cosa sul web per te. Era fondamentale indicare chiaramente che, ad esempio, questo prodotto monitora un’informazione, non prenota nulla, non compra per te. Non creerà slide, non farà i compiti, non scriverà codice. Non fa tutto ciò che puoi fare su un browser, ma può, per esempio, avvisarti quando il tuo artista preferito viene in città.
Magari lo annunciano su vari siti. Io visito quei siti ogni tanto. Vorrei che l’agente controllasse con la frequenza desiderata. Oppure cerco una prenotazione che richiede la compilazione di un modulo leggero, cliccando dei pulsanti su un browser: lo vorrei fare a una macchina, e ricevere l’informazione. Oppure sono un recruiter, monitoro il cambiamento di ruolo di determinate persone e, se lo annunciano su X, LinkedIn o sul blog, vorrei essere avvisato.
Perché è difficile tutto ciò? Sembra banale: un umano apre il browser, visita una pagina, compila informazioni. Ma è difficile perché sono problemi noti come “problemi di decisione sequenziale”. Ti trovi in uno stato, sei su una pagina web, devi effettuare azioni diverse. I siti sono progettati per consumo umano: il codice HTML è altamente incoerente su come i pulsanti vengono marcati o etichettati da sito a sito.
Quindi, fondamentalmente, è un problema di percezione. Un click, accade qualcosa, scroll della pagina, compila altro, accade qualcos’altro. Ogni errore si ripercuote e gli errori precedenti causano guasti successivi.
È simile a ciò che affrontano la robotica e i veicoli autonomi: se i robot sbagliano, l’errore si amplifica. Se esci leggermente dalla corsia, non sei più nel centro: devi correggere la rotta.
Allo stesso modo, gli agenti di automazione del browser: se finiscono in una zona sbagliata della pagina, non troveranno la risposta. Serve apprendere il recupero dagli errori. Poi ci sono compiti di sola lettura e compiti che modificano dati: in un form, click su “Invia”, alcuni siti non permettono di tornare indietro—quello è un errore irreversibile. Addestrare l’agente a gestire errori irreversibili è difficile, e servono mondi simulati. È ciò che fanno i roboticisti costruendo simulatori 3D per il mondo, come giochi virtuali, per addestrare e poi portare i robot nel mondo reale.
Noi facciamo lo stesso con gli agenti di automazione del browser: quando devono compilare un form e inviare, oppure acquistare online, sono errori irreversibili. Quindi bisogna addestrarsi in simulazione. Questi elementi rendono i problemi difficili, ed è spesso impossibile sapere quale azione abbia contribuito al successo o al fallimento: questo è noto come credit assignment problem.
Hannah Clark: Tutte queste cose che, come umani, ormai sappiamo fare bene: sembra banale, ma tecnicamente sono molto più complesse. E non abbiamo ancora trattato questioni come le preferenze: l’orario, dove sedersi al ristorante, ecc. Immagino sia impossibile da codificare tutto ciò.
Dhruv Batra: Ecco un piccolo esempio: gli umani sono abituati a certi pattern di design. Su un sito di prenotazione, si capisce che una data o fascia oraria barrata o grigia indica indisponibilità, anche senza testo a spiegarlo. Lo capiamo perché abbiamo visto quel pattern mille volte. Come fanno le macchine a capirlo? Possono avere letto mille libri, ma serve interagire coi siti per dedurre che un testo grigio vuol dire qualcosa.
Questo è solo un esempio dei pattern pensati per esseri umani che le macchine devono imparare. Che cliccare quel bottone non fa nulla, anche senza testo a spiegarlo. Lo devi solo sapere.
Hannah Clark: Molto interessante. Ricordo una conversazione molto tempo fa con Nimrod Priell, fondatore di Cord.
Abbiamo parlato dell’evoluzione del comportamento degli utenti e di come questi cambiamenti incrementali nella comprensione di elementi UX e della disposizione generale dei siti siano una sorta di asset cumulativo che tutti diamo per scontato. Ed è molto difficile comunicare questo sapere condiviso alle macchine. Vorrei approfondire ancora di più il lato del comportamento degli utenti. Come estensione di questi pattern e comportamenti che abbiamo interiorizzato col tempo.
Questo è un processo in corso. Quali sono alcuni cambiamenti nel modo in cui le persone interagiscono con la tecnologia che i leader di prodotto dovrebbero prepararsi ad affrontare nel prossimo futuro?
Dhruv Batra: L’emergere di prodotti IA nel consumo di massa ha certamente spostato le aspettative. Ora crescono bambini che si aspettano di poter parlare alle macchine.
C’è quell’episodio di Futurama o tanti film di fantascienza in cui i bambini cresciuti in società tecnologiche avanzate, davanti a una tecnologia vecchia, si chiedono “Perché non posso parlare alla mia TV? Perché non mi capisce?”. Vediamo che queste aspettative cambiano nel comportamento dei consumatori: vogliono potersi esprimere, pensano “dovrei poter parlare alla macchina, che dovrebbe avere capacità generali, reggere una conversazione coerente, capire i miei modelli d’uso”. Questo ha ispirato anche il nostro lavoro e la visione in Yutori.
Vediamo l’evoluzione del web negli ultimi 30 anni come miglioramenti incrementali su una tecnologia base che connette contenuti e servizi agli esseri umani. Il web è stato finora progettato per il consumo umano—perché sono sempre stati occhi umani. Ora le persone si aspettano di poter dire alle macchine cosa fargli fare sul proprio computer e browser.
Perché io, persona, dovrei compilare a mano nome, indirizzo, carta di credito, per acquistare o trovare informazioni? Dovrebbe essere automatizzabile. Credo che questo cambio nelle aspettative sia in corso: le persone vogliono che il software automatizzi gli aspetti noiosi della vita e diventi una specie di lista di cose da fare con super poteri, fino ad arrivare a una proattività.
Non vogliamo spiegare ogni volta chi siamo e le nostre preferenze. Una volta appresa la memoria e la personalizzazione, perché non agisci proattivamente? Perché devo sempre istruire? È come avere tutti un assistente o un super impiegato personale.
Hannah Clark: E si vede come alcune tecnologie di uso quotidiano contribuiscono: pensa alla “for you” di TikTok, dove la tecnologia apprende gusti e comportamenti. Applichiamo la stessa logica alla tecnologia abituati a sapere che conosce già molte nostre preferenze e abitudini.
Quindi, è interessante come il panorama tecnologico influenzi queste aspettative—lo trovo un aspetto chiave per anticipare i desideri dei consumatori, che ci porta al lato business.
Attualmente vediamo molte aziende affrettarsi a lanciare prodotti e funzionalità IA, promettendo capacità trasformative con vari gradi di successo. Quali sono, secondo te, gli errori principali che i team di prodotto commettono nella definizione e nel posizionamento delle funzionalità IA?
Dhruv Batra: Anche qui si torna alla natura frastagliata dell’intelligenza. Bisogna essere molto cauti: non solo per i consumatori, anche per chi costruisce. Non devi promettere la luna se non puoi mantenerla dal primo giorno. Ma al contempo le aspettative di generalità salgono: la gente si aspetta che tu possa fare tutto, perché ChatGPT risponde a qualsiasi domanda, perché tu no?
Si rischia così di cadere nello schema dove la barra testo è il punto di ingresso di tutto—non dici nulla all’utente, prometti tutto. Il risultato: frustrazione, perché si trova davanti a una tela bianca e o chiede troppo o richiede cose che l’agente non sa fare. È ciò che abbiamo voluto evitare col nostro primo prodotto: abbiamo scelto uno scopo molto ristretto—Scouts sono agenti che monitorano tutto il web per te, ma non fanno login o azioni scrittura, monitorano e basta. Non monitoriamo solo i prezzi su Amazon o gli eventi su Ticketmaster: qualunque informazione digitale accessibile da browser potrà essere notificata dagli agenti, che inviano un’email con la frequenza desiderata.
Per noi era importantissimo mantenere questa promessa. Questa è una capacità di sola lettura: nessun errore irreversibile. Se prendessimo decisioni di acquisto per te e sbagliassimo, ti arrabbieresti. Ma resta una certa generalità nelle query e nelle fonti. Da lì si deve scalare la scala della fiducia: offri valore senza chiedere login o carte di credito. Una volta ricevuto valore, gli utenti vorranno sempre di più: se monitori un artista e arriva in città, il passo dopo è il biglietto. Se controlli la disponibilità di una prenotazione, vuoi che venga fatta per te. Se come recruiter segui un candidato, dopo vuoi una mail d’approccio.
Come costruttori—sono un ricercatore IA, non so se posso dare consigli—posso solo sottolineare la cautela: la natura frastagliata dell’intelligenza. Alcuni compiti saranno risolvibili, altri no. Quelli che puoi risolvere di solito sono quelli in cui puoi fare pratica; quindi devono essere compiti dove gli errori non costano troppo e si costruisce in modo incrementale.
Hannah Clark: Parole sagge—vedo spesso la frustrazione generata da limiti opachi per l’utente: entra in chat come fosse un agente live, ma incontra limiti non dichiarati e si demoralizza, con conseguente perdita di fiducia verso tutta la tecnologia.
Dhruv Batra: Se non trova valore in ciò che tu prometti, avrà esperienze subottimali e se ne andrà, non tornerà indietro.
Hannah Clark: Esatto. Approfondiamo la questione: penso che la fiducia sia centrale nella scelta di abbandonare il prodotto. Come dovrebbero i product leader pensare alla costruzione della fiducia con i clienti senza promettere capacità che non sono (ancora) pronte o non possono essere mantenute?
Dhruv Batra: Qui torniamo a quanto si diceva prima: l’utente deve percepire valore prima di fornire credenziali o dati sensibili come la carta di credito. Se la prima cosa che chiedi, come fanno alcune app, è calendario, email, altri login prima ancora di mostrare cosa sai fare, rischi grosso. Potresti diventare virale sui social, ma mettiamoci nei panni dell’utente: voglio davvero darti la mia mail di lavoro o la carta di credito senza sapere se puoi aiutarmi?
Ecco perché abbiamo iniziato evitando autenticazione, scrittura o modifiche: sola lettura. L’IA non promette il 100% di accuratezza: puoi riprovare se sbagli, ma solo nei prodotti di sola lettura. Impossibile nei compiti di scrittura con errori irreversibili. Questi sono i ragionamenti che facciamo per scalare la fiducia con gli utenti.
Hannah Clark: Mi ricorda una situazione: un’amica emigrata dal Brasile in Canada era convinta che fosse il paese più sicuro. Dopo una rapina nella sua via, si sentiva sempre in pericolo. È lo stesso concetto…
Dhruv Batra: Time to value,
Hannah Clark: Tempo per valorizzare e deliziare, ma anche quanto sia fragile il periodo iniziale di fiducia, come può essere scossa da un disservizio imprevisto.
Passiamo ora al lato tecnologico. Dal tuo punto di vista di ricercatore IA, quali problemi ritieni in gran parte risolti e quali ancora (magari sempre) a pochi anni da una soluzione?
Dhruv Batra: L’esempio concreto che mi è in mente riguarda le domande sulle immagini. Settimana scorsa ero a ICCV, conferenza internazionale sulla Computer Vision.
Io e colleghi abbiamo ricevuto il premio Mark Everingham per un lavoro di dieci anni fa: Visual Question Answering. Avevamo introdotto dataset, task, benchmark e metodi per la prima generazione di agenti capaci di rispondere a domande aperte su ogni immagine naturale.
In 10 anni, la community ha gareggiato e progredito. Dal 2015 i metodi erano pessimi. Nel 2021 su quel dataset si è raggiunto l’accordo umano nelle risposte, quindi la competizione si è chiusa. Ho anche guidato il team FAIR che ha costruito metodi usati sugli occhiali RayBan Meta come assistente AI: “Hey Meta, scatta una foto, dimmi di più su questo monumento”.
Quando iniziammo, problemi come leggere testi nel mondo reale erano quasi irrisolvibili: domandavi “Che cosa dice il cartello?”, ma i modelli non sapevano fare OCR, rispondevano col buonsenso (“i cartelli dicono stop o via”). Risposte dominate dai bias linguistici: chiedi il colore delle banane, risponderà giallo (dato dal training), anche se erano verdi: il modello non vedeva davvero, “strizzava gli occhi” sull’immagine.
Avevamo esteso il task al dialogo: coreferenza era durissima. Chiedi: “C’è una persona?”—Sì—“Cosa sta facendo?” Il modello si perdeva sul riferimento. Ora questi problemi sono considerati risolti (per quanto possiamo misurare).
Altri sono ancora aperti: contare oggetti in una foto è aperto. Prendi una foto con più di 10 persone, chiedi quanti sono, i chatbot fanno fatica. Riconoscere spazi 3D: hai un tavolo lontano e una libreria vicina, chiedi quale sia più alta, il modello guarda i pixel e dice quella davanti (più alta), ma ignora la prospettiva reale. I chatbot non hanno ancora la comprensione tridimensionale della scena.
Altro caso, da agenti IA web: fenomeno del drift, la deriva dell’obiettivo nel tempo. I nostri agenti monitorano temi per mesi, rischiando di allontanarsi dalla richiesta originaria. Non ci sono agenti che lavorano tanto a lungo e sistemi di “credit assignment” a lungo termine.
Hannah Clark: Interessante. Non avevo mai pensato a quali criteri servano per valutare una risposta corretta dell’agente. Se ricevi l’output giusto, vai avanti, non dai feedback. Quindi: come chiudere questo feedback loop?
Dhruv Batra: Internamente valutiamo a vari livelli. Sui browser automation agent annotiamo manualmente ogni click se è giusto o sbagliato sulla pagina, ma questo è rumoroso. A volte un task si può risolvere in tanti modi—con una ricerca, oppure cliccando una tab.
Ma dopo il task, per esempio nel trovare la disponibilità di una prenotazione alle 18:30, potremmo mostrare uno screenshot della pagina, verificabile facilmente. Quindi costruiamo valutazioni così. Poi esistono meccanismi di feedback per l’utente finale: email dagli agenti con pollice su o giù.
A ciò si lega la personalizzazione: a volte non esistono giusto/sbagliato, ma solo preferenze. Se seguo una notizia ma poi mi annoia, dico “voglio vedere meno di questo, più di quello”, in linguaggio naturale. Bisogna quindi prevedere feedback in linguaggio naturale che modifichi il comportamento futuro degli agenti.
Hannah Clark: Interessante. Spesso guardiamo l’output di ChatGPT con la mentalità da servizio: “Mi piace?” Invece di chiedersi se la risposta è tecnicamente corretta.
Ad esempio: io e un collega generiamo piani alimentari con lo stesso prompt; il mio non rispetta i macronutrienti desiderati: per me è pollice giù anche se è tecnicamente corretto. Il collega invece è soddisfatto. Esiste quindi grande confusione su cosa sia davvero un buon feedback.
Dhruv Batra: I metodi tradizionali di AB testing—dividere gli utenti in gruppi o mostrare risposte parallele—non funzionano sempre. In molti casi, per esempio per acquisti, non puoi fare due prove. I pollici su/giù sono troppo grossolani. Spesso serve consentire all’utente di evidenziare parti di testo, dire “non questa”, essere più editoriale, come farebbe su un Google Doc. Un semplice pollice giù lascia nel dubbio: “che cosa esattamente non va bene?”
Hannah Clark: Sarebbe tremendo! Pollice giù… su cosa? Rifai tutto?
Dhruv Batra: Esatto. Come da un editor che ti dice solo: “No. Correggi.” Cosa?
Hannah Clark: Tutto da capo! È anche tanto pretendere: chiedere feedback dettagliato all’utente medio che vuole solo la soluzione. Già è difficile far rispondere a sondaggi anche offrendo incentivi. Far co-autore l’utente è difficile. Quindi dobbiamo aspettarci meno dall’utente finale.
Dhruv Batra: L’utente deve sentire che il feedback è un investimento nella personalizzazione dell’assistente. Non può essere il tuo QA engineer, ma, se lo percepisce come un assistente personale, darà feedback per adattarlo alle proprie preferenze. Questo è il giusto rapporto.
Hannah Clark: Concordo: sono più paziente con un modello che prova ad apprendere le mie preferenze. Se un LL.M chiede subito chiarimenti, anche se banali, mi abitua a fornire informazioni più specifiche per ottenere ciò che voglio. E mi prepara alla delusione se sono troppo vago. Credo sia importante ricordarlo quando si sviluppano feature che richiedono collaborazione dell’utente.
Dhruv Batra: Qui torniamo alla scala della fiducia.
Se la prima cosa che chiedi a chi prova il prodotto è un questionario in venti domande, l’utente cerca solo la “delizia”—fare una prova rapida e poi iterare. Non puoi sommergerli subito di domande, ma dopo che han visto valore, puoi inserire preferenze e dettagli.
Hannah Clark: Ora sono curiosa: perché proprio ora? Perché hai fondato Yutori adesso e cosa rende ora il momento giusto per questo progetto rispetto a prima?
Dhruv Batra: Sarò vittima di bias retrospettivo, ma questa mi sembra un’epoca unica per certi prodotti IA che prima non si potevano realizzare. Ho lavorato nella robotica, avrei potuto creare una startup nella robotica—non ne mancano, ma non credo sia il tempo giusto per una robotica consumer/generalista: sono problemi ancora lontani decenni.
La gente dimentica che nel 2004 la DARPA lanciò la Grand Challenge: creare auto autonome capaci di passare dal punto A al B nel deserto. Nel 2004 nessuna auto finì la gara; nel 2005 (ero a CMU) alcune sì. Da lì, per dieci anni i ricercatori vanno a Google, nasce Google X, poi Waymo; solo nel 2023/24 l’app arriva al consumatore (a SF puoi chiamare una Waymo). Un percorso dal prototipo di ricerca a una soluzione pubblica di quasi 20 anni—e la distribuzione universale è ancora lontana, forse di un decennio.
Hardware+IA richiedono cicli lunghi; software+IA invece avanzano molto più rapidamente. Ora i sistemi IA possono parlare alle persone: c’è conoscenza diffusa e dialogo. I sistemi di percezione web sono maturi: uno screenshot e sappiamo come sono i siti, che pulsanti fanno cosa. C’è più buonsenso. E, terzo, sono usciti modelli open source negli ultimi anni—così anche chi è piccolo può partire.
Qualche anno fa, per avviare una startup su automazione web, sarebbe servito pre-training da zero di modelli linguistici/visivi: impresa mastodontica. Ora partiamo da modelli open source vision/language e li post-addestriamo per browser automation, click, form, ecc. Prima era impossibile. E, di nuovo, non è un problema con lunghi cicli di sviluppo da decenni.
Non esisterà mai un mondo dove i robot sono nelle nostre case mentre stiamo ancora compilando i form browser a mano: arriveranno prima gli assistenti digitali di quelli fisici. Nel mondo digitale si va più veloci. Molte basi di sviluppo sono ormai commodity: si può mettere il focus sull’ultimo miglio.
Hannah Clark: Una risposta eloquente. Splendido anche l’uso della parola “substrato”. È stata una conversazione affascinante, avremmo potuto continuare per ore. Dove possono seguirti online?
Dhruv Batra: Sono su dhruvbatra.com. Il mio lavoro si trova su yutori.com; il nostro prodotto Scouts è su scouts.yutori.com.
Hannah Clark: Fantastico. Grazie mille per il tuo tempo Dhruv, apprezzo davvero.
Dhruv Batra: Grazie a voi. È stato un piacere.
Hannah Clark: Prossimamente su Il Product Manager podcast. Guidare il prodotto nell’era dell’IA significa risolvere molti degli stessi problemi in modi molto diversi. Dai processi di sviluppo alle strategie di distribuzione, quasi ogni playbook che funzionava solo un anno fa è già superato—cosa che Rachel Wolan, CPO di Webflow, considera sia una sfida sia una grande opportunità.
Troverai risposte e chiarezza su temi come l’ottimizzazione dei motori di risposta, build-versus-buy, e il modo corretto di entrare nel mercato IA. Iscriviti ora per non perderlo.
