La IA puede resolver problemas matemáticos de nivel olímpico… y aún así fallar en aritmética básica. ¿Por qué ocurre esto? Según Dhruv Batra, la respuesta está en la “irregularidad” de la inteligencia: cómo la IA puede destacar en algunas áreas mientras se desmorona por completo en otras. Dhruv, cofundador y Director Científico en Yutori, se une a Hannah Clark para analizar la disonancia cognitiva que sienten los usuarios cuando un modelo deslumbra un momento y decepciona al siguiente.
Exploran cómo las expectativas de los usuarios —formadas por décadas de patrones intuitivos de interfaz de usuario y conversaciones humanas— a menudo chocan con los límites fundamentales de los sistemas de IA. Desde agentes de navegador y automatización, hasta bucles de retroalimentación a largo plazo y la construcción de confianza, esta conversación ofrece una mirada sincera a lo que la IA actual realmente puede hacer (y dónde aún simula saber). Si estás construyendo con IA o tratando de delimitar qué es posible, este episodio te ayudará a recalibrar tus expectativas—¡para bien!
Lo que aprenderás
- Por qué las capacidades de la IA son irregulares—y por qué eso importa hoy más que nunca
- Cómo las expectativas de los usuarios están moldeadas por años de interacción con la “vieja” tecnología
- Por qué la confianza, el alcance y la retroalimentación del usuario determinan el éxito o fracaso en el diseño de productos con IA
- Qué tipos de tareas puede manejar la IA de forma fiable actualmente—y cuáles siguen estando lejos
- Cómo delimitar características de IA sin caer en la trampa del “puede hacer cualquier cosa”
Puntos clave
- La inteligencia irregular es real: La IA puede ser brillante en unas tareas y sorprendentemente deficiente en otras. Definir bien tu producto implica entender—y comunicar claramente—dónde se encuentra ese borde irregular.
- Construye confianza de forma incremental: Solicita menos al principio. Ofrece valor específico primero. Luego, sube la “escalera de la confianza” a medida que los usuarios ven los resultados.
- Diseña para la recuperación de errores: No todos los errores pueden corregirse—especialmente con automatización. Empieza con tareas de solo lectura antes de intentar “escribir” en el mundo.
- Cuidado con la trampa del cuadro de texto: Dar a los usuarios un cuadro de texto en blanco y decir “Pregunta lo que quieras” suena bien. Pero es una receta segura para la frustración si el modelo no puede responder.
- La retroalimentación no es control de calidad: No esperes que los usuarios depuren tu sistema. Pero sí habilita formas en que puedan influir y personalizarlo.
Capítulos
- [00:00] Los usuarios como datos de entrenamiento
- [01:27] El recorrido de Dhruv en IA
- [03:08] Explicación de la inteligencia irregular
- [08:14] Por qué las tareas “simples” desbordan a la IA
- [14:15] Evolución del comportamiento del usuario
- [17:59] Errores comunes de producto
- [24:21] Qué puede (y no puede) hacer la IA
- [29:07] Retroalimentación, confianza y personalización
- [36:07] Por qué ahora es el momento para Yutori
Conoce a nuestro invitado

Dhruv Batra es el cofundador y Director Científico de Yutori, y aporta una amplia experiencia por sus anteriores cargos como Director Senior de Inteligencia Artificial en entornos físicos en el laboratorio FAIR de Meta y como Profesor Asociado en Georgia Tech. Su investigación explora las fronteras de la inteligencia artificial—abarca aprendizaje automático, visión por computador, robótica y lenguaje—y ahora lidera la misión de Yutori de construir agentes de IA de próxima generación que puedan comprender, actuar y navegar en entornos complejos de forma autónoma.
Recursos de este episodio:
- Suscríbete al boletín de The CPO Club
- Conecta con Dhruv en LinkedIn
- Explora el sitio web de Dhruv y Yutori
Artículos y pódcast relacionados:
Hannah Clark: La innovación es acumulativa—y con eso me refiero a que las formas en que resolvemos problemas ahora no serían efectivas si no fuera por las formas en que los solucionamos antes. Y aunque hoy en día las palabras 'datos de entrenamiento' suelen usarse en el contexto del desarrollo de la IA, vale la pena recordar que los usuarios también son consumidores y almacenan grandes cantidades de datos de entrenamiento obtenidos a lo largo de años de descubrir y adoptar cada software que han usado en su vida. Así que, mientras estamos ocupados obsesionándonos con los casos de uso y las nuevas funciones de nuestros propios productos de IA, los usuarios siguen un guion diferente. Operan con preferencias, hábitos y, lo más importante, expectativas que han ido acumulando desde la primera vez que abrieron un navegador web.
Mi invitado hoy es Dhruv Batra, cofundador y Director Científico de Yutori. Como vas a escuchar, la experiencia de Dhruv en investigación, desarrollo, entrenamiento y liderazgo en IA abarca más de 20 años. Así que como imaginarás, tiene más opiniones fascinantes sobre la tecnología de las que podríamos cubrir en un solo episodio. Con eso en mente, cuando le pregunté a Dhruv qué le gustaría comunicar a los líderes de producto, no dudó. Me dijo que las capacidades de la IA son extremadamente irregulares. Y estás a punto de escuchar exactamente qué implica eso para tus usuarios, tu organización y el futuro cercano de los productos. Vamos allá.
Ah, por cierto, tenemos conversaciones como esta cada semana, así que si esto te resulta interesante, ¿por qué no suscribirte? Bien, ahora sí, vamos allá.
Bienvenidos de nuevo al pódcast The Product Manager. Hoy estoy con Dhruv Batra, el cofundador y Director Científico de Yutori.
Dhruv, muchas gracias por acompañarme hoy.
Dhruv Batra: Por supuesto. Gracias por invitarme, Hannah.
Hannah Clark: Empecemos con un poco de información de fondo. ¿Puedes contarnos sobre tus antecedentes y cómo tu recorrido por la investigación en IA, desde el aprendizaje profundo hasta la revolución generativa actual, ha moldeado tu perspectiva sobre dónde estamos ahora con esta tecnología?
Dhruv Batra: Bueno, soy investigador en IA. Llevo casi 20 años en el campo. En la discusión moderna, la investigación en IA suele situarse a partir de la revolución de ChatGPT en 2022. Yo entré al campo en 2005, antes de la última época de aprendizaje profundo. Obtuve mi doctorado en CMU trabajando en problemas nucleares de aprendizaje automático aplicados a la visión por computador, como la detección de objetos en imágenes.
A lo largo de los años, he desarrollado chatbots, construí los primeros sistemas que podían responder preguntas sobre imágenes, sostener un diálogo sobre imágenes. Fui profesor durante muchos años en Georgia Tech. Creé la asignatura de aprendizaje profundo. También pasé ocho años en Meta. Fui director senior liderando FAIR Embodied AI. FAIR es la división de investigación fundamental en IA de Meta.
La IA incorporada es IA para robótica e IA para gafas inteligentes. Así que uno de mis equipos en Meta creó la primera versión de un modelo que responde preguntas sobre imágenes y se lanzó como asistente multimodal en la primera versión de las gafas RayBan Meta. Otros equipos míos construyeron el simulador 3D más rápido del mundo para entrenar robots virtuales en simulación antes de desplegarlos en el robot Boston Dynamics.
He visto el espectro desde visión por computador, chatbots y robótica, y me fascina la inteligencia y construir sistemas inteligentes, eso es lo que me ha llevado hoy a Yutori.
Hannah Clark: Claramente eres una persona muy cualificada para hablar de este tema, algo sobre lo que creo que todos queremos saber todo lo posible. Estoy muy emocionada por el tema de hoy, ya que vamos a mirar de cerca las expectativas versus la realidad respecto al estado de la tecnología de IA, para lo cual, creo, se necesita cierto nivel de cualificación para poder responder estas preguntas que realmente nos rondan la cabeza.
Hoy vamos a analizarlo desde tres ángulos: el lado del usuario, el lado del negocio y el lado tecnológico de la IA. Empezando por el lado del usuario, ahora mismo estamos claramente en un gran ciclo de entusiasmo sobre la IA, pero los usuarios a menudo pueden experimentar resultados muy inconsistentes según las herramientas y casos de uso que estén explorando.
¿Qué crees que está causando la brecha actualmente entre lo que esperan los usuarios que la IA puede hacer y lo que realmente puede entregar en este momento?
Dhruv Batra: Creo que es una gran pregunta. Habla de un problema que está en el corazón, no solo de construir productos, sino también de la investigación en IA, y esto tiene que ver con la naturaleza, que a menudo se llama, la naturaleza irregular de la inteligencia.
Como muchos de estos temas, hay una famosa viñeta de XKCD de un jefe de producto que le pide a una ingeniera que construya una app: cada vez que un usuario toma una foto, quiero saber si la foto está tomada en un parque nacional. La ingeniera responde: claro, parece una consulta simple basada en GPS en una base de datos.
Dame unas horas, esto debería poder hacerse. Y la siguiente frase del jefe de producto es: avísame si la foto es de un ave. Y la respuesta de la ingeniera es: necesitaré un equipo de investigación, 50 millones de dólares y cinco años... y quizá podamos responder a esa pregunta. Ahora, ese caso particular ya no es válido.
La visión por computador ha avanzado tanto que ahora consideramos como problema resuelto la detección de especies de aves o perros. Pero creo que el punto es ilustrar que hay transiciones extremadamente bruscas de problemas triviales a imposibles, y esa brusquedad es difícil de conceptualizar y de predecir.
Esto no solo es cierto para usuarios de la tecnología. También lo es para quienes las desarrollan y, por supuesto, para los investigadores. No importan tanto los títulos académicos, sino el tiempo dedicado a construir la tecnología; diferentes investigadores terminas creando modelos mentales de lo que las máquinas pueden o no pueden hacer.
Hoy en día, por ejemplo, bromeamos diciendo que ya creamos chatbots que pueden responder preguntas de matemáticas internacionales de nivel universitario, pero simultáneamente cometen errores como decir que 9,11 es mayor que 9,9, errores que ningún humano cometería. Pero eso es el tipo de error que cometen los chatbots. Entonces, ¿dónde nos deja eso?
¿Primero, por qué sucede? ¿Dónde nos deja? Eso ocurre por varias razones. Estamos construyendo sistemas inteligentes que están en un punto diferente al espectro de inteligencia, y los humanos abordan los sistemas de inteligencia con su comprensión humana por interactuar con otros humanos.
Cuando hablo con una persona y me dice que fue al instituto, a la universidad o que tiene doctorado en química, espero diferentes cosas de ella. No espero que cometa un error del tipo "9,11 es mayor que 9,9". Espero que sea numéricamente competente e informada en términos generales del mundo. Esas expectativas se desmoronan cuando tratamos con sistemas de IA porque no podemos basarnos en las mismas suposiciones compartidas. El rendimiento en ciertas tareas requiere entrenamiento específico para esas tareas.
Y aunque ahora hemos construido sistemas de propósito general, hay un significado muy específico de generalidad. Eso dificulta mucho que los consumidores construyan modelos mentales acerca de lo que puede o no hacer la IA, creando una experiencia frustrante donde un producto dice que hace muchas cosas, tú le pides que lo haga, y tal vez lo hace, pero le pides una ligera variación y no puede hacerlo. Eso puede ser muy frustrante.
Hannah Clark: Absolutamente. Sí. Y esto también es un comportamiento muy novedoso del usuario, ya que estábamos acostumbrados a funciones muy específicas, intuitivas y fáciles de usar. Así que hay un tema de personas que aplican su “entrenamiento” previo de interactuar con chat o con otros humanos y trasladas esas expectativas a una función que en gran medida no está bien definida.
Realmente no comprendemos las limitaciones en diferentes competencias, podríamos decir. Así que sí, una tecnología muy compleja que todos estamos aprendiendo a utilizar. Cuando pensamos en tareas cotidianas que la IA podría automatizar, como reservar viajes, gestionar agendas, esas cosas, ¿qué es lo que hace que tareas como esas sean más difíciles de resolver de lo que la gente asume?
Dhruv Batra: Usaré Yutori y lo que estamos construyendo como ejemplo. En Yutori estamos creando asistentes personales que pueden automatizar tareas mundanas en la web. Nuestro primer producto se llama Scouts. Es un equipo de agentes que monitorizan cualquier cosa en la web para ti. Y fue muy importante para nosotros dejar muy clara la expectativa: este producto monitoriza información, pero no puede reservar ni comprar nada para ti, no va a crear presentaciones para ti, tampoco hará tus deberes ni programará para ti. No es todo lo que tú mismo puedes hacer en un navegador, pero sí puede avisarte cuando tu artista favorito venga a tu ciudad.
Quizá se anuncie en varias webs diferentes. Yo mismo puedo ir a esas webs con determinada frecuencia, pero quiero que el agente lo haga por mí, siguiendo esa frecuencia. Tal vez busco una reserva para algo que requiere rellenar un formulario simple en un navegador, clicando botones. Me gustaría que el agente hiciera eso y luego me dijera qué información está disponible.
Quizá soy reclutador y estoy rastreando cambios de puesto de ciertas personas, y si lo anuncian en X, LinkedIn o su blog, que me informe. ¿Por qué es difícil? Parece trivial. Humanos abren el navegador, van a la página, llenan campos. ¿Por qué es difícil? Porque son problemas de toma de decisiones secuenciales. Estás en un estado (una página web), tienes que hacer varias acciones; las webs están diseñadas para humanos, leer el código HTML es muy inconsistente porque los botones pueden estar anotados o etiquetados muy diferente.
Es decir, es un problema de percepción. Clickeas un botón, pasa algo, quizá haces scroll, rellenas algo. Cualquier error que cometas en el proceso se acumula y lleva a fallos posteriores.
Es un problema similar al que afrontan la robótica y la conducción autónoma: si los robots cometen un error, éstos se van acumulando. Si te desvías un poco del carril, ya no vas en el centro y tienes que corregir.
Igual, los agentes de automatización de navegador que construimos, si terminan en una parte de la web que está colgada o donde no deben estar, no van a encontrar la respuesta. Tienes que aprender a recuperarte del error. Hay tareas de solo lectura y tareas de escritura. Si rellenas un formulario y pulsas “enviar”, puede que un sitio no te deje volver atrás y repetir, lo que significa que ese error es irreversible. Entrenar para errores irreversibles es difícil; por ello tienes que crear réplicas del mundo real. Es lo que hacen los roboticistas: simuladores 3D del mundo, como un juego virtual, para entrenar robots y luego desplegarlos. Eso hacemos con los agentes de automatización web: entrenamos en simulación para tareas irreversibles. Son factores que hacen difíciles estos problemas. Muchas veces es difícil saber en el camino, como agente de IA, qué acciones influyeron en el éxito o fracaso; eso es el “problema de asignación de crédito”.
Hannah Clark: Todas estas cosas que como humanos ya casi hacemos de forma automática y para las cuales estamos muy entrenados. Parece una tarea simple, pero a nivel técnico es mucho más complejo. Eso ni siquiera tiene en cuenta preferencias... horarios, dónde sentarse... tantas otras cosas que desde la perspectiva de programación parecen imposibles.
Dhruv Batra: Aquí va un ejemplo práctico que lo ilustra. Los humanos estamos acostumbrados a ciertos patrones de diseño. Por ejemplo, al intentar reservar en una página web, si una fecha u horario está en gris o tachado, entiendes que no está disponible, aunque ningún texto lo diga. Lo entiendes porque has visto ese patrón muchas veces.
¿Cómo lo entienden las máquinas? Aunque hayan leído muchos libros, hay que interactuar con webs para entender que el texto grisado o tachado significa algo. Y este es solo un ejemplo de patrones de diseño pensados para humanos que la máquina debe absorber. Hacer clic en un botón que no hace nada y sin texto que lo explique: tienes que deducir su sentido.
Hannah Clark: Muy interesante. Esto me recuerda una conversación pasada con Nimrod Priell, fundador de Cord,
Hablábamos de la evolución del comportamiento del usuario y de cómo estos cambios incrementales a la hora de comprender elementos de UX y el diseño general de webs y tecnología se convierten en un activo compuesto que todo el mundo da por sentado. Es como un lenguaje compartido surgido de años de evolución tecnológica. Es algo muy difícil de transmitir a una máquina. Es un área fascinante, quiero profundizar en el comportamiento del consumidor. Así que, como extensión de esos comportamientos y patrones que todos hemos interiorizado con el tiempo,
Esto es un proceso continuo. ¿Cuáles son algunos de los cambios en la interacción de las personas con la tecnología para los que los líderes de producto deberían prepararse en el futuro cercano?
Dhruv Batra: La llegada de productos con IA al mercado de consumo ha cambiado sin duda las expectativas de la gente. Ya hay niños creciendo que esperan poder hablar con las máquinas.
Siempre hay ese episodio de Futurama o de ciencia ficción en el que los niños de sociedades avanzadas tecnológicamente, si se topan con una tecnología antigua, se preguntan: ¿por qué no puedo hablarle a mi tele? ¿Por qué no me entiende?
Creo que estamos viendo ese cambio de expectativas en los comportamientos del consumidor. Ahora queremos poder expresarnos simplemente, sentir que deberíamos poder hablar a la máquina; que tenga capacidades de propósito general, que pueda sostener un diálogo coherente, que entienda mis patrones de uso. Eso también nos motivó en Yutori.
Vemos la evolución de la web en los últimos 30 años como avances incrementales sobre una tecnología base que conecta contenidos y servicios con personas. La web se ha creado pensando en humanos y su consumo visual. Ahora la gente espera decirle a la máquina lo que quiere que haga en su ordenador o navegador.
¿Por qué yo, como usuario, debo sentarme, clicar botones, rellenar nombre, dirección, tarjeta para comprar algo u obtener información? Eso debería poder automatizarse. Ese es el cambio en comportamiento: la idea de tener 30 pestañas abiertas buscando un artículo, leyendo opiniones... los usuarios solo quieren preguntar a un sistema de investigación o monitorización: avísame cuando esto ocurra. El siguiente paso es: si ya me avisas de que mi artista favorito viene el viernes, ¿por qué no compras las entradas por mí? ¿Por qué tengo que seguir rellenando formularios? El cambio en las expectativas es subir de nivel: hablar con el software, esperar que automatice lo rutinario—y casi se convierte en un súper asistente o jefe de personal.
Hannah Clark: Y claramente vemos cómo tecnologías cotidianas contribuyen a eso. Piensa en la página “Para ti” de TikTok, donde la tecnología aprende tus preferencias, lo que te interesa, y aplicamos esa lógica a la tecnología actual, sabiendo que sabe mucho sobre nosotros y nuestros hábitos. Son relaciones interesantes a observar para anticipar lo que esperarán los consumidores, buen enlace para pasar al lado del negocio.
Ahora mismo no sorprende ver muchas empresas apresurándose al mercado con productos y funciones de IA, prometiendo capacidades transformadoras con resultados variados. ¿Cuáles dirías que son los mayores errores que ves en los equipos de producto al definir y posicionar estas funciones de IA?
Dhruv Batra: Esto vuelve al tema de la naturaleza irregular de la inteligencia. Hay que ser muy cuidadoso; afecta no solo a consumidores, sino también a creadores. No puedes prometer la luna porque no podrás entregarla desde el primer día. Pero las expectativas de generalidad de los usuarios crecen: esperan que no sean aplicaciones muy específicas, porque ChatGPT responde cualquier cosa, así que ¿por qué no puedes tú?
Aquí caes en la trampa del patrón de diseño de caja de texto como portal a todo. No explicas nada, prometes el mundo: “mi agente puede hacer cualquier cosa”. Eso frustra a los usuarios que se encuentran ante una hoja en blanco: ¿qué puedo pedir aquí? Si no calibran bien, pedirán cosas que tu agente no hará y se frustrarán. Por eso, para nuestro primer producto, optamos por un alcance limitado: Scouts monitoriza cualquier cosa en la web, no inicia sesión en servicios ni realiza acciones de escritura, es solo lectura.
Sin embargo, tampoco decimos que solo monitoriza precios de Amazon o eventos de Ticketmaster. Cualquier información digital accesible desde la web, que podrías abrir tú mismo en el navegador, estos agentes te lo alertan por email. Solo dilo en lenguaje natural y la frecuencia de monitoreo. Esto era importante de entregar: capacidad de solo lectura, sin errores irreversibles; si compras por error algo en tu nombre, te frustras. Aquí hay cierta generalidad en los tipos de consultas y fuentes. Desde aquí hay que escalar la escalera de la confianza. Primero ofrecemos valor sin pedir credenciales ni tarjetas. Cuando veas valor, querrás más: si monitorizo a un artista, el siguiente paso es comprar la entrada; si monitorizo reservas, el siguiente paso es hacerlas; si soy reclutador, el siguiente paso es redactar emails. Como desarrollador e investigador soy cauto: hay naturaleza irregular en la inteligencia, no se pueden resolver todas las tareas, las que sí, serán donde los errores no sean costosos y la práctica sea posible.
Hannah Clark: Palabras muy sabias, y lo veo a menudo: frustra mucho a los usuarios que haya limitaciones opacas; entran a un chatbot y lo usan como chatearían con un humano, eso genera frustración. Hay que analizar bien el coste/beneficio de no limitar las posibilidades y asumir el riesgo de que los consumidores pierdan fe en la tecnología si se desilusionan.
Dhruv Batra: Y si no encuentran valor en lo que aseguras poder hacer, tendrán experiencias subóptimas y se irán, no volverán.
Hannah Clark: Sí. Profundizando: creo que la confianza es central para entender ese punto crítico de abandono. ¿Cómo deberían los líderes de producto construir confianza con los consumidores, sin sobreprometer lo que no pueden entregar aun?
Dhruv Batra: Esto enlaza con lo anterior: la gente necesita ver valor antes de entregar credenciales o información sensible como tarjetas. Si lo primero que les pides es entregar el calendario, bandeja de entrada y otros accesos sin ni siquiera mostrar qué haces, es riesgoso. Puede hacerte viral, pero ponte en los zapatos del usuario: ¿quiero entregar mi correo profesional, que contiene documentación confidencial, o mi tarjeta, sin saber si vas a entregarme valor?
Por eso nosotros empezamos sin autenticaciones ni cambios en el mundo externas; solo lectura. Así, si la IA no te da 100% de acierto, puedes intentar otra vez si te equivocas. Es posible en modo solo lectura; no si los errores son irreversibles. Eso es lo que tenemos en cuenta al escalar la escalera de confianza con nuestros usuarios.
Hannah Clark: Ejemplo aparte, me parece ilustrativo: tenía una amiga que se mudó de Brasil a Canadá, pensaba que Canadá era el país más seguro del mundo. La primera semana hubo un robo en su calle y de repente pensó que todo era inseguro. Es el mismo fenómeno...
Dhruv Batra: Tiempo hasta llegar al valor,
Hannah Clark: Tiempo hasta el deleite, tiempo hasta el valor, pero también lo frágil y delicado que es el periodo inicial de confianza: un fallo en esa expectativa puede sacudir la confianza básica.
Pasemos al lado tecnológico. Desde tu perspectiva como investigador en IA, ¿qué problemas considerarías en gran parte resueltos hoy, y cuáles ves en el horizonte cercano, o siempre
