Skip to main content

Técnicamente puede que sea temporada de Sagitario, pero Géminis está tomando el control.

El 6 de diciembre, Google DeepMind anunció el lanzamiento de su modelo de IA nativamente multimodal y competidor de GPT-4, Gemini.

En una publicación de blog que anuncia la llegada de Gemini, el CEO y cofundador de Google DeepMind, Demis Hassabis, elogió su último desarrollo como “el modelo más capaz y general que hemos construido”. Avivando rumores de que la serie de productos podría ser una candidata seria para la Inteligencia Artificial General (AGI), el impacto de Gemini ya se está sintiendo en el competitivo panorama empresarial de IA.

¿Pero qué pasa con su impacto en los productos digitales para el próximo año? Esto es lo que necesitas saber: lo bueno, lo malo y lo que podría ser feo.

¿Qué es Gemini?

Gemini no es solo un producto sino tres; una familia de grandes modelos multimodales (LMM) que suceden a las redes neuronales LaMDA y PaLM 2 de Google DeepMind. Los tres productos son:

Want more from The CPO Club?

Sign up for a free membership to complete reading this article:

Paso 1 de 2

Este campo es un campo de validación y debe quedar sin cambios.
Name*
Este campo está oculto cuando se visualiza el formulario
  • Gemini Ultra: El modelo más potente, con lanzamiento previsto para desarrolladores a principios de 2024. Ultra promete la capacidad de “entender”, generar y combinar una variedad de entradas que incluyen audio, video, texto, código e imágenes a velocidades impresionantemente cercanas al tiempo real.
  • Gemini Pro: El modelo a nivel de consumidor que actualmente está disponible para desarrolladores. Los usuarios en los países donde Bard está disponible han podido interactuar con Gemini Pro desde que se anunció el 6 de diciembre.
  • Gemini Nano: El modelo compacto diseñado para potenciar aplicaciones móviles. Gemini Nano, al igual que Gemini Ultra, aún no ha sido lanzado y Google todavía no ha detallado sus especificaciones de rendimiento.
We’ve collected the goods — AI prompts, exclusive deals, and a library of resources for product leaders. Unlock your account for access.

We’ve collected the goods — AI prompts, exclusive deals, and a library of resources for product leaders. Unlock your account for access.

Este campo es un campo de validación y debe quedar sin cambios.
Name*
Este campo está oculto cuando se visualiza el formulario

¿Qué es la IA multimodal?

La IA multimodal es inteligencia artificial capaz de procesar varios tipos de datos utilizando múltiples algoritmos de procesamiento de inteligencia. Por ejemplo, un modelo de IA de texto a imagen como Midjourney se considera una IA multimodal.

Aunque ya hay muchos LMM en el mercado, lo que distingue a Gemini de otros grandes modelos de lenguaje multimodal es que está diseñado para “entender” muchas entradas (texto, video, audio, código e imágenes) de una manera que imita la comprensión y creatividad humanas. 

Lo bueno: el potencial de la tecnología de IA multimodal

Ni siquiera ha pasado un año calendario completo desde que la generación de texto a texto de ChatGPT capturó la imaginación del público, y Gemini marca una nueva era en la que la funcionalidad multimodal pronto será indispensable para los productos impulsados por IA.

Ken Hubbell, CEO de la plataforma de IA Soffos.ai, prevé un enorme potencial para la tecnología en el nuevo año.

“Hemos empezado a pensar en cosas como el análisis en tiempo real de lo que estás viendo visualmente”, dice Hubbell. “Así que veo nuevos productos, como gafas que puedan captar una transmisión de vídeo, pudiendo ahora captar ese video y generar resultados (en tiempo real).”

Si bien esto permitirá a los equipos de producto un nivel de flexibilidad nunca antes posible, también llevará inevitablemente a la pronta obsolescencia de productos que fueron creados para ampliar la funcionalidad de plataformas como GPT-4 y ofrecer características similares a las de Gemini, y que de por sí solo tienen unos meses de antigüedad.

“(Estos productos) pronto serán irrelevantes o deberán rediseñarse completamente para incorporar todo lo nuevo que ha surgido y que antes habían ‘hackeado’,” dice Hubbell.

(Estos productos) pronto serán irrelevantes o deberán rediseñarse completamente para incorporar lo que antes habían ‘hackeado’.

KEN HUBBELL, CEO, SOFFOS.AI

Mientras Hubbell admite que muchas empresas van a perder la inversión invertida en estas soluciones improvisadas ahora obsoletas, afirma que en realidad esto es una buena noticia disfrazada.

“Cuando salió Alexa, mucha gente estaba encontrando distintas formas de hacer cosas que el producto de Alexa en sí no podía hacer—yo era uno de ellos”, comenta Hubbell con una risa, señalando que el equipo de Amazon se daba cuenta rápidamente de las funciones que desarrolladores externos estaban creando e integraba estas mejoras en la plataforma Alexa.

“Eso fastidió un poco a los que éramos desarrolladores, pero por otro lado mejoró tanto el back end que ahora podíamos centrarnos en cosas para las que antes no teníamos que buscar soluciones y finalmente podíamos hacer el producto final que realmente queríamos.”

Lo malo: la recepción inicial de Gemini

Los usuarios han estado impacientes con el rendimiento inicial de Gemini.
Los usuarios han estado impacientes con el rendimiento inicial de Gemini.

Aunque esta nueva era de IA multimodal altamente capaz suena revolucionaria, la recepción inicial de Gemini Pro ha sido ampliamente decepcionante. Durante la semana posterior al lanzamiento del producto, los feeds de LinkedIn y X en todas partes comenzaron a llenarse de reseñas descontentas de usuarios que habían probado Gemini Pro.

¿El problema? Gemini parece ser... un poco tonto.

Artículos en TechCrunch y de varios autores de Medium destacaron publicaciones de usuarios en redes sociales mostrando capturas de pantalla en las que Gemini no respondía correctamente las preguntas.

Pero como explica Hubbell, la plataforma está haciendo exactamente lo que cualquiera debería haber esperado que hiciera.

"Criar una IA en realidad es bastante parecido a criar a un niño", dice Hubbell, quien (antes de que preguntes), también es padre. Señala que los LM solo pueden aprender hasta cierto punto en las fases iniciales de entrenamiento, lo cual se realiza en un entorno cerrado con una muestra de usuarios muy pequeña. "Una vez que se lanza al mundo real, es ahí donde ocurre el verdadero crecimiento."

Una vez que se lanza al mundo real, es ahí donde ocurre el verdadero crecimiento.

KEN HUBBELL, CEO, SOFFOS.AI

Lo feo: La cuestión de la ética

En su material de lanzamiento, Google ha sido muy transparente prometiendo haber desarrollado Gemini de manera 'responsable'.

Esta promesa, comprensiblemente, ha hecho que algunos críticos se retuerzan en sus asientos.

Un artículo de ZDNET señala que Google ha decidido omitir las "model cards" para sus productos Gemini, las cuales describen detalles que incluyen los posibles resultados dañinos de una red neuronal. Esto es especialmente inquietante dado que fue un equipo de Google quien inventó las "model cards" en primer lugar.

Esto también plantea la pregunta: con un producto entrenado en un conjunto de datos inherentemente sesgado, ¿quién decide cómo se ve la 'responsabilidad'?

En un artículo publicado en mayo en el blog de Mind Foundry, Frankie Garcia, nueva Responsable de Ética y Seguridad Operativa de IA en Google DeepMind y ex Gerente de Producto de Gobernanza de IA en Mind Foundry, explica qué hace confiable a un modelo de aprendizaje automático.

"Cuando las decisiones tienen un impacto material en las vidas de individuos y poblaciones, la importancia de la confiabilidad y responsabilidad del modelo no puede ser subestimada", escribe Garcia en el artículo coautoría del profesor Brent Mittelstadt, del Instituto de Internet de la Universidad de Oxford.

El artículo sostiene que existen tres áreas clave para la confiabilidad en el aprendizaje automático:

  • Sesgos y equidad: El uso de varios grupos de "métricas de equidad", que los autores admiten que a menudo se contrarrestan entre sí, para asegurar que el modelo actúa de forma justa.
  • Interpretabilidad y explicabilidad: Describe el grado en que un usuario humano puede comprender la lógica y el proceso que el modelo de IA ha utilizado para llegar a su resultado.
  • Deriva de datos y fragilidad del modelo: Se refiere a cómo los cambios respecto al conjunto de datos original de entrenamiento debido a patrones de entradas de usuarios y otros factores pueden influir negativamente en los resultados del modelo.

Podemos deducir que Google está vigilando muy de cerca estos factores para asegurarse de que la familia de productos Gemini se mantenga "bajo control". Si veremos un compromiso similar por parte de los competidores que buscan cuota de mercado, está por verse.

¿Cómo se compara Gemini con ChatGPT?

En cuanto al rendimiento bruto, Google ha hecho algunas promesas ambiciosas sobre lo que los desarrolladores pueden esperar. Aquí están los criterios de rendimiento para Gemini Ultra y Gemini Pro frente a ChatGPT, según Google.

<!-- wp:acf/accordion {"name":"acf/accordion","data":{"title":"Comparativas de Rendimiento: GPT-4 vs Gemini Ultra y Gemini Pro","_title":"field_accordion_title","description":"Una lista completa de los puntos de referencia de rendimiento reportados para Gemini Ultra y Gemini Pro frente a GPT-4. Todavía no se han publicado los resultados de rendimiento de Gemini Nano.\r\n\r\n ","_description":"field_accordion_description","cta":"","_cta":"field_accordion_cta","heading_tag":"h3","_heading_tag":"field_accordion_heading_tag","add_faq_schema":"0","_add_faq_schema":"field_accordion_add_faq_schema","accordion_0_row_header":"General","_accordion_0_row_header":"field_row_header","accordion_0_row_content":"rnrnRepresentación MMLU: Preguntas en 57 materias incluyendo ciencias e ingenierías y humanidades.rn
    rn t
  • rn
      rn t
    • GPT-4: 86.4% (5 intentos)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Ultra: 90% (CoT@32*)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Pro: 79.1% (CoT@32*)
    • rn
    rn
  • rn
rnrnrnrnrnrnrnrnrnBig-Bench Hard: Conjunto diverso de tareas desafiantes que requieren razonamiento de varios pasosrn
    rn t
  • rn
      rn t
    • GPT-4: 83.1% (3 intentos, API)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Ultra: 83.6% (3 intentos)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Pro: 75% (3 intentos)
    • rn
    rn
  • rn
rnrnrnrnrnrnrnDROP: Comprensión lectora (Puntaje F1)rn
    rn t
  • rn
      rn t
    • GPT-4: 80.9% (3 intentos)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Ultra: 82.4% (varios intentos)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Pro: 74.1 (Puntaje F1)
    • rn
    rn
  • rn
rnrnrnrnrnrnrnHellaSwag: Razonamiento de sentido común para tareas cotidianasrn
    rn t
  • rn
      rn t
    • GPT-4: 95.3% (10 intentos)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Ultra: 87.8% (10 intentos)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Pro: 84.7% (10 intentos)
    • rn
    rn
  • rn
rnrnrnrnrnrnrnGSM8K: Manipulaciones aritméticas básicas (incluyendo problemas de matemáticas de primaria)rn
    rn t
  • rn
      rn t
    • GPT-4: 92% (5 intentos CoT)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Ultra: 94.4% (maj1@32)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Pro: 86.5% (maj1@32)
    • rn
    rn
  • rn
rnrnrnrnrnrnrnMATH: Problemas matemáticos desafiantes (álgebra, geometría, precálculo, entre otros)rn
    rn t
  • rn
      rn t
    • GPT-4: 52.9% (4 intentos, API)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Ultra: 53.2% (4 intentos)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Pro: 32.6% *4 intentos)
    • rn
    rn
  • rn
rnrnrnrnrnrnrnHumanEval: Generación de código Pythonrn
    rn t
  • rn
      rn t
    • GPT-4: 67% (0 intentos, según informe)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Ultra: 74.4% (0 intentos, IT)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Pro: 67.7% (0 intentos, IT)
    • rn
    rn
  • rn
rnrnrnrnrnrnrnNatural2Code: Generación de código Python.rn
    rn t
  • rn
      rn t
    • GPT-4: 73.9% (0 intentos, API)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Ultra: 74.9% (0 intentos)
    • rn
    rn
  • rn
rn rn
    rn t
  • rn
      rn t
    • Gemini Pro: 69.6% (0 intentos)
    • rn
    rn
  • rn
rnrnrnrnrn