Google presenta: búsqueda con resumen de temas y asistente personal en conversación natural

Google introdujo un motor de búsqueda basado en IA que mejorará la herramienta; además, un asistente de voz que sabe cómo mantener una conversación en lenguaje natural. Resumen de correos electrónicos, búsqueda de imágenes, creador de videos y herramientas de creación de música.

Israel Wolman, emisario de Ynet y Yedioth Ahronoth a Mountain View, California |
Published: 14.05.24, 17:32
Google está intensificando la batalla contra OpenAI y llevando su inteligencia artificial, Gemini, a un nuevo nivel: nunca antes el gigante tecnológico había anunciado una colección tan significativa de innovaciones como el martes en la apertura de la conferencia anual Google I/O en Mountain View, California, a la que asistieron miles de empleados y cientos de periodistas de todo el mundo.
Sólo una lista parcial: un motor de búsqueda que ofrece una visión completa del tema buscado, además de enlaces; un asistente personal virtual que realiza una conversación de voz natural: imagina un asistente pero con las habilidades conversacionales de un ser humano; resumen inteligente de una gran cantidad de correos electrónicos a la vez; búsqueda usando una imagen (e incluso un video) en lugar de texto (multimodal); administrar chats con IA en aplicaciones como WhatsApp; crear videos de alta resolución con indicaciones de solo texto (similar a Sora de OpenAI); nuevas herramientas para crear música, y un chip de inteligencia artificial de nueva generación llamado Trillium.
3 צפייה בגלריה 
Conferencia de desarrolladores de Google. 
(Google)
Es una guerra: ayer, su rival OpenAI, en cuyo modelo de IA se basa Microsoft, se adelantó a Google, anunciando su propio nuevo modelo de alta velocidad llamado GPT-4o, así como un asistente de voz que se comunica como los humanos, puede "entender las emociones", traducir en tiempo real e incluso cambiar el tono de su voz según el contexto. Después del evento, el CEO de OpenAI, Sam Altman, publicó sólo una palabra en X:  "Her" - una película de Spike Jones, que muestra un romance entre un hombre y una asistente virtual en el teléfono. 
El asistente personal basado en IA de Google es muy similar y forma parte de lo que la empresa llama Proyecto Astra. Google también presenta un sistema con capacidad de conversación fluida y natural que sabe cómo expresar una amplia gama de entonaciones, comprender el contexto y responder rápidamente durante la conversación. Al igual que con cualquier conversación normal, puedes hablar con ella a tu propio ritmo e incluso interrumpir sus palabras. 
Por encima de todas las innovaciones de Google, presentadas por el CEO Sundar Pichai y los ejecutivos de la compañía, se cierne una nueva y particularmente poderosa versión que ha desarrollado para su modelo de inteligencia artificial, Gemini 1.5 Pro. Esto incluye mejoras drásticas, como una mejor "comprensión" de imágenes, audio o video. A partir de ahora, por ejemplo, puede tomar una foto de un problema matemático y obtener instrucciones detalladas para resolverlo, o tomar un video que describa un mal funcionamiento de la máquina y obtener una explicación para la solución. En la aplicación "Fotos" podrás preguntar algo como "¿cuál es mi número de matrícula?", e inmediatamente recibirás una respuesta y una fotocopia de la matrícula de una fotografía histórica.
3 צפייה בגלריה 
El CEO de Google, Sundar Pichai, presenta las últimas innovaciones de Gemini. 
(Israel Wolman)
En los chats normales, puede adjuntar texto en ámbitos enciclopédicos, preguntar cosas muy específicas y obtener una respuesta detallada en segundos; O sube 100 correos electrónicos que recibiste de tu jefe, y Gemini sabrá exactamente cómo obtener la información relevante que estás buscando. Pronto, incluso puede cargar un archivo de video de una hora de duración y hacer una pregunta específica sobre una escena en particular.
Hasta ahora, la versión (gratuita) más común en el mundo y en Israel, para computadoras y teléfonos inteligentes, era la Gemini 1.0 Pro. Gemini 1.5 Pro está diseñado como un servicio de pago, ahora disponible en 35 idiomas en 150 países, incluido el hebreo. Google también presentó el nuevo Gemini 1.5 Flash, un modelo de IA que es más liviano y rápido que el Pro, y sobresale especialmente en tareas como aplicaciones de chat, resumen de texto, creación automática de subtítulos de imágenes y videos, extracción de datos de documentos y tablas largas, y más. 
Google tampoco deja el campo del vídeo a otros: VEO es un modelo de IA para crear vídeos utilizando sólo instrucciones, con una impresionante resolución de 1080 píxeles y más de un minuto de duración. Competirá con Sora de OpenAI, e inicialmente sólo estará disponible para cineastas y creadores seleccionados. El modelo también entiende términos cinematográficos como "fotografía aérea de paisajes". Google comparte el proyecto con el director y productor Donald Glover ("Sr. y Sra. Smith") y su estudio. 
3 צפייה בגלריה 
La nueva herramienta de creación musical. 
(Google)
"Imagine 3" es una nueva versión de la herramienta para crear imágenes utilizando sólo instrucciones de texto, solo que esta vez con una resolución de 1080 píxeles, con imágenes cuasi reales, así como la opción de combinar texto como mensajes de cumpleaños personalizados, titulares en presentaciones y más. Google también ha introducido herramientas de creación musical: Music AI y Sandbox, que permiten a los creadores crear nuevas piezas instrumentales desde cero, cambiar sonidos y mucho más.
Inicialmente, el motor de búsqueda actualizado sólo estará disponible en los Estados Unidos, pero Google promete que pronto se abrirá a otros países. Esto significa que para esta semana cientos de millones de usuarios tendrán acceso a él, y para finales de año, más de mil millones de personas.