Gemini 2.0: nuestro nuevo modelo para la era de los agentes de AI

Un mensaje del CEO de Google y Alphabet, Sundar Pichai:

La información es el centro del progreso humano. Por ese motivo, nos enfocamos desde hace 26 años en nuestra misión de organizar la información del mundo y hacerla accesible y útil. También es la razón por la que seguimos extendiendo las fronteras de la IA para organizar esa información a través de cada entrada y ofrecerla a través de cada salida, de modo que sea realmente útil para ti.

Esa era nuestra visión cuando presentamos Gemini 1.0 el diciembre pasado. Como el primer modelo desarrollado para ser multimodal de manera nativa, Gemini 1.0 y 1.5 impulsaron grandes avances en la multimodalidad y el contexto ampliado para comprender información en texto, video, imágenes, audio y código, y procesar mucho más de ese contenido.

Actualmente, millones de desarrolladores usan Gemini. Eso nos ayuda a reimaginar todos nuestros productos (incluidos los siete utilizados por 2 mil millones de usuarios) y a crear otros nuevos. NotebookLM es un gran ejemplo de lo que la multimodalidad y el contexto ampliado pueden hacer por las personas.

Durante el último año, invertimos en el desarrollo de más modelos con capacidades de agentes de IA, que pueden comprender mejor el mundo que te rodea, adelantarse varios pasos y realizar acciones por ti, bajo tu supervisión.

Hoy nos entusiasma lanzar nuestra próxima línea de modelos desarrollados para esta era de agentes de IA: Gemini 2.0 es nuestro modelo más capaz hasta el momento. Con avances en multimodalidad, como resultados de imágenes y audio nativos, y uso de herramientas nativas, nos permitirá desarrollar nuevos agentes de IA que nos acerquen a nuestra visión de un verdadero asistente universal.

Pondremos 2.0 a disposición de desarrolladores y verificadores de confianza hoy mismo. Además, estamos trabajando para implementarlo rápidamente en nuestros productos, empezando por Gemini y el Buscador. A partir de hoy, nuestro modelo Gemini 2.0 Flash Experimental estará disponible para todos los usuarios de Gemini. También lanzamos una nueva función llamada Deep Research, que aplica razonamiento avanzado y funciones de contexto ampliado para actuar como asistente de investigación y explorar temas complejos y compilar informes por ti. Ya está disponible en Gemini Advanced.

Ninguno de nuestros productos fue transformado más por la Inteligencia Artificial que el Buscador. Nuestras Visiones Generales creadas por IA ya llegan a mil millones de usuarios, a quienes les permiten hacer nuevas preguntas. Rápidamente, se transformó en una de las funciones más populares en la historia de la búsqueda. El paso siguiente será llevar las funciones de razonamiento avanzado de Gemini 2.0 a la Visiones Generales creadas por IA para resolver temas más complejos y conjuntos de preguntas, incluidas ecuaciones matemáticas avanzadas, preguntas multimodales y código. Empezamos unas pruebas limitadas esta semana y el lanzamiento más amplio será por etapas el próximo año. Además, seguiremos ofreciendo la Vision General creada por IA a más países e idiomas durante 2025.

Los avances de 2.0 se basan en una década de inversiones en nuestro enfoque diferenciado de full-stack para la innovación en IA. Está integrado en hardware personalizado, como Trillium, nuestras TPUs de sexta generación. Las TPUs impulsaron el 100% del entrenamiento y la inferencia de Gemini 2.0, y actualmente, Trillium está disponible de manera general para que los clientes también puedan usarlo para desarrollar.

Si Gemini 1.0 tenía como fin organizar y comprender información, Gemini 2.0 tendrá como objetivo hacerlo mucho más útil. No puedo esperar a ver qué traerá la próxima era.

Gemini 2.0: Nuestro nuevo modelo para la era de agentes de IA
Durante el último año, seguimos avanzando de forma impresionante en el campo de la inteligencia artificial. Hoy presentamos Gemini 2.0, nuestro modelo de IA más capaz hasta el momento. El primer modelo de esta nueva era es una versión experimental de Gemini 2.0 Flash, nuestro modelo caballo de batalla que tiene baja latencia y un rendimiento mejorado, que presenta tecnología de vanguardia a gran escala.

También estamos compartiendo los horizontes de nuestra investigación de agentes a través de la publicación de prototipos habilitados por las capacidades nativas multimodales de Gemini 2.0.

Gemini 2.0 Flash
Gemini 2.0 Flash se crea en base al éxito de la versión 1.5 Flash, nuestro modelo más popular para desarrolladores hasta el momento, que ofrece un rendimiento mejorado en tiempos de respuesta con una velocidad similar. Notablemente, 2.0 Flash superó el rendimiento del 1.5 Pro en comparativas clave, con el doble de velocidad. La versión 2.0 Flash también cuenta con nuevas capacidades. Además de admitir entradas multimodales, como imágenes, videos y audio, la versión 2.0 Flash ahora admite salidas multimodales como imágenes generadas de forma nativa mezcladas con texto y audio multilingüe de texto a voz (TTS) . También puede utilizar herramientas de forma nativa como la Búsqueda de Google, la ejecución de código, así como funciones de terceros definidas por el usuario.

Nuestro objetivo es llevar nuestros modelos a las personas de forma segura y rápida. Durante el último mes, estuvimos compartiendo versiones experimentales de Gemini 2.0, y obtuvimos muy buenos comentarios de parte de los desarrolladores.

Gemini 2.0 Flash ahora está disponible como un modelo experimental para los desarrolladores a través de la API de Gemini en Google AI Studio y Vertex AI con entradas multimodales, salidas de texto, y generación de imágenes nativas y de texto a voz disponible para los socios con acceso anticipado. Seguirá la disponibilidad general en enero, junto con más tamaños de modelos.

Para ayudar a los desarrolladores a compilar aplicaciones dinámicas e interactivas, también lanzaremos una Multimodal Live API que tiene audio en tiempo real, entrada de transmisión de video y la capacidad de usar múltiples herramientas combinadas. Puedes encontrar más información acerca de la versión 2.0 Flash y la Multimodal Live API en nuestro blog para desarrolladores.

Gemini 2.0 disponible en la app de Gemini, nuestro asistente de IA

Desde hoy, los usuarios de Gemini a nivel global pueden acceder a una versión de chat optimizada de la versión 2.0 Flash Experimental. Para ello, deben seleccionarla en el menú desplegable del modelo que se encuentra en el escritorio y en la Web en dispositivos móviles, y pronto estará disponible en la app para dispositivos móviles de Gemini. Con este nuevo modelo, los usuarios pueden experimentar un asistente de Gemini aún más útil.

A principios del año próximo, ampliaremos Gemini 2.0 a más productos de Google.

Descubre experiencias de agentes con Gemini 2.0
Las capacidades de acción de la interfaz de usuario nativa de Gemini 2.0 Flash junto con otras mejoras (como el razonamiento multimodal, la compresión de contexto amplio, el seguimiento y la planificación de instrucciones complejas, el uso de funciones de composición, el uso de la herramienta nativa y la latencia mejorada) trabajan en conjunto para habilitar una clase nueva de experiencias de agentes.

La aplicación práctica de agentes de IA es un área de investigación repleta de posibilidades emocionantes. Estamos explorando esta nueva frontera con una serie de prototipos que pueden ayudar a las personas a realizar y completar tareas. Entre estos, se incluye una actualización al Project Astra, nuestro prototipo de investigación que explora las funciones futuras de un asistente de IA universal; el nuevo Project Mariner, que explora el futuro de la interacción entre seres humanos y agentes, empezando con tu navegador; y Jules, un agente de código potenciado por la IA que puede ayudar a los desarrolladores.

Aún estamos en las primeras etapas de desarrollo, pero nos emociona ver cómo los verificadores de confianza usan estas funciones y qué lecciones podemos aprender para poder ponerlas a disposición de forma más amplia para los productos en el futuro.

  • Entradas relacionadas

    SUNAT: ¿Quiénes se benefician con la modificación del régimen de gradualidad?
    • BCHBCH
    • enero 17, 2025

    Escribe: CPC John Ruiz Contreras, asesor tributario. La Administración Tributaria, en aras de proteger el interés público, tiene a su cargo el ejercicio de diversas potestades entre las cuales encontramos…

    Continue reading
    Cuando amamos lo que hacemos, el trabajo no se siente como trabajo

    Por Mateo Figueroa, Director General, HP Inc. Latinoamérica Estamos en medio de una revolución tecnológica donde la inteligencia artificial (IA) se posiciona como una fuerza transformadora. Mientras los consumidores esperan…

    Continue reading

    ENTRETENIMIENTO

    “La Nueva Escuela” llega por primera vez a Perú para partido de Lionel Messi vs Universitario

    • By BCH
    • enero 16, 2025
    • 440 views
    “La Nueva Escuela” llega por primera vez a Perú para partido de Lionel Messi vs Universitario

    Nano Morris: «La Radio sigue siendo algo distante para la mayoría de artistas»

    • By BCH
    • enero 16, 2025
    • 434 views
    Nano Morris: «La Radio sigue siendo algo distante para la mayoría de artistas»

    “Incendios”: una historia sobre el amor y la reconciliación con nuestros orígenes

    • By BCH
    • enero 16, 2025
    • 407 views
    “Incendios”: una historia sobre el amor y la reconciliación con nuestros orígenes

    América TV transmitirá el torneo “Conmebol Sub-20 – 2025”

    América TV transmitirá el torneo “Conmebol Sub-20 – 2025”

    “The Moon” – Sobreviviente”: El artista surcoreano D.O. protagoniza película de ciencia ficción

    • By BCH
    • enero 14, 2025
    • 563 views
    “The Moon” – Sobreviviente”: El artista surcoreano D.O. protagoniza película de ciencia ficción

    Escritor peruano lanza en plataformas digitales su nuevo poema musicalizado “Ritual”

    Escritor peruano lanza en plataformas digitales su nuevo poema musicalizado “Ritual”