ChatGPT – 4o es la nueva versión gratuita, más rápida y con su chatbot actualizado, pretende ser tu nuevo asistente personal.
Por Sandra Petrucci Lic. Sistemas / Locutora Integral
Este nuevo modelo de IA generativa llamado GPT-4o (la “o” se refiere a ‘omnicanalidad’), promete revolucionar la forma en que interactuamos con la tecnología al ser capaz de procesar y generar respuestas en tiempo real, utilizando combinaciones de texto, audio e imagen.
Que es GPT
Es un modelo de lenguaje de IA, que puede analizar grandes conjuntos de datos y extraer información relevante de manera rápida y precisa.
Nueva experiencia de Usuario
“Durante los últimos años, nos hemos centrado en mejorar la inteligencia de estos modelos… pero esta es la primera vez que realmente damos un gran paso adelante en lo que respecta a la facilidad de uso”. (Mira Murati, CTO de OpenAI).
Este modelo GPT-4o se destaca no sólo por su capacidad de integrar múltiples formatos de entrada y salida, sino también por su impresionante velocidad de respuesta, similar a la de un ser humano, con un promedio de 320 milisegundos.
Esto representa una mejora significativa respecto a modelos anteriores, como el GPT-4, que mostraba latencias de hasta 5,4 segundos en el modo de voz.
Ahora, los usuarios podrán hacer una pregunta de voz a ChatGPT e interrumpirle mientras responde. El modelo ofrece también la capacidad de captar matices en la voz de un usuario, y de respondernos sintetizando voz en “una amplia variedad de estilos emotivos diferentes” (incluyendo el canto).
Diferencias con GPT 4
Mejoras significativas en procesamiento de lenguaje e imagen: La serie Generative Pre-trained Transformer de OpenAI ha visto una mejora considerable con GPT-4o, integrando de manera eficaz la comprensión de imágenes. Interacción natural y multifuncional.
GPT-4o también actualizará las capacidades de análisis de imagen de ChatGPT, si le proporcionamos una foto, ChatGPT ahora puede responder rápidamente preguntas relacionadas con la misma.
Interacción natural y multifuncional: GPT-4o fomenta una interacción más natural entre humanos y computadoras al aceptar y procesar entradas en múltiples formatos, incluyendo texto, audio e imagen.
Esta versatilidad permite a los usuarios interactuar con el sistema de la manera que les resulte más cómoda y eficiente, reflejando las complejidades de la comunicación humana.
Respuesta rápida y fluida en audio: GPT-4o impresiona con su capacidad para responder a entradas de audio en un promedio de solo 320 milisegundos, lo cual está a la par con los tiempos de reacción en conversaciones humanas.
Esta rápida respuesta no solo mejora la eficiencia en la comunicación, sino que también contribuye significativamente a una experiencia de usuario más agradable y coherente. Esta característica es crucial en aplicaciones donde el tiempo de respuesta es crítico, como en servicios de atención al cliente o en interfaces de asistencia personal.
Rendimiento mejorado en múltiples idiomas y eficiencia económica: GPT-4o extiende su accesibilidad mejorando el rendimiento en una variedad de idiomas, lo que permite a usuarios de todo el mundo interactuar con la tecnología en su lengua materna.
Esta capacidad multilingüe, combinada con una mayor eficiencia en la API, resulta en un costo más bajo de operación, haciendo de GPT-4o una opción viable para empresas de diversos tamaños y presupuestos.
¿Cómo se puede acceder a esta IA?
OpenAI indicó que ya empezó la distribución de la versión GPT-4o. Tanto los usuarios de ChatGPT, como los de ChatGPT Plus ya podrán acceder a las nuevas funciones
Es importante resaltar que los usuarios que pagan tendrán más beneficios, como utilizar el nuevo modo de voz que se lanzará, según los creadores, en las próximas semanas.
GPT-4o no sólo promete ser el más avanzado hasta la fecha, sino también el primero en ser accesible de manera gratuita para todos los usuarios de ChatGPT, hasta ahora, los modelos de la clase GPT-4 solo estaban al alcance de aquellos dispuestos a pagar una suscripción mensual.
En resumen, la reciente evolución de GPT-4 a GPT-4o señala un salto significativo en la interacción entre humanos y máquinas, gracias a las mejoras en la capacidad de procesamiento del lenguaje natural y la integración de funciones multimedia.