Skip to main content
  1. Casa
  2. Computación

OpenAI presenta GPT-4o: su nuevo modelo que conversa contigo

Digital Trends Español

OpenAI está lanzando un nuevo modelo insignia de IA generativa llamado GPT-4o, que se implementará «iterativamente» en todos los productos de la compañía en las próximas semanas.

Recommended Videos

El CTO de OpenAI, Muri Murati, dijo que GPT-4o proporciona inteligencia de «nivel GPT-4», pero mejora las capacidades de GPT-4 en texto y visión, así como en audio.

«GPT-4o razona a través de la voz, el texto y la visión», dijo Murati en una presentación en las oficinas de OpenAI.

En una demostración en vivo, dos ingenieros de OpenAI pudieron hablar y razonar incluso con un ejercicio matemático con un ChatGPT que les respondía de manera consistente y rápida.

GPT-4o
Digital Trends Español

GPT-4o mejora en gran medida la experiencia de ChatGPT: ChatGPT es el chatbot viral impulsado por IA de OpenAI. ChatGPT ha ofrecido durante mucho tiempo un modo de voz que transcribe texto de ChatGPT utilizando un modelo de texto a voz. GPT-4o potencia esto, permitiendo a los s interactuar con ChatGPT como un asistente.

Una de las demostraciones más poderosas además fue la traducción en directo de una conversación del italiano al inglés.

Acá hay una muestra cortesía de Techcrunch:

OpenAI's new generative AI model GPT-4o | TechCrunch

La definición de OpenAI

«GPT-4o («o» de «omni») es un paso hacia una interacción humano-computadora mucho más natural: acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen. Puede responder a las entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar a Tiempo de respuesta humana en una conversación. Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en el texto en idiomas distintos del inglés, a la vez que es mucho más rápido y un 50% más barato en la API. GPT-4o es especialmente mejor en la visión y la comprensión del audio en comparación con los modelos existentes».

«Antes de GPT-4o, podías usar el modo de voz para hablar con ChatGPT con latencias de 2,8 segundos (GPT-3,5) y 5,4 segundos (GPT-4) de media. Para lograr esto, el modo de voz es una canalización de tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma texto y emite texto, y un tercer modelo simple convierte ese texto nuevamente en audio. Este proceso significa que la principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, los múltiples altavoces o los ruidos de fondo, y no puede emitir risas, cantos o expresar emociones.

Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo a través de texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos arañando la superficie de la exploración de lo que el modelo puede hacer y sus limitaciones».

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
OpenAI detiene la generación gratuita de imágenes GPT-4o tras la tendencia viral de Studio Ghibli
Studio Ghibli ChatGPT

Después de solo un día, OpenAI ha puesto fin a la versión gratuita de su generador de imágenes en la aplicación, impulsado por el modelo de razonamiento GPT-4o. La actualización tiene como objetivo mejorar el realismo de las imágenes y el texto en el contexto generado por la IA; sin embargo, los s ya han creado una tendencia descontrolada que ha hecho que la empresa de IA se replantee su estrategia de lanzamiento.
Poco después de que la actualización estuviera disponible en ChatGPT, los s comenzaron a compartir imágenes que habían creado en las plataformas de redes sociales al estilo de Studio Ghibli, el popular estudio de animación japonés. Las creaciones iban desde fotos familiares personales basadas en Studio Ghibli hasta escenas icónicas de los Juegos Olímpicos de París 2024, escenas de películas como "El Padrino" y "Star Wars", y memes de Internet como un novio distraído y una chica desastre.

IA abierta

Leer más
OpenAI quiere barrer con los derechos de autor con la Casa Blanca de «cómplice»
OpenAI Sora

OpenAI es inconsistente en muchas cosas: ¿es una organización sin fines de lucro o con fines de lucro? ¿Sam Altman es apto para ser CEO o no? Pero una cosa en la que la compañía siempre ha sido consistente es en su creencia de que requiere a material protegido por derechos de autor para el entrenamiento de IA. Ahora, a pesar de las muchas voces que no están de acuerdo, OpenAI quiere que el gobierno de EE.UU. apruebe ese sin restricciones dictaminándolo como "uso justo".
La compañía argumenta que Estados Unidos se quedará atrás de China en la carrera de la IA si las empresas no tienen la libertad de entrenar sus modelos con material protegido por derechos de autor, alegando que las "leyes estatales demasiado onerosas" ralentizarán el proceso y afectarán los resultados.
Si eres un creador, esto también podría afectarte. Los artistas, escritores, programadores, fotógrafos y cineastas con portafolios en línea, por ejemplo, son dueños de su trabajo, pero si este plan se lleva a cabo, no tendrás motivos para quejarte cuando tu contenido se utilice para entrenar a la IA. Incluso las actividades creativas más físicas, como el diseño de moda, la fabricación de joyas o la escultura, no son seguras si publicas fotos de tu trabajo en línea.
Parece una broma cruel que OpenAI quiera que el entrenamiento de la IA cuente como uso "justo" de obras protegidas por derechos de autor cuando los productos que desarrolla se utilizarán para generar nuevas versiones destrozadas de creaciones personales. Un ejemplo particularmente directo de esto ocurrió el mes pasado cuando se le pidió al elenco francés de Apex Legends que participara en el entrenamiento de un modelo de IA que eventualmente se usaría para generar líneas de voz para el juego.
Hay muchos usos comerciales para varios tipos de contenido creativo, pero cuanto mejores sean los modelos de IA para imitarlo, más difícil será ganar dinero como creador. Las empresas tienen un gran historial de elegir la opción menos costosa en cualquier situación, y hay pocas razones para creer que esto cambiará pronto.
Es difícil imaginar cuál será la solución para los creadores en esta situación. Las personas que realmente se preocupan por proteger su trabajo pueden comenzar a proteger con contraseña sus portafolios en línea, sacrificando solo algunos ejemplos antiguos a los conjuntos de capacitación y solo compartiendo el resto a pedido humano.
Definitivamente, también habría demanda de una solución adecuada: algún tipo de nuevo portafolio o plataforma de intercambio creativo a la que solo los humanos puedan acceder. Tendría que tener un proceso de autenticación bastante estricto, pero definitivamente hay personas que se preocupan lo suficiente por esto como para sacrificar algo de comodidad.
La Casa Blanca aún no ha respondido al plan de OpenAI, por lo que tendremos que esperar y ver cómo se desarrolla esto.

Leer más
Claude, ChatGPT o Gemini: que IA gana en una partida de Super Mario Bros.
acusan colusion inflar precios videojuegos retro super mario bros

Super Mario Bros. de 1985 podría parecer un reto sencillo para cualquier IA que se precie de tener la mejor capacidad de procesamiento y ejecución, sin embargo, 40 años después un experimento de la Universidad de California demostró que el juego de Super Nintendo fue un desafío monumental para cuatro modelos de IA: Claude 3.5 y 3.7 de Anthropic,  GPT-4o de OpenAI y Gemini 1.5 Pro de Google.
El experimento utilizó una versión emulada del clásico juego de Nintendo, integrada con un marco personalizado llamado GamingAgent, desarrollado por Hao Lab. Este sistema permitió a los modelos de IA controlar a Mario mediante la generación de código Python. Para guiar sus acciones, los modelos recibieron instrucciones básicas, como "Salta sobre ese enemigo", junto con visualizaciones de capturas de pantalla del estado del juego.

https://twitter.com/haoailab/status/1895557913621795076?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1895557913621795076%7Ctwgr%5E1ef6278f59be7582c53f6465cd053d31e13c49db%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fwww.techspot.com%2Fnews%2F107011-move-over-math-reasoning-time-benchmark-ai-using.html

Leer más