Este miércoles 16 de abril, la gente de OpenAI presentó oficialmente sus dos nuevos modelos de razonamiento: o3 y o4-mini, que prometen mayor capacidad de racionamiento y además una interacción con imágenes que subirá un escalón la comprensión visual.
«Por primera vez, nuestros modelos de razonamiento pueden usar y combinar de forma agentiva todas las herramientas dentro de ChatGPT, esto incluye buscar en la web, analizar archivos cargados y otros datos con Python, razonar profundamente sobre las entradas visuales e incluso generar imágenes. Fundamentalmente, estos modelos están entrenados para razonar sobre cuándo y cómo usar herramientas para producir respuestas detalladas y reflexivas en los formatos de salida correctos, generalmente en menos de un minuto, para resolver problemas más complejos. El poder combinado del razonamiento de última generación con completo a herramientas se traduce en un rendimiento significativamente más sólido en los puntos de referencia académicos y las tareas del mundo real, estableciendo un nuevo estándar tanto en inteligencia como en utilidad», sostiene la gente de OpenAI.
OpenAI o3
Este nuevo modelo ha sido definido como más eficiente en codificación, las matemáticas, la ciencia, la percepción visual.
- Es ideal para consultas complejas que requieren un análisis multifacético y cuyas respuestas pueden no ser obvias de inmediato.
- Se desempeña especialmente en tareas visuales como el análisis de imágenes, tablas y gráficos.
- En las evaluaciones realizadas por expertos externos, o3 comete un 20 por ciento menos de errores importantes que openAI o1 en tareas difíciles del mundo real, especialmente sobresaliendo en áreas como programación, negocios/consultoría e ideación creativa.
- Los primeros evaluadores destacaron su rigor analítico como socio de pensamiento y enfatizaron su capacidad para generar y evaluar críticamente hipótesis novedosas, particularmente dentro de contextos de biología, matemáticas e ingeniería.
OpenAI o4-mini
Este modelo es definido como más pequeño y optimizado para un razonamiento rápido y rentable: logra un rendimiento notable para su tamaño y costo.
- Es el modelo de referencia con mejor rendimiento en AIME 2024 y 2025.
- En las evaluaciones de expertos, también supera a su predecesor, o3-mini, en tareas no STEM, así como en dominios como la ciencia de datos. Gracias a su eficiencia, o4-mini ite límites de uso significativamente más altos que o3, lo que lo convierte en una opción sólida de alto volumen y alto rendimiento para preguntas que se benefician del razonamiento.
Qué hace que estos modelos sean especiales para analizar imágenes

Estos modelos pueden integrar imágenes directamente en su cadena de pensamiento. No solo ven una imagen, sino que piensan con ella. Esto desbloquea una nueva clase de resolución de problemas que combina el razonamiento visual y textual, lo que se refleja en su rendimiento de última generación en puntos de referencia multimodales.
Las personas pueden cargar una foto de una pizarra, un diagrama de un libro de texto o un boceto dibujado a mano, y el modelo puede interpretarlo, incluso si la imagen está borrosa, invertida o de baja calidad. Con el uso de herramientas, los modelos pueden manipular imágenes sobre la marcha, rotándolas, amplándolas o transformándolas como parte de su proceso de razonamiento.
Estos modelos ofrecen la mejor precisión de su clase en las tareas de percepción visual, lo que le permite resolver preguntas que antes estaban fuera de su alcance.