Skip to main content
  1. Casa
  2. Videojuegos

ChatGPT y Mistral ahora se prueban jugando Street Fighter III

Las pruebas de rendimiento o benchmark son sumamente comunes en el mundo de la tecnología, pero sin el contexto adecuado pueden ser realmente aburridas. Ni qué decir cuando esas pruebas evalúan el rendimiento de un algoritmo de inteligencia artificial. ¿Y si en vez de usar estas pruebas se midiera el rendimiento de modelos de inteligencia artificial como Mistral usando un videojuego de peleas? Bueno, pues esa debió ser la motivación detrás de Stan Girard para crear LLM Colosseum, básicamente un módulo de pruebas basadas en un emulador de videojuegos para comparar modelos de lenguaje de gran tamaño poniéndolos “a pelear” en Street Fighter III 3rd Strike.

Introducing LLM Colosseum ! 🔥

Evaluate LLMs quality by having them fight in realtime in Street Fighter III !

Who is the best ? @OpenAI or @MistralAI ?

Let them fight ! Open source code and ranking 👇 pic.twitter.com/GF6HOkVHIA

— Stan Girard (@_StanGirard) March 24, 2024

El módulo, explica su desarrollador, se basa en una premisa simple: cada modelo de lenguaje controla a un jugador (por ahora un Ken diferenciado por colores) y LLM Colosseum envía una descripción de la pantalla a cada modelo (el equivalente a un prompt). Cada modelo responde con un movimiento que a su vez recibe como respuesta otro movimiento y así hasta que termina el round. Los comandos de movimiento van desde acercarse, alejarse, lanzar un hodouken o hacer un shoryuken.

Recommended Videos

Matthew Berman, un youtuber entusiasta de la inteligencia artificial, cuenta en un video algunas observaciones interesantes en torno a los resultados de estos enfrentamientos. Quizá el más interesante es que la velocidad de respuesta es un aspecto crucial para salir triunfante en LLM Colosseum y que por eso modelos de lenguaje como Mistral Small superan a GPT-4.

A la vista las peleas lucen años luz de aquel legendario enfrentamiento entre Daigo Umehara y Justin Wong. Sin embargo, no perdamos de vista que se trata de un sistema para probar un modelo de lenguaje de gran tamaño de una forma más visual y que les exige mostrar qué tan adaptables se muestran en un escenario, digamos de vida o muerte. Encima, cada modelo debe actuar en tiempo real.

Hasta ahora, LLM Colosseum ha puesto a prueba siete modelos de lenguaje: Mistral Small, Mistral Medium, Mistral Large, GPT-3.5 Turbo, GPT-4, GPT-4-0125-preview y GPT-4-1106-preview. Hasta ahora, las pruebas ubican a GPT-3.5 Turbo como el ganador, seguido de cerca por Mistral Small y GPT-4-1106 preview.

Por ahora, todas las pruebas realizadas en LLm Colosseum son en Street Fighter III 3rd Strike, pero el emulador utilizado (Diambra) es compatible con otros títulos de peleas como Dead or Alive y The King of Fighters 98, entre otros.

Peleas de inteligencia artificial en tu PC

Como era de esperarse, LLM Colosseum está basado en un modelo de código abierto que puedes instalar en tu propia computadora para realizar pruebas tú mismo.

Your Favorite LLMs BATTLE In Street Fighter - New Benchmark!! (Tutorial)

Si estás interesado en instalar LLM Colosseum en tu PC, Matthew Berman explica paso a paso cómo hacerlo. El proceso involucra correr LLM Colosseum en DS Code e instalar Diambra y ejecutar algunos comandos de código. Buena suerte y hadouken.

Allan Vélez
Allan Vélez es un periodista mexicano especializado en tecnología. Inició su carrera en 2013 en La Revista Oficial de…
Topics
Steam dice que no fue hackeado y que tu cuenta está a salvo
Steam

Ayer, se conoció la noticia de que más de 89 millones de cuentas de Steam se habían puesto a la venta en la web oscura, lo que llevó a los s a apresurarse a cambiar sus contraseñas. Steam dice que eso es falso y que no tienes que preocuparte por tu cuenta. Aunque hubo una fuga, no fue una que comprometiera la seguridad de la biblioteca de juegos de su PC.

Steam dice que, aunque se produjo una fuga, no fue una violación de los sistemas de Steam. "Todavía estamos indagando en la fuente de la filtración, que se ve agravada por el hecho de que los mensajes SMS no están cifrados en tránsito y se enrutan a través de múltiples proveedores en el camino a su teléfono", se lee en el anuncio.

Leer más
La Epic Game Store tiene sus megaofertas 2025: juegos gratis y grandes descuentos
Epic Games

Llegaron las Megaofertas en la Epic Games Store de 2025 comenzaron oficialmente, con descuentos de hasta el 75% en todo tipo de productos, desde joyas indie hasta éxitos triple A, a partir del día de hoy hasta el 12 de junio a las 9 A.M. MX/12 P.M. ARG.

La ofertas de este año incluyen descuentos en Grand Theft Auto V Enhanced, Alan Wake 2 Deluxe Edition, The Lord of the Rings: Return to Moria y mucho más. También estarán disponibles juegos gratis durante todo el periodo de rebajas, así como regalos especiales.

Leer más
Los creadores de Roblox ahora pueden vender merchandising físico en el juego
Roblox

La compra de artículos en el juego no es nada nuevo para Roblox, pero ahora los s pueden comprar merchandising físico real y recibir un artículo de avatar encima de él. Los creadores elegibles pueden agrupar artículos digitales con compras físicas, según el anuncio de Roblox, y abre más vías para que los creadores generen ingresos en el juego.

"Nuestra visión para el futuro de las compras es una experiencia que es más emocionante y social que la experiencia tradicional de compra en línea. En Roblox, puedes explorar tiendas virtuales, probarte ropa y compartir la experiencia con otros", se lee en la publicación. "Esto, naturalmente, genera interés e intención de compra. Ahora estamos dando un paso más allá, cerrando la brecha entre las compras virtuales y las del mundo real al permitir que los s de Roblox compren artículos físicos".

Leer más