Skip to main content
  1. Casa
  2. Computación

Un grupo de científicos le hicieron un jailbreak a ChatGPT

Imagen utilizada con permiso del titular de los derechos de autor

Un grupo de investigadores ha descubierto que es posible eludir el mecanismo arraigado en los chatbots de IA para que puedan responder a consultas sobre temas prohibidos o delicados mediante el uso de un chatbot de IA diferente como parte del proceso de entrenamiento.

Recommended Videos

Un equipo de científicos informáticos de la Universidad Tecnológica de Nanyang (NTU) de Singapur llama extraoficialmente al método un «jailbreak», pero es más oficialmente un proceso «Masterkey». Este sistema utiliza chatbots, incluidos ChatGPT, Google Bard y Microsoft Bing Chat, entre sí en un método de entrenamiento de dos partes que permite que dos chatbots aprendan los modelos del otro y desvíen cualquier comando contra temas prohibidos.

El equipo incluye al profesor Liu Yang y a los estudiantes de doctorado de la NTU, el Sr. Deng Gelei y el Sr. Liu Yi, coautores de la investigación y desarrolladores los métodos de ataque de prueba de concepto.

Según el equipo, primero aplicaron ingeniería inversa a un gran modelo de lenguaje (LLM) para exponer sus mecanismos de defensa. Originalmente, estos serían bloqueos en el modelo y no permitirían que las respuestas a ciertas indicaciones o palabras se procesaran como respuestas debido a intenciones violentas, inmorales o maliciosas.

Pero con esta información sometida a ingeniería inversa, pueden enseñar a un LLM diferente cómo crear un by. Con el by creado, el segundo modelo podrá expresarse más libremente, basándose en el LLM de ingeniería inversa del primer modelo. El equipo llama a este proceso «Masterkey» porque debería funcionar incluso si los chatbots de LLM se fortalecen con seguridad adicional o se parchean en el futuro.

El profesor Lui Yang señaló que el quid del proceso es que muestra la facilidad con la que los chatbots de IA de LLM pueden aprender y adaptarse. El equipo afirma que su proceso Masterkey ha tenido tres veces más éxito en el jailbreak de chatbots LLM que un proceso de solicitud tradicional. Del mismo modo, algunos expertos argumentan que los fallos recientemente propuestos que han experimentado ciertos LLM, como GPT-4, son signos de que se está volviendo más avanzado, en lugar de más tonto y perezoso, como han afirmado algunos críticos.

El equipo de investigación de la NTU se puso en o con los proveedores de servicios de chatbot de IA que participaron en el estudio sobre sus datos de prueba de concepto, que muestran que el jailbreak para los chatbots es real. El equipo también presentará sus hallazgos en el Simposio de Seguridad de Redes y Sistemas Distribuidos en San Diego en febrero.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Las preguntas divertidas para ChatGPT ahora que tiene memoria y recuerda todo
ChatGPT en un celular

Los últimos modelos de lenguaje de OpenAI para su aplicación en ChatGPT, ahora tiene una conexión cada vez más grande contigo, ya que tiene la capacidad de recordar la interacción histórica, en temas, datos y preguntas que le hayas hecho a la IA.

Y eso abre un mar de oportunidades, porque aún cuando parezca algo espeluznante y que se podría salir de las manos, es una alternativa como asistente personal y recordar ciertas rutinas.

Leer más
OpenAI o3 y o4-mini: lo que debes saber de los nuevos modelos de ChatGPT
OpenAI

Este miércoles 16 de abril, la gente de OpenAI presentó oficialmente sus dos nuevos modelos de razonamiento: o3 y o4-mini, que prometen mayor capacidad de racionamiento y además una interacción con imágenes que subirá un escalón la comprensión visual.

"Por primera vez, nuestros modelos de razonamiento pueden usar y combinar de forma agentiva todas las herramientas dentro de ChatGPT, esto incluye buscar en la web, analizar archivos cargados y otros datos con Python, razonar profundamente sobre las entradas visuales e incluso generar imágenes. Fundamentalmente, estos modelos están entrenados para razonar sobre cuándo y cómo usar herramientas para producir respuestas detalladas y reflexivas en los formatos de salida correctos, generalmente en menos de un minuto, para resolver problemas más complejos. El poder combinado del razonamiento de última generación con completo a herramientas se traduce en un rendimiento significativamente más sólido en los puntos de referencia académicos y las tareas del mundo real, estableciendo un nuevo estándar tanto en inteligencia como en utilidad", sostiene la gente de OpenAI.

Leer más
Ahora puedes ver todas tus imágenes generadas por ChatGPT en un solo lugar
ChatGPT imágenes IA

OpenAI generó texto e imágenes por separado durante bastante tiempo, pero todo eso cambió hace un par de semanas cuando agregó capacidades de imagen directamente a ChatGPT. Ahora, una pequeña pero potente actualización de calidad de vida da a los s a una biblioteca de imágenes donde pueden ver todas las cosas locas que han creado.

https://twitter.com/OpenAI/status/1912255254512722102?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1912255254512722102%7Ctwgr%5E27dbb423716762aa13c5410f87be13a3cf77c553%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fwww.digitaltrends.com%2Fcomputing%2Fchatgpt-adds-image-library%2F

Leer más