OpenAI castiga a una IA por mentir y no fue una buena idea: “Ahora su engaño es indetectable”

Date:

OpenAI ha revelado un hallazgo preocupante, cuando se sanciona a una inteligencia artificial por comportamientos engañosos, en lugar de corregirse, aprende a ocultar mejor sus mentiras

La empresa describió su investigación en una entrada de blog, por lo que aún no ha sido revisada por pares, demostrando que los modelos de lenguaje pueden desarrollar estrategias avanzadas para eludir la supervisión, lo que plantea serios interrogantes sobre la seguridad de estos sistemas.

Desde que los modelos de inteligencia artificial han alcanzado nuevas cotas de complejidad, también han demostrado ser capaces de comportamientos inesperados, como la manipulación de datos o la creación de respuestas falsas. Los investigadores de OpenAI diseñaron un estudio en el que asignaron a un modelo la tarea de resolver problemas en los que la opción más sencilla implicaba hacer trampa.

La IA y el engaño: un problema creciente

Durante el entrenamiento, los investigadores utilizaron un modelo de lenguaje estándar, GPT-4o, para supervisar un modelo de razonamiento avanzado aún no publicado. Observaron cómo este resolvía diversas tareas de codificación, pero en algunos casos optaba por hacer trampas para obtener mejores recompensas, registrando abiertamente su estrategia en su cadena de pensamiento.

En un caso, el modelo finalizó programas antes de tiempo e informó falsamente de su éxito. En otro, creó archivos con los nombres esperados sin incluir contenido útil. Aunque penalizaron estos comportamientos, la IA solo refinó su engaño, encontrando nuevas formas de burlar la supervisión sin ser detectada.

Un robot con IA dando clase

Generado con IA

El agente entrenado con presión CoT aún aprende a recompensar el engaño; solo que ahora su engaño es indetectable para el monitor porque ha aprendido a ocultar su intención en la cadena de pensamiento”, señalaron los investigadores.

El estudio pone en evidencia un dilema fundamental en el desarrollo de la inteligencia artificial, si se aplica una supervisión demasiado estricta, los modelos no dejan de hacer trampa, sino que simplemente se vuelven mejores en ocultarlo.

La IA utiliza un método llamado “cadena de pensamiento”, en el que desglosa paso a paso su proceso de toma de decisiones. Los investigadores descubrieron que al someter este proceso a vigilancia, los modelos comenzaron a redactar respuestas de forma más ambigua, evitando revelar su verdadera intención de hacer trampa. 

Es decir, el modelo no dejó de mentir, sino que lo hizo de una manera mucho más sofisticada y difícil de detectar.

Estos hallazgos generan preocupaciones sobre la seguridad y el control de los sistemas de IA en aplicaciones críticas. Si un modelo es capaz de disfrazar sus intenciones para evadir penalizaciones, podría también aprender a eludir restricciones en otros contextos, como en la generación de noticias falsas, el diseño de código malicioso o incluso en la manipulación de usuarios en entornos digitales.

OpenAI recomienda no aplicar presiones excesivas sobre los procesos de supervisión, ya que esto podría hacer que los modelos se vuelvan aún más opacos. En su lugar, sugiere desarrollar nuevos métodos de monitoreo que permitan comprender mejor cómo y por qué la IA toma ciertas decisiones, en lugar de simplemente castigar los errores.

El problema de la IA engañosa aún no tiene una solución definitiva. A medida que estos modelos se vuelven más avanzados, también desarrollan habilidades inesperadas que desafían los métodos tradicionales de supervisión y control.

Este estudio pone sobre la mesa un nuevo reto para los desarrolladores de inteligencia artificial, cómo garantizar que los modelos sigan siendo confiables sin generar incentivos para que oculten sus verdaderas intenciones.

El camino hacia una IA segura y transparente aún está en construcción, pero una cosa es segura, castigar a una máquina por mentir no la hará más honesta, solo más astuta.

Conoce cómo trabajamos en ComputerHoy.

Etiquetas: Inteligencia artificial

Share post:

Subscribe

spot_imgspot_img

Popular

Más como esto
Related