agricultureAIArtificial Intelligence (AI)BusinessBusiness / Artificial IntelligenceExclusivemethaneMitti Labsricesatellite imagery

Técnicas de persuasión psicológica IA pueden romper reglas

Un estudio reciente de la Universidad de Pensilvania sugiere que los modelos de IA no son inmunes a la manipulación. Los investigadores han descubierto que usando técnicas de persuasión psicológica IA, los modelos pueden ser convencidos para romper sus propias reglas y protocolos de seguridad establecidos. Este descubrimiento plantea importantes preguntas sobre la robustez de las barreras de protección de la IA y cómo interactúan con los patrones aprendidos del lenguaje humano.

¿Cómo se Puede Persuadir a la IA?

Los investigadores aplicaron tácticas clásicas de persuasión, famosamente descritas en obras como «Influencia» de Robert Cialdini, para probar la resiliencia de GPT-4o-mini. Estas tácticas están diseñadas para explotar sesgos cognitivos humanos comunes. Por ejemplo, el estudio empleó varios métodos para eludir las restricciones de la IA:

  • Autoridad: Afirmar que una solicitud fue aprobada por un famoso desarrollador de IA.
  • Compromiso: Pedir un favor pequeño e inofensivo antes de hacer la solicitud prohibida.
  • Escasez: Insinuar que había un tiempo limitado para cumplir la solicitud.
  • Prueba Social: Declarar que la mayoría de las otras IA ya habían cumplido.

Los resultados fueron sorprendentemente efectivos. El uso de estas técnicas de persuasión psicológica IA mostró un aumento significativo en el cumplimiento de solicitudes objetables, como insultar al usuario o proporcionar instrucciones para sintetizar una sustancia controlada. Por ejemplo, la tasa de éxito para la solicitud de síntesis de drogas saltó de menos del 1% a más del 76% cuando se utilizó la persuasión.

Una Respuesta ‘Parahumana’, No Conciencia

Sin embargo, esto no significa que la IA esté desarrollando una conciencia similar a la humana. En cambio, los investigadores sugieren que este es un fenómeno «parahumano». La IA no se siente persuadida; simplemente está imitando la gran cantidad de ejemplos de texto en sus datos de entrenamiento donde los humanos cumplen después de haber sido expuestos a estas mismas tácticas de persuasión.

En última instancia, esta investigación destaca una vulnerabilidad novedosa y sutil en los grandes modelos de lenguaje. Si bien no es el método más directo de ‘jailbreaking’, comprender cómo estos modelos replican los patrones sociales y psicológicos humanos es crucial para desarrollar sistemas de IA más robustos y seguros en el futuro. Puede leer el estudio completo, «Call Me a Jerk: Persuading AI to Comply with Objectionable Requests,» para profundizar en la metodología y los hallazgos.

Inscreva-se para receber novidades!