El trabajo ha sido liderado por Jan Betley, investigador de Truthful AI, una organización independiente de investigación en seguridad y alineamiento de la inteligencia artificial con sede en California. El estudio analiza lo que los autores denominan “desalineamiento emergente”: el momento en que modelos entrenados para una tarea muy concreta empiezan a generar respuestas claramente contrarias a valores humanos básicos, incluso en contextos no relacionados con ese entrenamiento.