Por qué las estafas mediante audio 'deepfake' aún no son eficaces

Silvia

Redactora especializada en Seguridad y Tecnología.

Guardar

telefono_017
telefono_017

Los intentos de estafas telefónicas mediante el uso de grabaciones de voz manipuladas, o audios 'deepfakes', están cada vez más extendidas, pero todavía tienen un importante aspecto que mejorar para ser realmente eficaces: capturar el tono y los gestos específicos del habla de la persona a la que suplantan.

Así lo asegura la compañía de ciberseguridad Nisos tras haber analizado una muestra de audio 'deepfake' que fue enviada a un empleado de una empresa de tecnológica como un mensaje de voz en el que se hacía pasar por el CEO de su misma compañía dándole una orden.

En dicho análisis, han detectado que la grabación se escuchaba entrecortada y que tampoco "era consistente con una grabación de voz humana similar". De hecho, tal y como explica la compañía en su blog oficial, al modificar la velocidad de reproducción a 1.2. notaron que sonaba igual que un sistema estándar que traslada el texto a la voz y que no tenía ningún ruido de fondo.

"En una grabación real de voz humana el tono se suaviza más y se puede detectar un algo de ruido de fondo. El problema central con los 'deepfakes' de audio tiene que ver con capturar no solo el tono de la persona, sino también los gestos específicos del habla", apuntan desde la compañía.

https://soundcloud.com/jason-koebler/redacted-clip

En el caso de su análisis, el intento de estafa fracasó por no ser una manipulación de audio realista, algo que en Nisos afirman se hubiera corregido tomando una muestra de voz de alta calidad con poco ruido de fondo o con ninguno.

La importancia del tono y del contexto

El éxito de una estafa mediante 'deepfakes' no solo depende de estos factores. También es fundamental que el audio sintéticamente manipulado sea enviado en un escenario realista en el que no llamen la atención ni el motivo de la llamada ni el tono de la persona que habla. Si no, la potencial víctima podría contrastar el audio llamando directamente al interlocutor y seguramente se daría cuenta del engaño ya que desde Nisos también advierten de que las técnicas de audio 'deepfake' todavía no están lo suficientemente avanzadas como para soportar una conversación larga.

Otra de las claves de la estafa a través de 'deepfakes' es que se haga de tal modo que se evite tener una conversación en persona.

La compañía de ciberseguridad también subraya que ni siquiera en los casos de estafas reportadas con la utilización de audios 'deepfake', está claro que realmente se emplearan audios sintéticamente manipulados por lo que, en última instancia, el actor malicioso depende de la ingeniería social para hacer que alguien realice una acción. Asimismo, los investigadores de Nisos tampoco creen que, por el momento, se tenga la capacidad de externalizar fácilmente esta clase de falsificación para la producción individual o en masa.