Los deepfakes de vídeo ya comienzan a ser conocidos por el gran público gracias a la llegada de esta tecnología a clips virales y algunos anuncios televisivos, pero mucha gente ignora que esta técnica también tiene su aplicación en el ámbito del sonido. Y algunos de sus usos en este campo no son precisamente benignos.
A principios de 2020 el gerente de un banco en Hong Kong recibió la llamada de un hombre cuya voz reconoció. Se trataba del director de una empresa con el que había hablado antes. Éste le comentó que iban a cerrar una adquisición y necesitaba que el banco autorizara algunas transferencias por valor de 35 millones de dólares.
Entró en juego también la figura de un abogado llamado Martin Zelner que se ocuparía de todos los procedimientos para indicar dónde debía moverse el dinero. Todo parecía legítimo y el director de la sucursal comenzó a realizar las transferencias que le habían pedido. Sin embargo, todo se trataba de una estafa.
Los ciberdelincuentes habían clonado la voz del empresario y mediante un deepfake la habían cambiado para que esta dijera lo que necesitaban para perpetrar su engaño.
En realidad se trató de un ataque con tres vectores distintos, ya que además del mensaje de voz también se realizó una sustitución de la identidad mediante el correo electrónico e ingeniería social. Al margen de las llamadas se mandaron emails para pedir al director de la sucursal que hiciera dos transferencias bancarias, llegando en total a los 400.000 dólares.
Ahora Forbes ha revelado un documento judicial en el que los Emiratos Árabes Unidos solicitan la ayuda de investigadores estadounidenses para rastrear esta cantidad de fondos robados, que se ingresaron en cuentas bancarias con sede en EE.UU mantenidas por Centennial Bank.
El 'atraco' afectó a entidades dentro del país y siguió un esquema elaborado, involucrando a 17 personas, las cuales enviaron el dinero a cuentas bancarias en todo el mundo.
No es la primera vez que usa el deepfake de audio para una estafa de este tipo. En 2019 unos ciberdelincuentes se sirvieron de esta tecnología para hacerse pasar por el CEO de una empresa de energía con sede en el Reino Unido y pedir una transferencia, sustrayendo 240.000 dólares.
Este tipo de ataques suponen un gran peligro. Afortunadamente, ya hay empresas que están trabajando para frenarlos. Es el caso de Pindrop, que ofrece soluciones de autenticación y antifraude para ofrecer "seguridad, identidad y confianza en cada interacción de voz".
Voz y voto
Hace poco más de un año se defendía que los deepfakes de audio usados hasta la fecha no eran demasiado efectivos.
La compañía de ciberseguridad Nisos analizó el mensaje de voz en el que una IA se hacía pasar por el CEO de una empresa, señalando que la grabación se escuchaba entrecortada y que tampoco "era consistente con una grabación de voz humana similar". En su blog oficial comentaban que al modificar la velocidad de reproducción a 1.2.se percibía igual que un sistema estándar que traslada el texto a la voz y que no tenía ningún ruido de fondo.
"En una grabación real de voz humana el tono se suaviza más y se puede detectar un algo de ruido de fondo. El problema central con los 'deepfakes' de audio tiene que ver con capturar no solo el tono de la persona, sino también los gestos específicos del habla", apuntaban.