FraudeDigital // caso: EJ-004 estado: vector emergente 2025-2026
CASO EJ-004 · IA & DEEPFAKES

La voz de tu hijo pidiendo dinero: deepfake de voz

Cuando 3 segundos de audio de Instagram bastan para reconstruir una voz

Categoría: Deepfake · Ingeniería social
Perfil víctima: Padres / abuelos con hijos jóvenes
Impacto: Cientos a miles € en transferencia urgente
Resumen ejecutivo

Recibes una llamada de un número desconocido. Al otro lado, la voz de tu hijo/hija llorando: "Mamá, papá, he tenido un accidente, no tengo el móvil, necesito 800 € por Bizum a este número YA." La voz suena idéntica. Sube el tono el "policía/abogado/médico" que lo acompaña y refuerza la urgencia. En 3-5 minutos, el dinero está transferido. La voz no era tu hijo: era una clonación por IA hecha a partir de segundos de audio de sus redes sociales.

Por qué funciona en 2026

Hasta 2023, clonar una voz requería horas de audio de calidad estudio y un modelo dedicado. En 2024-2026:

  • Modelos como ElevenLabs, Resemble AI, Play.HT y equivalentes open source pueden clonar una voz reconocible con 3-15 segundos de audio limpio.
  • La fuente de audio ya no es un problema: Instagram Stories, TikToks, mensajes de audio de WhatsApp filtrados, videos de graduaciones en YouTube… todos son válidos.
  • Los modelos generan variantes emocionales: llanto, urgencia, susurro, dolor. Precisamente los tonos que desactivan el pensamiento crítico del receptor.
  • La llamada se realiza por voz sobre IP (VoIP) desde números españoles, a veces spoofados para simular el móvil real del "hijo".

El guion tipo

"Mamá, mamá, soy yo, no me cuelgues por favor, he tenido un accidente con el coche, se me ha roto el móvil, estoy con la policía, necesito 800 € para la fianza o me detienen, por favor, mándamelo por Bizum a este número que te dicta el policía ahora, corre, no cuelgues, no llames a nadie…"

Después toma el teléfono un supuesto agente que refuerza:

"Buenas tardes señora, soy el agente XXX, su hijo está bien pero necesitamos que confirme la operación en cinco minutos porque si no tendremos que tramitar la denuncia. Le paso el número de Bizum, ¿tiene bolígrafo?"

Los ingredientes son los mismos que en el vishing clásico:

  • Autoridad (policía, abogado, hospital)
  • Urgencia (5 minutos, no cuelgues, no llames)
  • Aislamiento ("no puedes usar tu móvil", "no puedes hablar con nadie")
  • Empatía secuestrada (una voz familiar en apuros)

Lo nuevo es la voz clonada. Eso es lo que rompe la última barrera racional.

Umbrales técnicos: qué es realista y qué no

Aspecto Realidad actual (2026)
Muestra de voz mínima 3-15 segundos limpios de audio
Coste técnico del clonado Gratis a bajo coste (planes ~10-20 €/mes de servicios comerciales)
Latencia Ya hay clonación en tiempo real: el atacante habla y sale la voz clonada
Idiomas Español, catalán, inglés, portugués: soporte comercial estable
Detección técnica Existen detectores pero fallan a menudo por llamada de teléfono: el códec estropea las marcas espectrales del audio
Reconocimiento por familiar En condiciones de estrés (urgencia, ruido, llanto simulado), el reconocimiento humano falla en más del 50% de los casos según estudios recientes

Defensa: la palabra clave familiar

La contramedida más efectiva y accesible no es técnica. Es acordar una palabra clave familiar conocida solo por el núcleo más cercano.

01

Elige una palabra o frase

Algo que no aparezca en RRSS ni en conversaciones online. Ni el nombre de la mascota, ni el pueblo del abuelo. Algo arbitrario: un objeto absurdo, una frase inventada.

02

Compártela solo en persona

Padres, hijos, hermanos. Nunca por WhatsApp, ni siquiera cifrado (por si el dispositivo cae). Solo verbal, en persona.

03

Establece la regla

Si alguien llama diciendo ser un familiar con urgencia y dinero de por medio, siempre pides la palabra clave. Si no la sabe, cuelgas. Sin excepción, aunque la voz suene idéntica.

Otras defensas prácticas

  • Cuelga y llama al número habitual. Si tu hijo tiene un problema real, contestará su móvil de siempre. Si insisten "no puedes llamar", más razón todavía para hacerlo.
  • Pregunta algo que solo tu familiar sepa — no cosas obvias ("¿cómo se llama el perro?", que sale en RRSS), sino algo íntimo ("¿de qué hablamos ayer?").
  • Espera y respira. La estafa depende de la urgencia. Un minuto de silencio suele romper el guion del atacante.
  • Limita audio en RRSS. Especialmente en cuentas de menores: perfiles privados, revisar seguidores, cuidado con audios de eventos o directos.
  • Habla del tema en casa. Que abuelos, tíos y padres lo conozcan. Es literalmente el ataque más efectivo contra mayores en 2026.
Lección clave

La voz familiar dejó de ser un método de autenticación en 2024. Que "sonaba a él/ella" ya no significa nada. Cualquier plan de defensa familiar en 2026 debe incluir una palabra clave conocida solo cara a cara. Es gratis, tarda 30 segundos en establecerse y desactiva por completo este vector de ataque.

Si has caído

  1. Bizum enviado hace <10 minutos: llama a tu banco al teléfono de urgencia. En algunas entidades y bajo ciertas condiciones, un Bizum reciente puede revertirse o al menos congelarse. Es una ventana muy corta.
  2. Preserva la evidencia: el número que te llamó, la hora, el importe, el número Bizum destino, la cuenta beneficiaria del transferido.
  3. Denuncia inmediata. La Guardia Civil / Policía puede activar comunicación con el banco receptor para congelar la cuenta destino si actúa rápido.
  4. Notifícalo a la familia y al entorno cercano — el atacante puede estar usando la misma voz clonada contra otros parientes.