 
															Ti è mai capitato di ricevere una e-mail “urgente” dal tuo capo, magari con una richiesta strana?
O una chiamata vocale in cui la voce sembrava familiare ma qualcosa non tornava?
Benvenuto nel nuovo volto dell’inganno digitale: le truffe BEC (Business Email Compromise) potenziate dall’intelligenza artificiale e dai deepfake vocali.  Oggi non servono più solo falsi documenti o e-mail ben scritte, la truffa ha una voce, e può essere quella del tuo manager, del tuo collega, o persino la tua.
Le truffe BEC (Business Email Compromise) sono attacchi di ingegneria sociale altamente mirati in cui i criminali informatici si spacciano per figure autorevoli di un’organizzazione (come il CEO o un dirigente) attraverso email o altri strumenti, per indurre i dipendenti a trasferire fondi o divulgare dati sensibili.
Negli ultimi anni, l’evoluzione delle tecnologie basate su AI e synthetic media, in particolare gli audio deepfake, hanno dato nuova linfa a questa tipologia di truffe, aumentando il tasso di successo grazie alla verosimiglianza delle manipolazioni vocali e all’accuratezza dei messaggi veicolati. Una delle tecniche emergenti più preoccupanti è l’utilizzo di deepfake vocali — dei file audio sintetici creati per imitare la voce di una persona reale — e in grado di aumentare notevolmente l’efficacia dell’attacco.
Gli audio deepfake si basano su modelli di sintesi vocale neurale (Neural Text-to-Speech, o TTS) e voice cloning. Mentre i modelli di sintesi vocale generano una registrazione audio a partire da un testo con una generica intonazione umana, i modelli di voice cloning sono in grado di riprodurre messaggi audio o conversazioni clonando una specifica voce a partire dall’analisi di una breve registrazione, come ad esempio un messaggio vocale di Whatsapp.
Vediamo in dettaglio quali sono le principali modalità di deepfake che possono essere realizzate con diverse tecnologie e strumenti.
| 
																
																	Tecnologia
																																															 | 
																
																	Descrizione
																																															 | 
|---|---|
| 
																													
									 
											
												Tacotron 2 e WaveNet											
																				
																												
								 | 
																													
									 
											
												sintetizzano voce partendo da un testo, con intonazione e ritmo simili a quelli umani.
											
																				
																												
								 | 
| 
																													
									 
											
												Voice Cloning con Transfer Learning
											
																				
																												
								 | 
																													
									 
											
												è possibile clonare una voce con meno di un minuto di audio campione grazie a tecniche come Few-Shot Learning.
											
																				
																												
								 | 
| 
																													
									 
											
												Zero-Shot Learning
											
																				
																												
								 | 
																													
									 
											
												consente a un sistema di generare audio in una voce mai “vista” prima, solo basandosi su un piccolo campione
											
																				
																												
								 | 
Sono inoltre disponibili, e sempre più diffuse, numerose tecnologie open source, come SV2TTS (Real-Time Voice Cloning), Respeecher, Descript Overdub, iSpeech e ElevenLabs
Solitamente, i soggetti che intendono realizzare truffe di tipo BEC, combinano i deepfake vocali con le tradizionali tecniche di phishing per simulare comunicazioni autentiche da parte di CEO, CFO o dirigenti.
Un tipico scenario di utilizzo di questa tecnica, prevede l’invio di un’email da parte del CEO o di un’altra figura apicale a un dipendente, richiedendo un trasferimento di fondi o l’accesso a dati sensibili. Solitamente a questa email può far seguito una telefonata – realizzata con tecniche di deepfake vocali – nella quale si conferma l’invio della mail per rendere la truffa ancora più credibile.
La capacità di riprodurre fedelmente la voce del presunto autore, induce il dipendente a ridurre eventuali sospetti relativi alla precedente email ed eseguire il compito richiesto senza esitazioni. Molto spesso nelle email viene utilizzato un tono confidenziale, viene richiesta massima riservatezza sulla faccenda e anche una certa urgenza, riducendo così il rischio che il dipendente possa confrontarsi con altri colleghi ed eventualmente scoprire la truffa
Ecco una selezione di casi reali documentati di truffe BEC, incluse quelle con l’uso di email compromesse e alcune con deepfake vocali, che dimostrano quanto queste tecniche siano pericolose e sempre più sofisticate:
Valore truffa: 243.000 dollari
Metodo: Deepfake vocale + telefonata
Un dirigente di un’azienda energetica tedesca ha ricevuto una telefonata da chi credeva fosse il CEO della casa madre nel Regno Unito. Il truffatore ha usato un deepfake vocale per imitare perfettamente tono, accento e modalità espressive del CEO. Gli è stato chiesto un bonifico urgente a un fornitore ungherese.
Valore truffa: 37 milioni di dollari
Metodo: Compromissione email + cambio IBAN
I truffatori hanno ottenuto accesso a una conversazione email tra fornitori e amministrazione. Poi hanno inserito un’email spoofata con nuove coordinate bancarie e richiesto il pagamento. Il pagamento è stato eseguito prima che il raggiro fosse scoperto.
Valore truffa: Oltre 30 milioni di dollari
Metodo: Deepfake vocale + attacco su più canali
Un attaccante ha usato un deepfake vocale in tempo reale, simulando la voce di un direttore per avviare una chiamata Teams durante il COVID-19. L’interlocutore doveva approvare un trasferimento, ma il sistema di allerta interno ha bloccato l’operazione e il tentativo è stato sventato.
Metodo: Email BEC + attacco via WhatsApp
Un impiegato riceve una email apparentemente legittima da un fornitore, poi riceve una chiamata vocale contraffatta tramite Whatsapp per convalidare la transazione. L’audio sembrava reale, ma l’istituto è riuscito comunque a bloccare il pagamento all’ultimo momento.
Nel panorama delle modalità di attacchi BEC tramite deepfake vocali, gli aspetti tecnici giocano un ruolo fondamentale per favorire la credibilità delle azioni ed eludere sia i soggetti truffati che eventuali sistemi di Cyber Security.
Tra gli aspetti tecnici più critici di tali sistemi, si distinguono:
Per far fronte a queste sempre più diffuse ed efficienti tecniche di attacco basate su deepfake, esistono ovviamente altrettante tecniche di difesa e precauzioni da adottare per proteggersi dai gravi rischi derivanti dagli attacchi.
L’uso di deepfake vocali nelle truffe BEC rappresenta una minaccia emergente e concreta, resa possibile dalla democratizzazione delle tecnologie di voice cloning. La combinazione tra intelligenza artificiale generativa e ingegneria sociale alza l’asticella della cyber-difesa, rendendo indispensabile l’adozione di misure tecniche e procedurali più sofisticate.
ai.esra SpA – strada del Lionetto 6 Torino, Italy, 10146
Tel +39 011 234 4611
CAP. SOC. € 50.000,00 i.v. – REA TO1339590 CF e PI 13107650015
“This website is committed to ensuring digital accessibility in accordance with European regulations (EAA). To report accessibility issues, please write to: ai.esra@ai-esra.com”
ai.esra SpA – strada del Lionetto 6 Torino, Italy, 10146
Tel +39 011 234 4611
CAP. SOC. € 50.000,00 i.v. – REA TO1339590 
CF e PI 13107650015
© 2024 Esra – All Rights Reserved