Abbiamo intervistato le ricercatrici Sonia Cenceschi e Chiara Meluzzi in merito a strumentazioni, criticità e casistiche in fase di trascrizione delle intercettazioni
Il 21 gennaio scorso, ai Forensic Virtual Summit, Sonia Cenceschi, ricercatrice ed esperta di medicina legale audio, e Chiara Meluzzi, ricercatrice in sociolinguistica, fonetica sperimentale e pragmatica, hanno partecipato al focus “Trascrivere le intercettazioni: la necessità di una sinergia interdisciplinare”. Al termine dell’incontro sono pervenute loro numerose domande alle quali hanno risposto in questa breve intervista.
Dott.ssa Cenceschi e Dott.ssa Meluzzi,
Esistono applicazioni di intelligenza artificiale utili per la profilazione sociofonetica?
Al momento non esistono applicativi che permettano di automatizzare, in maniera totale o parziale, la profilazione sociofonetica del parlante, ma solo software che rilevano in maniera grossolana la lingua di appartenenza del parlatore. Per quanto riguarda l’Italiano i motivi sono di tre tipi principali. In primo luogo, mancano corpora di italiano regionale e/o misto al dialetto tali da consentirci di automatizzare il riconoscimento del parlante. In secondo luogo, effettuare una profilazione sociofonetica richiede delle competenze trasversali anche all’interno della stessa disciplina linguistica: non solo di analisi fonetica, ma di anche dialettologia e sociolinguistica. Inoltre, allo stato attuale, non esiste una definizione accettata di cosa sia una “profilazione sociofonetica” e neanche di quali requisiti minimi siano richiesti per poterla effettuare, in termini ad esempio di quantità e qualità dell’audio. Quest’ultimo punto è un problema generale che riguarda la mancanza di standard o comunque di linee guida per l’analisi della voce per scopi forensi all’interno della legislazione italiana.
Le è capitato di comparare una voce e non sapere che un parlante ha perso un dente?
Al momento non ci è ancora capitato. Ovviamente modificazione del canale orale modificano le qualità acustiche del segnale audio, perché si creano delle alterazioni all’interno dell’apparato fonatorio. A seconda di dove si trova la perdita del dente, dunque, potrebbero esserne maggiormente colpite le consonanti fricative o le laterali. A livello di produzione di vocali, invece, dal momento che non c’è un contatto tra lingua e articolatori fissi (denti, palato) le modifiche al segnale potrebbero essere minime. Il punto, dunque, è scegliere le variabili e gli indici acustici giusti.
Oltre alla voce potrebbe essere utile una annotazione pragmatica volta a taggare gli atti linguistici?
In generale, la pragmatica si occupa della lingua nei suoi contesti d’uso e di come noi possiamo modificare la realtà tramite i nostri usi linguistici. Si tratta di un approccio di ricerca linguistico di sicuro interesse per l’indagine forense, ma che al momento non risulta ancora utilizzato, neanche a livello internazionale. Non vi è quindi una ricerca specifica in pragmatica forense. Ciò detto, sarebbe senz’altro interessante taggare gli atti linguistici di un enunciato, perché questo aiuterebbe notevolmente l’interpretazione del contenuto verbale di una registrazione e, quindi, una maggiore comprensione delle intenzioni comunicative dei singoli parlanti nel momento in cui quella conversazione è stata registrata/intercettata.
La persona cambia la sua voce a seconda del suo stato psicologico?
Lo stato emotivo del parlante si riflette in vario modo sulla sua voce: la più alta variabilità si ha a livello proprio della curva intonativa, che si può misurare secondo vari parametri acustici, di natura quindi quantitativa (pitch, F0 ecc.). Il problema in questo caso è definire cosa si intenda per ‘emozione’ e come classificarle: molti studi di psicoacustica e psicolinguistica si sono dedicati alla emotion analysis, ma non si è in grado di stabilire una correlazione diretta tra un particolare contorno prosodico e una specifica emozione. Vi è inoltre da considerare la variabilità regionale: come mostrano, tra gli altri, gli studi di Barbara Gili Fivela, l’italiano meridionale ha un contorno intonativo nelle interrogative completamente diverso rispetto a quello dell’italiano settentrionale, creando problemi di comprensione oggettiva.
Per accertare lo stato emotivo del parlante a scopo forense, quindi, un sistema potrebbe essere ad esempio quello di associare l’indagine quantitativa sulla curva intonativa a una indagine percettiva con un numero sufficiente di soggetti che ascoltano e classificano le emozioni veicolate dalla sola informazione fonica (quindi senza il contenuto testuale) del messaggio. Sul fronte ingegneristico il riconoscimento acustico delle emozioni è invece molto studiato nell’ottica di un’automatizzazione degli algoritmi, ma i risultati sono troppo grossolani e le categorie macroscopiche, per permettere una loro applicazione nel settore forense, dove in aggiunta, le registrazioni possiedono una qualità spesso molto bassa inficiandone la possibile performance.
Allo stato delle pratiche di analisi forense come vi ponete e come si pongono gli esperti rispetto a sistemi automatici e semi-automatici per la trascrizione e analisi del linguaggio?
Anche in questo caso vi sono due ordini di problemi. Il primo è definire la categoria dei cosiddetti ‘esperti’: in Italia allo stato attuale non esiste un albo o un registro per classificare e accertare le competenze che un analista o trascrittore deve avere per essere giudicato ‘esperto’. In questo senso si è battuto e si sta ancora battendo l’Osservatorio sulla Fonetica Forense che fa parte dell’AISV (Associazione Italiana Scienze della Voce).
Il secondo problema riguarda l’idea di automatizzare, in tutto o in parte, la trascrizione del linguaggio (che è cosa ben diversa rispetto a una sua analisi). La trascrizione automatica può funzionare se l’algoritmo è allenato su corpora di parlato e la qualità dell’audio è di buona qualità: a oggi il problema principale risiede nei corpora, soprattutto a livello di italiano regionale, ma anche nella qualità, spesso molto bassa e con elevata presenza di rumore, degli audio utilizzati nelle indagini forensi. Risulterebbe sempre quindi necessaria una revisione manuale dei contenuti, che non è detto essere più veloce della trascrizione globale da parte dell’operatore.
Clicca qui per rivedere tutti i video della prima giornata del Forensic Virtual Summit