AI news:

il portale di approfondimento sul mondo dell'intelligenza artificiale

AI news: il portale di approfondimento sul mondo dell'intelligenza artificiale

Il machine listening: funzionamento e applicazioni

audio

Il machine listening è un’applicazione del machine learning che permette ai computer di ‘sentire’: i suoi utilizzi sono molteplici.

L’apprendimento automatico viene utilizzato in numerosi ambiti. L’intelligenza artificiale riesce infatti a elaborare diverse tipologie di dati, come quelli testuali, immagini e persino audio. Proprio a causa della versatilità degli algoritmi, le applicazioni di questa tecnologia sono innumerevoli e riguardano ora ambiti che prima non si pensava potessero avvalersi dell’AI.

Uno dei ‘sensi’ dell’intelligenza artificiale è proprio il cosiddetto machine listening, ovvero l’udito dell’AI. Un’applicazione che permette alle macchine di accedere a sempre più contenuti al fine di elaborarli e di estrarre informazioni.

Definizione e applicazioni del machine listening

Il machine listening – conosciuto anche come computer audition – consiste nell’elaborazione dei suoni attraverso un computer in una modalità che imita il funzionamento dell’udito umano. I computer possono infatti essere programmati e addestrati con l’obiettivo di insegnare loro a riconoscere e a elaborare una grande varietà di input sonori.

Applicazioni comuni di questo genere di tecnologia si vedono in diversi settori. La funzione classificatoria dell’intelligenza artificiale permette infatti ai software di ascolto automatico di interpretare il linguaggio naturale (come nel caso degli assistenti vocali) e dialogare con l’utente in modo più efficiente, così come di individuare specifici suoni all’interno di ore e ore di registrazioni (si vedano le applicazioni in ambito di tutela degli animali). Applicazioni, dunque, che semplificano e velocizzano anche il lavoro di molte persone, che, fino a poco tempo fa, dovevano analizzare ogni audio personalmente, un’attività dispendiosa in termini di tempo per i lavoratori e in termini economici per i datori di lavoro.

Per riconoscere i suoni, i computer devono però poterli ascoltare ed elaborare. Per fare ciò, i sistemi possono prendere in considerazione sia suoni provenienti dall’ambiente circostante sia quelli contenuti in file a loro sottoposti. Si pensi a quelle tecnologie che operano a comandi vocali, come Amazon Alexa: in questo caso, il sistema rimane ‘in ascolto’ e si attiva solo dopo la pronuncia di specifiche parole. L’utente, inoltre, si trova ad addestrare l’algoritmo che sta alla base di questi software attraverso il loro semplice utilizzo. Ciò permette alla tecnologia di riconoscere sempre meglio la voce dell’utente che sta parlando, capire gli accenti utilizzati e le variazioni sintattiche.

La classificazione degli audio

Una delle applicazioni più comuni quando si tratta di machine listening è – come indicato nel paragrafo precedente – la classificazione degli audio.

Così come il machine learning ha mostrato risultati molto importanti nell’analisi e nella valutazione dell’ambiente circostante attraverso le immagini, vi sono sforzi legati allo sviluppo di software che possano fare lo stesso – e in modo parimenti efficiente e accurato – per il mondo uditivo.

Una macchina, però, non può ascoltare esattamente come un essere umano. Questa è infatti in grado di ‘comprendere’ un suono solo trasformando le relative onde sonore in audio (rappresentazione elettronica del suono) e, quindi, in spettrogrammi, ovvero rappresentazioni visive delle frequenze nel tempo. Per l’analisi degli spettrogrammi la macchina si avvale della computer vision, la stessa funzionalità utilizzata per la classificazione delle immagini. Una volta ottenuti dati comprensibili al computer, quindi, questo li può rielaborare al fine di eseguire determinati compiti.

Shazam e l’ascolto automatico in ambito musicale

Software simili possono essere usati anche nel campo della musica. È quanto fa, per esempio, l’algoritmo di Shazam, un software utilizzato soprattutto per permettere all’utente di riconoscere una canzone, recuperando il titolo di un brano e il relativo artista, facendo ‘ascoltare’ al proprio dispositivo 20 secondi del pezzo musicale.

L’algoritmo parte da dei samples (campioni) di una canzone, estrae le fingerprints (impronte digitali) del brano e confronta queste ultime con quelle di canzoni note, già presenti nel suo database. Le fingerprints di un audio non sono altro che una raccolta degli hashtag e delle caratteristiche dei sample di riferimento e misurano quali frequenze sono le più forti in ogni sample.

È chiaro che un software come questo può essere utilizzato anche per trovare le somiglianze tra più brani. Una funzione simile permette di scovare potenziali plagi o semplicemente di connettere diversi artisti in termini storici, una pratica che evidenzia quali influenze musicali possano avere influito sul sound di un determinato cantante o musicista.

I vantaggi del machine listening

Oltre a rendere più semplici le nostre vite grazie alle sue applicazioni alla base degli assistenti vocali, l’ascolto automatico viene quindi utilizzato anche nel tempo libero così come nel mondo del lavoro. Con riferimento a quest’ultimo, compiti tediosi ed estremamente meccanici come l’ascolto di numerose registrazioni per l’estrazione di informazioni o per la loro elaborazione sono svolte sempre di più da sistemi intelligenti e ciò permette alle aziende di risparmiare sul personale e di velocizzare i processi. Questo anche grazie a tecnologie sempre in evoluzione, capaci oggi di percepire anche il tono della voce di una persona, il suo accento o altri elementi utili a svolgere specifici compiti. Il machine listening, che risulta essere un’applicazione indiretta della computer vision, aggiunge dunque un ulteriore ‘senso’ all’intelligenza artificiale, che è diventata e continuerà a divenire sempre più autonoma.