AI news:

il portale di approfondimento sul mondo dell'intelligenza artificiale

AI news: il portale di approfondimento sul mondo dell'intelligenza artificiale

Cos’è la computer vision?

computer vision

Diversi algoritmi donano la “vista” ai computer rendendoli ancora più utili in numerosi ambiti. Ma quanto è simile realmente la computer vision a quella umana?

L’intelligenza artificiale opera su diversi livelli. Gli algoritmi di AI possono infatti aiutare nell’analisi dei dati più vari e nello svolgimento di compiti più o meno complessi.

Attraverso alcuni algoritmi, un computer può comprendere in modo più o meno approfondito anche i contenuti visivi, come immagini e video, potendosi sostituire in parte o completamente agli esseri umani. Si parla, in questo caso, di computer vision.

Definizione di computer vision

La computer vision è un’area dell’AI che descrive la capacità dei sistemi di “vedere”, cioè di ottenere informazioni da immagini digitali e altri input visivi a loro sottoposti e di agire sulla base di queste. I computer, infatti, così come possono “comprendere” il linguaggio naturale attraverso l’utilizzo di microfoni, sono anche in grado di “leggere” e “guardare” le immagini, analizzandole con le loro estensioni hardware o osservando direttamente la realtà attraverso telecamere e obiettivi di varia natura.

Si tratta dunque di un campo di studi che collega diverse discipline e che lavora sulla creazione e sullo sviluppo di algoritmi diretti a fornire ai computer la capacità di riconoscere visivamente gli oggetti e di estrarre informazioni su questi. Informazioni che verranno rielaborare e utilizzate per definire un contesto intorno all’immagine.

Il training dell’AI e il funzionamento dei sistemi di visione artificiale

I sistemi di computer vision, per poter funzionare, devono essere addestrati. Perché questo avvenga, ai sistemi devono essere sottoposte numerose immagini etichettate, un training dataset molto esteso che possa rendere i software effettivamente intelligenti e in grado di riconoscere i più svariati oggetti.

Per l’addestramento, vengono utilizzati due tipi di tecnologia.

  • Il deep learning (apprendimento profondo) è un tipo di apprendimento automatico molto avanzato che usa algoritmi che consentono al computer di apprendere in autonomia il contesto delle immagini che gli vengono fornite. Il computer, analizzando tutti i dati visivi che ha a disposizione, imparerà a distinguerli tra loro, senza che un essere umano lo programmi per farlo.
  • Una rete neurale convoluzionale (CNN – convolutional neural network, esempio di deep neural network) aiuta invece i modelli di apprendimento automatico o profondo a “vedere”, analizzando le immagini nelle loro componenti elementari, i pixel, a cui vengono associate delle etichette. Attraverso le etichette, una CNN esegue delle convoluzioni – specifiche operazioni matematiche – ed effettua previsioni. La stessa rete, poi, verifica la correttezza delle proprie previsioni e impara a farne di più precise. Una rete neurale di questo genere, utilizzata per analizzare immagini singole, distingue prima i tratti generali delle immagini per poi focalizzarsi sui dettagli. Una rete neurale ricorrente (RNN – recurrent neural network) è invece utilizzata per l’analisi di video.

Le applicazioni della visione artificiale

Tra i compiti che gli algoritmi di visione artificiale possono svolgere ci sono: la classificazione o la segmentazione di un’immagine, l’identificazione di un oggetto (molto utile per i veicoli a guida autonoma), la face o action recognition (associata anche all’emotion recognition), l’identificazione delle relazioni tra i diversi soggetti di un’immagine, l’editing, il tracciamento di un oggetto o l’image retrieval, ovvero la capacità di recuperare un’immagine da un archivio molto vasto ricercando l’oggetto in essa contenuto, anche in mancanza di tag associati.

Un esempio di computer vision applicata a un contesto urbano (foto: 22 tecnologies)

Le reti neurali sono in grado di aiutare in diverse aree: nella prevenzione dei reati (attraverso la smart surveillance, ovvero l’analisi automatica delle immagini ottenute dalle videocamere di sorveglianza), nel sostegno alle disabilità (si vedano le applicazioni dedicate alle persone cieche), in ambito scolastico, nella protezione delle specie animali in via d’estinzione e non solo.

Un’applicazione molto utilizzata di computer vision è, per esempio, quella adottata da Google Translate, che permette agli utenti di inquadrare una scritta con il proprio smartphone e di tradurla immediatamente in qualsiasi lingua. Il software “legge” i pixel dell’immagine traducendoli in un testo che viene istantaneamente tradotto

La visione artificiale viene usata anche in settori come quello dei servizi, nell’ambito manifatturiero e in quello dell’energia. All’interno delle fabbriche, l’AI può essere utilizzata, infatti, per monitorare i prodotti al fine di rilevare eventuali difetti, oppure per osservare il luogo di lavoro e garantirne la sicurezza.

L’importanza dei training dataset

Perché la computer vision funzioni correttamente e in modo efficace, è necessario che questa sia bene addestrata. È dunque fondamentale creare un dataset abbastanza ricco per assicurarsi che il software acquisisca il maggior numero di dettagli possibile. Ciò lo renderà più preciso nell’analisi dei contenuti visivi e lo aiuterà a riconoscere molte più immagini, anche qualora queste deviassero dallo standard (oggetto parzialmente non visibile, luminosità scarsa, colori diversi, etc.). Per arrivare a questo risultato sono necessari dataset con migliaia, se non milioni di dati.

La tecnologia, da questo punto di vista, ha fatto passi da gigante. Si pensi ai veicoli a guida autonoma, il cui obiettivo è quello di assistere completamente – fino al punto di sostituire – il conducente. Questi sistemi devono identificare, classificare e tracciare gli oggetti e le persone sul loro percorso in tempo reale e agire di conseguenza. Nonostante questi sistemi non siano ancora stati resi disponibili a tutti sul mercato, ci sono esempi che dimostrano come siano quasi del tutto affidabili.

La strada è lunga. L’innovazione, però, si muove a un passo spedito e gli ultimi sviluppi lasciano ben sperare.