Riepilogo Contenuti
Un piccolo robot, fatto con poco più di due ruote e quattro cavi, si sposta su un tavolo. Passa davanti alle persone sedute intorno, si ferma di fronte a una persona sorridente e dice con la sua voce metallica: “Sembri contento: raccontami perché sei contento!”. Se invece la persona è imbronciata, domanda: “Sembri triste: cosa ti succede?”.
Come può un aggeggio così rudimentale riconoscere un’emozione umana? Dove nasconde i potenti processori e le enormi basi di dati necessari per realizzare questo compito?
Potenza dal cloud
In realtà, questa enorme potenza di calcolo non è nella macchinetta. Si trova nel cloud di Google, l’insieme di computer remoti che l’impresa mette a disposizione di utenti e sviluppatori.
Il robot empatico utilizza la potenza del cloud per riconoscere le espressioni facciali. Questo è possibile grazie a una delle più innovative applicazioni del gigante tecnologico di Mountain View: Google Cloud Vision.
Questo prodotto permette a programmatori e hacker di sfruttare per i loro progetti la potenza degli algoritmi di Google Images. Le capacità dell’occhio di Google sono infinite: da indovinare la razza di un cane a contare quante persone compaiono in una foto di classe; da distinguere una zucca da un pallone ad azzeccare dove si trova il lago immortalato in una vecchia foto.
Immagini in movimento
Google Cloud Vision ha solo un anno di vita, però il 9 marzo Google ha già presentato un suo ulteriore sviluppo: Google Cloud Video Intelligence. Il sistema applica alcune delle funzioni di Vision alle immagini in movimento. In questo modo, cresce enormemente le possibilità di fare ricerche di contenuti audiovisuali.
Non è un caso che una delle prime imprese interessate a Google Cloud Vision sia stata AeroSense. Questa compagnia di droni registra migliaia di immagini in ogni singolo volo. Ripassarle a occhio per identificare gli oggetti fotografati è proibitivo. È in situazioni come questa che può essere indispensabile la vista automatizzata di Google.
Algoritmi che apprendono dai dati
Il segreto di Google Cloud Vision sta negli algoritmi di “machine learning” che hanno fatto la fortuna del motore di ricerca. Google usa l’enorme quantità di dati che ha a sua disposizione per addestrare i suoi algoritmi.
Quando cerchiamo la parola “cane”, Google Images restituisce milioni di immagini di cani. Questo non accade perché l’algoritmo conosca l’idea platonica di cane, bensì perché ha imparato a riconoscere questo animale a forza di comparare enormi quantità di immagini.
La compagnia ha messo a disposizione degli utenti un simulatore, che permette di esplorare la sua galassia di immagini e capire il funzionamento di Google Cloud Vision. L’impresa di Mountain View non è l’unica che è salita su questo treno. Amazon, per esempio, ha lanciato un prodotto che compete per lo stesso mercato: Amazon Rekognition.
Testo ed immagini
Le applicazioni della visione computerizzata possono essere davvero sorprendenti. Nel seguente video, un robot realizzato con Rasperry Pi utilizza Google Cloud Vision per classificare i dolcetti di Halloween come buoni o meno buoni. Il software è capace di riconoscere la marca delle merendine grazie al suo algoritmo di estrazione di testo dalle immagini.
Google Cloud Vision può interpretare le immagini in molti modi diversi:
- Identificazione di oggetti: il software riconosce fiori, animali, mezzi di trasporto e migliaia di altre categorie che si trovano frequentemente nelle immagini.
- Identificazione di luoghi, persone e marche: il programma attinge alla sua base di dati per identificare luoghi famosi, sia naturali che monumentali, come per esempio una montagna o un edificio. Lo stesso meccanismo si può utilizzare per identificare personaggi celebri o marche commerciali.
- Contenuti inappropriati: i contenuti per adulti o violenti possono essere captati da Google Cloud Vision, che può aiutare a realizzare una moderazione di contenuti visuali a grande scala.
- Identificazione di volti: si tratta dell’applicazione più spettacolare. Google Cloud Vision è capace di identificare all’interno di una foto la presenza di uno o più volti umani. Inoltre, può inferire 8 diverse espressioni (allegro, triste, arrabbiato, ecc.). Il sistema riconosce la presenza di un volto, però non è programmato per riconoscere sistematicamente a chi appartiene quel volto.
Per hacker e ricercatori
Google Cloud Vision apre delle possibilità di hacking sorprendenti. Per esempio, si può combinare con Google Translate per imparare come si dice bicchiere in cinese, semplicemente inquadrando un bicchiere con il cellulare.
Se invece il software si combina con la collaborazione di vari esperti di moda, si può ottenere un sistema che classifica automaticamente a che tribù urbana appartiene un passante dall’aspetto eccentrico.
Disney ha usato il programma in una app di realtà aumentata che fa apparire il drago del suo ultimo film sul divano di casa. Il ricercatore Kalev Leetaru, invece, lo ha usato per analizzare le situazioni più ricorrenti in decine di spot elettorali o i luoghi più fotografati dalla stampa internazionale.
Forse la prossima applicazione la farai tu, perché l’occhio di Google promette di cambiare anche la tua maniera di vedere il mondo.