Un progetto realizzato congiuntamente da Wikimedia Deutschland, Jina.AI (società di ricerca neurale) e DataStax (società di gestione dati su larga scala), renderà l’enorme mole di dati presenti su Wikipedia, circa 120 milioni di voci, più facilmente utilizzabile per il training dei modelli AI.
Il progetto si chiama Wikidata Embedding Project e si basa su un sistema che utilizza tecniche vettoriali e di ricerca semantica per supportare l’AI nel comprendere le relazioni significative fra parole e concetti. Fino ad ora i dati di Wikipedia erano accessibili ai modelli di AI tramite ricerche per parola chiave o query. Il nuovo sistema permette invece di sfruttare delle query semantiche. Ad esempio cercando la parola “gatto” non si otterranno solo pagine contenenti quella parola, ma anche concetti correlati.
Questo nuovo progetto può diventare una risorsa chiave per gli sviluppatori AI, che sono sempre alla ricerca di fonti di dati di alta qualità, ben strutturati e affidabili. Inoltre, il progetto viene presentato come solida alternativa agli approcci controllati da grandi aziende, cercando di proporre un sistema aperto e pubblico. Philippe Saadé, manager del progetto, ha commentato il lancio affermando che l’AI la forza dell’AI “non deve essere controllata da una manciata di aziende”.

L’intelligenza artificiale migliora l'accuratezza di Wikipedia?
L’intelligenza artificiale per migliorare Wikipedia? SIDE è in grado di individuare…