inTopic.it: un aggregatore intelligente di notizie

Qualche mese fa, in occasione dei test del nuovo aggregator proposto da Alice, RSS World aveva invitato gli utenti a segnalare i propri progetti legati al mondo dei feed.
Sono arrivate alcune segnalazioni, mai dimenticate, ma temporaneamente messe in stand by per permettere di terminare la riorganizzazione della struttura di questo sito, completata a maggio.

Una segnalazione che mi aveva particolarmente colpito era quella di inTopic.it, all'apparenza un comune web aggregator che si era però rivelato essere molto di più.
Scopriamo insieme le caratteristiche di questo strumento, descritte da Panos Salvaras, lo sviluppatore del progetto.

A differenza della maggior parte degli aggregatori di feed basati sul web, inTopic è basato su un filtro automatico, un algoritmo che categorizza automaticamente gli articoli in 11 macro-categorie.
"Ogni macro-categoria ha il proprio spazio semantico, più vicina è una notizia al centro di questo spazio maggiore sarà la probabilità di appartenere a questa categoria", scrive Panos. "Ho creato successivamente un sistema semi-automatico che suddivide ulteriormente queste categorie in topic."

Questi topic vengono creati sia manualmente sia utilizzando una tecnica di clustering che calcola la distanza tra gruppi di notizie. Una volta individuato lo spazio semantico di un topic, tutte le notizie presenti nel database che hanno una distanza minore o uguale a un valore definito dall'algoritmo vengono etichettate con il nome del topic, mentre per per gli articoli nuovi questo avviene on the fly dallo spider.

Ma come evitare che un termine con più significati illuda l'analisi? Alla base del sistema che individua i vari topic esiste un algoritmo di disambiguazione.
Per capire quest'ultimo algoritmo Panos invita a visitare, ad esempio, questa pagina su Carlos Santana: http://www.intopic.it/musica/carlos-santana/.
Questa pagina invece contiene i risultati di ricerca per "santana": http://www.intopic.it/find.php?lookingfor=santana Questa pagina infine contiene i risultati di ricerca per "carlos santana": http://www.intopic.it/find.php?lookingfor=carlos+santana.

Come potrai notare, continua Panos nella sua spiegazione, la pagina del topic per il chitarrista Santana non contiene riferimenti a un giocatore di calcio con lo stesso nome e non è stata creata utilizzando una ricerca per gli articoli che contengono le parole "carlos" e "santana".
Un altro elemento della piattaforma è il programma che visualizza le notizie ordinandole secondo la loro importanza. Anche questo elemento utilizza il clustering
.

Le fonti vengono individuate ed inserite manualmente.

Il mio obiettivo adesso, conclude lo sviluppatore, è di migliorare la precisione dell'algoritmo, individuare il maggior numero di topic possibile, creare un algoritmo di personalizzazione, che forse sarà basato sul collaborative filtering: http://en.wikipedia.org/wiki/Collaborative_filtering.