Feedfetcher: lo spider di Google per i feed

In seguito al recente rilascio di Blog Search, Google ha aggiornato parte della documentazione dedicata ai webmaster.
In particolare, sono comparse nuove interessanti informazioni riguardo Google's Feed Grabber: Feedfetcher.

Feedfetcher è uno spider usato dal motore di ricerca per visitare, leggere e raccogliere i contenuti di un feed.
Google tende a precisare che, nonostante le apparenze, questo grabber non è in alcun modo collegato al nuovo motore di ricerca per feed. Al contrario, Feedfetcher è guidato da esplicite azioni di natura umana.

Semplificando, Feedfetcher si occupa di leggere e gestire i contenuti richiesti quando un utente cerca di aggiungere un feed alla sua homepage di Google personalizzata.
Il bot provvede a visitare periodicamente i feed in elenco ed aggiornare il proprio indice. Le visite avvengono, di norma, non più frequentemente di una all'ora e sono identificabili dall'user-agent dedicato: Feedfetcher-Google.
Meno semplice è l'identificazione tramite IP dato che, per distribuire il carico, lo spider non è associato univocamente ad un solo server.

Una caratteristica molto curiosa da sottolineare è che il bot ignora ufficialmente il robots.txt.
Più volte Googlebot, lo spider di Google, è stato accusato di non seguire le indicazioni del file. In questo caso la conferma è ufficiale e comprende anche una spiegazione.

Feedfetcher retrieves feeds only after users have explicitly added them to their Google homepage. Feedfetcher behaves as a direct agent of the human user, not as a robot, so it ignores robots.txt entries. Feedfetcher does have one special advantage, though: because it's acting as the agent of multiple users, it conserves bandwidth by making requests for common feeds only once for all users.

Siccome Feedfetcher è attivato direttamente da una richiesta umana e non da un sistema automatico, lo spider è stato appositamente progettato per ignorare le direttive del robots.txt.
Google tende a tranquillizzare il webmaster assicurando che le richieste sono gestite in modo da non pesare eccessivamente sulla banda del sito. Tuttavia, per chi non ne fosse convinto sono disponibili informazioni per Rimuovere un blog o escludere un feed.

Per maggiori informazioni sul grabber rimandiamo alla pagina di informazioni su Feedfetcher.