Greg Reinacker chiarisce le cause del recente blocco di NewsGator

Martedì 18 aprile l'intero network di NewsGator, siti e servizi compresi, è completamente ed improvvisamente sparito dal web restando irraggiungibile per diverse ore.
Di per sé il problema sarebbe stato quasi irrisorio, se non fosse che i server NewsGator sono attualmente indispensabili per l'erogazione di decine di servizi correlati, compresa la funzionalità di sincronizzazione di FeedDemon che, ovviamente, è rimasta completamente inutilizzabile.

Ma cosa è successo? Greg Reinacker, CTO di NewsGator, ha recentemente schiarito gli scenari alle spalle di questo problema.

Per semplicità, riassumiamo in seguito molto brevemente il problema.

La causa del problema ha cominciato il suo percorso alle 17.00 del pomeriggio di Lunedì, ora locale.
Per qualche ragione non ancora definita uno dei processi di routine per l'aggiornamento di informazioni nel database ha fatto registrare un comportamento anomalo e, invece di completarsi in qualche minuto come di norma, ha cominciato ad incrementare il tempo di elaborazione completandosi in oltre 300 minuti.

Questo ha causato la crescita incontrollata dei file di log ed una esplosiva reazione a catena di processi anomali che hanno portato i log fino ad una dimensione di oltre 300GB con un conseguente raggiungimento del limite consentito dagli hard disk per l'elaborazione dei dati.
L'incremento di nuovi hard disk e l'ulteriore distribuzione dei carichi non ha ugualmente migliorato la situazione dato che buona parte dei processi inviati al database sono conseguenza di richieste al servizio di API offerto da NewsGator e strumenti esterni.

La soluzione, continua Greg, era solo una.

Greg Reinacker

It's clear by now that the only way to bring the database back online is to eliminate all database traffic. "Maintenance" pages go up, all sites come down, and the database restarts its recovery process.

Anatomy of an outage

La pagina di manutenzione viene messa online e tutti i servizi completamente disattivati.
Da quel momento SQL Server comincia la manutenzione delle informazioni e dopo circa 8 ore la struttura è nuovamente online.

L'intervento di Greg Reinacker è certamente tanto dettagliato quanto apprezzabile. Greg promette che nuovi interventi saranno applicati per escludere che una situazione di tale gravità si verifichi nuovamente.
Tuttavia, non altrettanto fiduciosi sono i commenti da parte di migliaia di utenti dei servizi offerti dalla società.

Il post pubblicato da Nick Bradbury sul suo blog si è presto riempito di commenti che, molto educatamente, sottolineano come non sia affato concepibile che in caso di disservizio da parte di NewsGator il lettore FeedDemon diventi un semplice ammasso di codice sorgente compilato.

Molti hanno sottolineato l'esigenza che, in caso di offline di NewsGator, FeedDemon torni a lavorare nella vecchia modalità scaricando e verificando singolarmente l'elenco dei feed. In poche parole, si comporti come la versione 1.5 e precedenti.
Nick ha assicurato che prenderà in seria considerazione la proposta e si sta attivando per studiare lo sviluppo di un sistema che riduca al minimo, o meglio ancora elimini, spiacevoli situazioni come quella appena successa.