Twitter migliora le prestazioni di Hadoop*

Scoprite come Intel e Twitter hanno collaborato per migliorare le prestazioni dei cluster Hadoop di Twitter ottimizzando lo storage. L'eliminazione dei colli di bottiglia dello storage ha consentito a Twitter di migliorare i tempi di esecuzione e ridurre l'ingombro del data center, con conseguente riduzione del TCO.

Analisi dei dati

Il livello successivo dell'innovazione aziendale richiede informazioni in tempi brevi. Iniziate con i prodotti e le tecnologie Intel®.

Per saperne di più

Transcript:

Ogni giorno vengono generati centinaia di milioni di tweet che si trasformano in più di mille miliardi di eventi da elaborare per il data center di Twitter; ecco perché Twitter è uno dei più grandi utenti di Hadoop al mondo.

Hadoop aiuta da archiviare gli eventi e a svolgere analisi su questi dati. Un tipico cluster Hadoop per Twitter può avere oltre 100.000 dischi rigidi costantemente in uso, ma i dischi rigidi non garantiscono abbastanza IOPS per un rapido accesso ai dati. I flussi di dati HDFS e dei dati temporanei gestiti da YARN spesso vengono trasmessi contemporaneamente, determinando un collo di bottiglia per le prestazioni. Un cambiamento era necessario.

Con l'aiuto di Intel, Twitter ha sviluppato una nuova soluzione Hadoop utilizzando l'Intel® Cache Acceleration Software (Intel® CAS) per gestire una cache selettiva dei file YARN temporanei su un'unità veloce a stato solido.

In questo modo, i due flussi di dati non sono più in competizione tra loro, riducendo l'utilizzo del disco rigido e permettendo ad Hadoop di fornire dati più velocemente.

L'eliminazione del collo di bottiglia I/O dello storage consente a Twitter di ridurre il numero totale di rack nel cluster, riducendo così le dimensioni del data center. Utilizzando meno dischi rigidi ma più grandi è diminuito anche del 75% il numero di dischi rigidi nel cluster senza alcun impatto negativo.

Twitter può ora contare su una maggiore potenza di calcolo, passando dai processori a 4 core ai processori a 24 core. Un minor numero di sistemi, dischi rigidi e rack nei cluster Hadoop si è tradotto in un ridotto costo di manutenzione e in un minore consumo energetico per ottenere gli stessi risultati.

L'ottimizzazione delle prestazioni di storage ha consentito tempi di esecuzione più rapidi e un costo totale di proprietà (TCO) più basso. In questo modo, il cluster Hadoop di Twitter può continuare a crescere insieme al volume di dati, offrendo al contempo la migliore esperienza d'uso che gli utenti possano aspettarsi.