Twitter Boosts Performance and Cost Efficiency

Twitter increases Hadoop performance and cost efficiency with caching, fast SSDs and more compute.

Executive Overview
Storage I/O can be a significant performance bottleneck for Hadoop* clusters, especially in hyperscale deployments like those at Twitter, where a single cluster can have up to 10,000 nodes and nearly 100 PB of logical storage. The typical Hadoop cluster at Twitter contains over 100,000 hard disk drives (HDDs)—but this configuration was reaching an I/O performance limit because while HDD capacity has increased over time, HDD performance has not significantly changed.2 Therefore, simply adding more, bigger HDDs wasn’t going to solve Twitter’s scaling challenges—in fact, it would make things worse as the I/O per GB decreases. Adding more spindles per node was not feasible due to space and power limitations.

Working in collaboration with an Intel engineering team, Twitter engineers conducted a series of experiments that revealed that storing temporary files managed by YARN* (Yet Another Resource Negotiator*) on a fast SSD enabled significant performance improvements on existing hardware (up to a 50 percent reduction in runtime).3 The team also discovered that removing a storage I/O bottleneck enabled them to use larger hard drives while simultaneously increasing processor utilization, which in turn resulted in the ability to use higher-core-count processors. This positively affected storage performance, and contributed to higher data center density by reducing the number of required HDDs.

Higher density leads to total cost of ownership (TCO) savings through energy efficiency, fewer racks, and a smaller data center footprint. Overall, Twitter expects that caching temporary data and increasing core counts will result in approximately 30 percent lower TCO and over 50 percent faster runtimes, compared to their legacy production cluster configuration.1

Read the white paper - Boosting Hadoop* Performance and Cost Efficiency with Caching, Fast SSDs, and More Compute

Explore Related Products and Solutions

Intel® Xeon® Scalable Processors

Drive actionable insight, count on hardware-based security, and deploy dynamic service delivery with Intel® Xeon® Scalable processors.

Learn more

Intel® SSD DC Series

Intel® SSDs for the data center are optimized for performance, reliability, and endurance.

Learn more

Avvisi e limitazioni alla responsabilità

Le caratteristiche e i vantaggi delle tecnologie Intel® dipendono dalla configurazione di sistema e potrebbero richiedere hardware e software abilitati o l'attivazione di servizi. Le prestazioni variano in base alla configurazione di sistema. Nessun sistema informatico può essere totalmente sicuro. Rivolgersi al produttore o al rivenditore del proprio sistema oppure consultare il sito Web https://www.intel.it. // Il software e i carichi di lavoro utilizzati nei test delle prestazioni possono essere stati ottimizzati per le prestazioni solo su microprocessori Intel®. I test delle prestazioni, come SYSmark* e MobileMark*, sono calcolati utilizzando specifici sistemi computer, componenti, software, operazioni e funzioni. Qualsiasi modifica a uno di questi fattori può determinare risultati diversi. Gli acquirenti sono tenuti a consultare altre fonti di informazioni e test prestazionali per valutare appieno i prodotti che intendono acquistare, nonché le prestazioni di tali prodotti se abbinati ad altri prodotti.Per informazioni più complete, visitare https://www.intel.it/benchmarks. // I risultati prestazionali si basano sui test eseguiti nella data indicata nei dettagli della configurazione e potrebbero non riflettere tutti gli aggiornamenti sulla sicurezza pubblicamente disponibili. Per i dettagli, consultare le informazioni sulla configurazione. Nessun prodotto o componente è totalmente sicuro. // Gli scenari di riduzione dei costi descritti sono da intendersi come esempio di come un determinato prodotto Intel®, in circostanze e configurazioni specificate, può avere effetto sui costi futuri e consentire risparmi. Le circostanze possono variare. Intel non garantisce alcun costo o diminuzione dei costi. // Intel non controlla né verifica i dati di benchmark o i siti Web di terze parti citati in questo documento. Si consiglia di visitare i siti Web indicati e verificare se i dati riportati sono accurati. // Alcuni risultati sono stati stimati o simulati utilizzando analisi interna Intel o simulazione di architettura o modellazione, e vengono forniti solo a scopo informativo. Qualsiasi differenza nell'hardware del sistema, nel software o nella configurazione potrebbe influire sulle prestazioni effettive.

Informazioni su prodotti e prestazioni

1

Riferimento: processore Intel® Xeon® E3-1230 v6 (4 core) a singolo socket; RAM da 32 a 64 GB; 1 HDD da 1 TB o da 2 TB; disco di avvio Intel S4500 da 240 GB; Ethernet da 1 GbE a 10 GbE; senza caching. Test: processore Intel® Xeon® Gold 6262 (24 core) a singolo socket; 192 GB di RAM; disco di avvio Intel S4500 da 240 GB; 8 HDD da 6 TB; 1 SSD Intel® DC P4610 da 6,4 TB; Ethernet da 25 GbE; caching tramite Intel® Cache Acceleration Software (Intel® CAS). SO: Twitter CentOS* 6 Derivative, Versione kernel 2.6.74-t1.el6.x86_64 (basata su upstream del kernel 4.14.12), Versione BIOS: D3WWM11, Versione microcodice: 0xb000021.

2

Backblaze, settembre 2018, “Hard Disk Drive (HDD) vs Solid State Drive (SSD): What’s the Diff?” https://www.backblaze.com/blog/hdd-versus-ssd-whats-the-diff/.

3

Riferimento: processore Intel® Xeon® E5-2630 v4 a 2,2 GHz a due socket (10 core/20 thread per socket); 128 GB di RAM; 12 HDD SATA da 6 TB a 7200 RPM; 1 disco di avvio SSD SATA; Ethernet da 25 GbE; 102 nodi distribuiti su 6 rack. Carico di lavoro: Gridmix* e Terasort*. Punteggio Gridmix: 3309 secondi; Punteggio Terasort: 5504 secondi Test: processore Intel® Xeon® E5-2630 v4 a 2,2 GHz a due socket (10 core/20 thread per socket); 128 GB di RAM; 12 HDD SATA da 6 TB a 7200 RPM; 1 disco di avvio SATA; 1 SSD basato su NVMe* Intel® Optane™ DC P4800X da 750 GB; Ethernet da 25 GbE; 102 nodi distribuiti su 6 rack. Carico di lavoro: Gridmix e Terasort. Punteggio Gridmix: 2396 secondi; Punteggio Terasort: 2640 secondi; SO: Twitter CentOS* 6 Derivative, Kernel.