Esegui le query Databricks in meno tempo e ottieni un valore migliore con le macchine virtuali n2-highmem-8 di Google Cloud Platform con processori scalabili Intel® Xeon® di seconda generazione

Databricks

  • Riduci fino a 3,3 volte il tempo necessario per completare carichi di lavoro di supporto decisionale con Photon e le macchine virtuali N2 supportate da processori Intel rispetto alle macchine virtuali N2D con processori AMD.

  • L'esecuzione di database di supporto decisionale sulle macchine virtuali N2D con processori AMD costa fino all'80% in più rispetto alle istanze delle macchine virtuali N2 con processori Intel e Photon abilitato.

author-image

di

Con il motore di query Photon abilitato, le macchine virtuali con processori scalabili Intel® Xeon® hanno superato le prestazioni delle macchine virtuali n2d-highmem-8 con processori AMD EPYC™

Quanto prima vengono completate le query di analisi dei dati, tanto più velocemente puoi ottenere dati rilevanti per prendere decisioni aziendali fondamentali. Combinando le funzionalità di data warehouse e data lake, la piattaforma Lakehouse di Databricks consente alle aziende di archiviare e analizzare dati strutturati e non strutturati. Photon, una funzionalità della piattaforma Lakehouse, è un motore di query vettoriale che consente di velocizzare le prestazioni di query SQL. Di seguito sono elencati altri vantaggi di Photon secondo un riepilogo di Databricks:

  • “Supporto di operazioni SQL e DataFrame equivalenti rispetto a tabelle Delta e Parquet.
  • Prevista l'accelerazione di query che elaborano una quantità significativa di dati (100 GB e oltre) con aggregazioni e unioni.
  • Prestazioni più veloci quando si accede ripetutamente ai dati dalla cache Delta.
  • Prestazioni di scansioni più efficaci su tabelle con molte colonne e molti file di piccole dimensioni.
  • Scrittura su Delta e Parquet più veloce utilizzando UPDATE, DELETE, MERGE INTO e CREATE TABLE AS SELECT, specialmente per tabelle estese (da centinaia a migliaia di colonne).
  • Unioni sort-merge sostituite con unioni hash”.1

Abbiamo testato due tipi di macchine virtuali di Google Cloud Platform (GCP): n2-highmem-8 con processori Intel® Xeon di seconda generazione e Photon abilitato e n2d-highmem-8 con processori AMD EPYC™ di seconda generazione. Photon non è disponibile per le macchine virtuali N2D. Per misurare le prestazioni di data warehousing abbiamo eseguito un benchmark per il supporto decisionale che ha registrato il tempo necessario per completare un determinato numero di query. I risultati hanno indicato che le macchine virtuali N2 con Photon hanno ridotto il tempo per completare i dataset da 1 TB e 10 TB, il che significa anche che le macchine virtuali N2 hanno fornito un valore migliore.

Meno tempo per completare le query, tempi più veloci per recuperare le informazioni

Abbiamo eseguito il benchmark per il supporto decisionale sulle macchine virtuali n2-highmem-8 con Photon con un dataset da 1 TB e un dataset da 10 TB e abbiamo utilizzato lo stesso per le macchine virtuali n2d-highmem-8 con otto vCPU. Come mostrato nella Figura 1, il cluster di macchine virtuali N2 con processori scalabili Intel® Xeon® e Photon hanno completato le query a una velocità 3,1 volte superiore rispetto al cluster N2D sul dataset da 1 TB, mentre sul dataset da 10 TB a una velocità 3,3 superiore rispetto al cluster N2D.

Figura 1. Tempo di elaborazione relativo per completare le query del benchmark per il supporto decisionale sulle macchine virtuali GCP n2-highmem-8 e le macchine virtuali n2d-highmem-8 su dataset da 1 TB e 10 TB.

Meno tempo di attività delle macchine virtuali, più risparmio di costi

La tua azienda può trarre vantaggio dal miglioramento delle prestazioni dei carichi di lavoro di supporto decisionale, ma il valore è un'altra considerazione importante. Utilizzando il prezzo all'ora della macchine virtuali durante l'esecuzione del test e la quantità di tempo per completare ogni dataset, abbiamo calcolato il prezzo per TB per ciascun cluster in entrambi i dataset. La Figura 2 mostra che l'esecuzione dei carichi di lavoro Databricks sulle macchine virtuali N2 ha fornito un valore migliore rispetto alle macchine virtuali N2D in entrambe le dimensioni del dataset. Per il dataset da 1 TB, il costo per le macchine virtuali n2d-highmem-8 con processori AMD EPYC™ è stato del 70% superiore rispetto alle macchine virtuali n2-highmem-8 con processori scalabili Intel® Xeon®. Analogamente, il costo per le macchine virtuali n2d-highmem-8 è stato dell'80% superiore rispetto alle macchine virtuali n2-highmem-8 per completare un dataset da 10 TB.

Figura 2. Prezzo/prestazioni normalizzate per l'esecuzione di un carico di lavoro di supporto decisionale in un ambiente Databricks su macchine virtuali GCP n2-highmem-8 e n2d-highmem-8 con dataset da 1 TB e 10 TB.

Conclusioni

Supportate dai processori Intel® Xeon® di seconda generazione, le macchine virtuali GCP n2-highmem-8 con il motore di query Photon hanno completato carichi di lavoro di supporto decisionale a una velocità fino a 3,3 volte superiore rispetto alle macchine virtuali n2d-highmem-8. Non solo hanno migliorato le prestazioni, ma hanno anche fornito un valore migliore, poiché le macchine virtuali n2d-highmem-8 costano fino all'80% in più per completare le query dei dataset. Per offrire alla tua azienda un risparmio di costi e informazioni in tempi rapidi per prendere decisioni informate, scegli le macchine virtuali n2-highmem-8 con processori scalabili Intel® Xeon® di seconda generazione.

Per saperne di più

Per iniziare a eseguire i cluster Databricks con Photon abilitato sulle macchine virtuali GCP N2 con processori scalabili Intel® Xeon® di seconda generazione, consulta la pagina https://cloud.google.com/compute/docs/general-purpose-machines.

Test eseguiti da Intel a marzo 2021 su macchine virtuali Intel e a marzo 2022 sule macchine virtuali AMD, entrambi su GCP us-central1 (Iowa). Tutte le configurazioni: 21 istanze (20 lavoratori + 1 master), 8 vCPU, 128 GB
di RAM, 25 Gbps, SSD remota da 500 GB + SSD locale da 0,75 TB. 240-1200/240-1200 (SSD remota R/W), 9360/4680 (SSD locale R/W) Ubuntu 20.04.3 kernel LTS 5.4.170+, Databricks 10.3. Configurazione Spark:
spark.databricks.passthrough.enabled true, spark.databricks. adaptive.autoOptimizeShuffle.enabled true, spark.databricks.io.cache.maxMetaDataCache 10g, spark.databricks.io.cache.maxDiskUsage 100g, spark.databricks.delta.preview.enabled true. N2-highmem-8: CPU Intel Cascade Lake. N2d-highmem-8: CPU AMD Rome. Costo totale del cluster per esecuzione da marzo 2022: con Photon 1 TB
Intel: 6,44 $; con Photon 10 TB Intel: 33,11 $; senza Photon 1 TB AMD: 11,17 $; senza Photon 10 TB AMD: 61,53 $.

Informazioni su prodotti e prestazioni

1Databricks, “Photon”, ultimo accesso 12 aprile 2022, https://docs.databricks.com/runtime/photon.html.