Con il motore di query Photon abilitato, le macchine virtuali con processori scalabili Intel® Xeon® hanno superato le prestazioni delle macchine virtuali n2d-highmem-8 con processori AMD EPYC™
Quanto prima vengono completate le query di analisi dei dati, tanto più velocemente puoi ottenere dati rilevanti per prendere decisioni aziendali fondamentali. Combinando le funzionalità di data warehouse e data lake, la piattaforma Lakehouse di Databricks consente alle aziende di archiviare e analizzare dati strutturati e non strutturati. Photon, una funzionalità della piattaforma Lakehouse, è un motore di query vettoriale che consente di velocizzare le prestazioni di query SQL. Di seguito sono elencati altri vantaggi di Photon secondo un riepilogo di Databricks:
- “Supporto di operazioni SQL e DataFrame equivalenti rispetto a tabelle Delta e Parquet.
- Prevista l'accelerazione di query che elaborano una quantità significativa di dati (100 GB e oltre) con aggregazioni e unioni.
- Prestazioni più veloci quando si accede ripetutamente ai dati dalla cache Delta.
- Prestazioni di scansioni più efficaci su tabelle con molte colonne e molti file di piccole dimensioni.
- Scrittura su Delta e Parquet più veloce utilizzando UPDATE, DELETE, MERGE INTO e CREATE TABLE AS SELECT, specialmente per tabelle estese (da centinaia a migliaia di colonne).
- Unioni sort-merge sostituite con unioni hash”.1
Abbiamo testato due tipi di macchine virtuali di Google Cloud Platform (GCP): n2-highmem-8 con processori Intel® Xeon di seconda generazione e Photon abilitato e n2d-highmem-8 con processori AMD EPYC™ di seconda generazione. Photon non è disponibile per le macchine virtuali N2D. Per misurare le prestazioni di data warehousing abbiamo eseguito un benchmark per il supporto decisionale che ha registrato il tempo necessario per completare un determinato numero di query. I risultati hanno indicato che le macchine virtuali N2 con Photon hanno ridotto il tempo per completare i dataset da 1 TB e 10 TB, il che significa anche che le macchine virtuali N2 hanno fornito un valore migliore.
Meno tempo per completare le query, tempi più veloci per recuperare le informazioni
Abbiamo eseguito il benchmark per il supporto decisionale sulle macchine virtuali n2-highmem-8 con Photon con un dataset da 1 TB e un dataset da 10 TB e abbiamo utilizzato lo stesso per le macchine virtuali n2d-highmem-8 con otto vCPU. Come mostrato nella Figura 1, il cluster di macchine virtuali N2 con processori scalabili Intel® Xeon® e Photon hanno completato le query a una velocità 3,1 volte superiore rispetto al cluster N2D sul dataset da 1 TB, mentre sul dataset da 10 TB a una velocità 3,3 superiore rispetto al cluster N2D.
Meno tempo di attività delle macchine virtuali, più risparmio di costi
La tua azienda può trarre vantaggio dal miglioramento delle prestazioni dei carichi di lavoro di supporto decisionale, ma il valore è un'altra considerazione importante. Utilizzando il prezzo all'ora della macchine virtuali durante l'esecuzione del test e la quantità di tempo per completare ogni dataset, abbiamo calcolato il prezzo per TB per ciascun cluster in entrambi i dataset. La Figura 2 mostra che l'esecuzione dei carichi di lavoro Databricks sulle macchine virtuali N2 ha fornito un valore migliore rispetto alle macchine virtuali N2D in entrambe le dimensioni del dataset. Per il dataset da 1 TB, il costo per le macchine virtuali n2d-highmem-8 con processori AMD EPYC™ è stato del 70% superiore rispetto alle macchine virtuali n2-highmem-8 con processori scalabili Intel® Xeon®. Analogamente, il costo per le macchine virtuali n2d-highmem-8 è stato dell'80% superiore rispetto alle macchine virtuali n2-highmem-8 per completare un dataset da 10 TB.
Conclusioni
Supportate dai processori Intel® Xeon® di seconda generazione, le macchine virtuali GCP n2-highmem-8 con il motore di query Photon hanno completato carichi di lavoro di supporto decisionale a una velocità fino a 3,3 volte superiore rispetto alle macchine virtuali n2d-highmem-8. Non solo hanno migliorato le prestazioni, ma hanno anche fornito un valore migliore, poiché le macchine virtuali n2d-highmem-8 costano fino all'80% in più per completare le query dei dataset. Per offrire alla tua azienda un risparmio di costi e informazioni in tempi rapidi per prendere decisioni informate, scegli le macchine virtuali n2-highmem-8 con processori scalabili Intel® Xeon® di seconda generazione.
Per saperne di più
Per iniziare a eseguire i cluster Databricks con Photon abilitato sulle macchine virtuali GCP N2 con processori scalabili Intel® Xeon® di seconda generazione, consulta la pagina https://cloud.google.com/compute/docs/general-purpose-machines.
Test eseguiti da Intel a marzo 2021 su macchine virtuali Intel e a marzo 2022 sule macchine virtuali AMD, entrambi su GCP us-central1 (Iowa). Tutte le configurazioni: 21 istanze (20 lavoratori + 1 master), 8 vCPU, 128 GB
di RAM, 25 Gbps, SSD remota da 500 GB + SSD locale da 0,75 TB. 240-1200/240-1200 (SSD remota R/W), 9360/4680 (SSD locale R/W) Ubuntu 20.04.3 kernel LTS 5.4.170+, Databricks 10.3. Configurazione Spark:
spark.databricks.passthrough.enabled true, spark.databricks. adaptive.autoOptimizeShuffle.enabled true, spark.databricks.io.cache.maxMetaDataCache 10g, spark.databricks.io.cache.maxDiskUsage 100g, spark.databricks.delta.preview.enabled true. N2-highmem-8: CPU Intel Cascade Lake. N2d-highmem-8: CPU AMD Rome. Costo totale del cluster per esecuzione da marzo 2022: con Photon 1 TB
Intel: 6,44 $; con Photon 10 TB Intel: 33,11 $; senza Photon 1 TB AMD: 11,17 $; senza Photon 10 TB AMD: 61,53 $.