Di Jeff McVeigh
Mentre ci addentriamo nell'era dell'exascale e sprintiamo verso lo zettascale, riscontriamo anche la crescita delle emissioni globali di carbonio dell'industria tecnologica. È stato stimato che entro il 2030, tra il 3% e il 7%1 della produzione globale di energia sarà consumata dai data center, con l'infrastruttura informatica che sarà uno dei principali driver del nuovo consumo di elettricità.
Quest'anno, Intel si è impegnata a raggiungere l'azzeramento delle emissioni nette di gas serra nelle nostre operazioni globali entro il 2040 e a sviluppare soluzioni tecnologiche più sostenibili. Tenere il passo con le insaziabili richieste di elaborazione informatica creando al contempo un futuro sostenibile è una delle maggiori sfide per il calcolo ad alte prestazioni (HPC). Ambizioso ma realizzabile se ci occupiamo di ogni parte del supercomputer: hardware, software e sistemi.
Questo è al centro del keynote all'ISC 2022 di Amburgo, in Germania. (Vedi il replay nella parte superiore di questa pagina.)
Inizia con silicio e architetture di elaborazione eterogenee
Abbiamo pianificato una roadmap di high-performing computing aggressiva fino al 2024 che fornirà un portafoglio diversificato di architetture eterogenee. Queste architetture ci consentiranno di migliorare le prestazioni di alcuni ordini di grandezza, riducendo al contempo le richieste di alimentazione sia per carichi di lavoro generici che emergenti come AI, crittografia e analytics.
Il processore Intel® Xeon® con nome in codice Sapphire Rapids with High Bandwidth Memory (HBM) è un ottimo esempio di come stiamo sfruttando tecnologie di packaging avanzate e innovazioni al silicio per apportare sostanziali miglioramenti in termini di prestazioni, larghezza di banda e risparmio energetico per l'HPC. Con fino a 64 gigabyte di memoria HBM2e ad alta larghezza di banda nel pacchetto e acceleratori integrati nella CPU, siamo in grado di sprigionare carichi di lavoro legati alla larghezza di banda della memoria, offrendo al contempo miglioramenti significativi delle prestazioni nei principali casi d'uso HPC. Confrontando i processori scalabili Intel® Xeon® di terza generazione con i prossimi processoriSapphire Rapids HBM,stiamo assistendo a un aumento delle prestazioni da due a tre volte nei carichi di lavoro di ricerca meteorologica, energia, produzione e fisica2. Al keynote, il CTO di Ansys Prith Banerjee mostra anche che Sapphire Rapids HBM offre un aumento delle prestazioni fino a 2 volte sui carichi di lavoro del mondo reale con Ansys Fluent e ParSeNet3.
La densità di calcolo è un altro imperativo mentre spingiamo per ottenere guadagni di prestazioni di alcuni ordini di grandezza nei carichi di lavoro di supercalcolo HPC e AI. La prima unità di elaborazione grafica (GPU) top di gamma di Intel per data center, nome in codice Ponte Vecchio, sta già superando la concorrenza per applicazioni di servizi finanziari complessi e carichi di lavoro di inferenza e training di AI. Dimostriamo anche che Ponte Vecchio sta accelerando la simulazione ad alta fedeltà di 2 volte con OpenMC4.
Non ci fermiamo qui. Oggi annunciamo il successore di questa potente GPU per data center, nome in codice Rialto Bridge. Evolvendo l'architettura di Ponte Vecchio e combinando tile migliorati con la nuova tecnologia di processo, Rialto Bridge offrirà densità, prestazioni ed efficienza significativamente maggiori, fornendo al contempo coerenza software.
Guardando al futuro, Falcon Shores è la prossima importante innovazione dell'architettura sulla nostra roadmap, che riunisce le architetture CPU x86 e Xe GPU in un unico socket. Questa architettura è prevista per il 2024 e progettata per offrire oltre 5 volte di più prestazioni per watt, 5 volte più densità di elaborazione, 5 volte di più capacità di memoria e miglioramenti della larghezza di banda5.
Principi di una strategia software di successo: apertura, scelta, fiducia
Il silicio è solo sabbia se non c'è il software a dargli vita. Il nostro approccio al software è quello di facilitare lo sviluppo aperto attraverso l'intero stack e di fornire strumenti, piattaforme e IP software per aiutare gli sviluppatori a essere più produttivi e a produrre codice scalabile, più performante e più efficiente in grado di sfruttare le più recenti innovazioni del silicio senza l'onere del refactoring del codice. L'iniziativa di settore oneAPI fornisce agli sviluppatori HPC una programmazione cross-architecture in modo che il codice possa essere indirizzato a CPU, GPU e altri acceleratori specializzati in modo trasparente e portabile.
Ora ci sono più di 20 oneAPI Centers of Excellence presso le principali istituzioni di ricerca e accademiche in tutto il mondo e stanno facendo progressi significativi. Ad esempio, Simon McIntosh-Smith e il suo team presso il Dipartimento di Scienze dell'Università di Bristol stanno sviluppando le migliori pratiche per raggiungere la portabilità delle prestazioni a exascale utilizzando oneAPI e il livello di astrazione SYCL del Khronos Group per la programmazione cross-architecture. Il loro lavoro garantirà che il codice scientifico possa raggiungere prestazioni elevate su enormi sistemi di supercalcolo eterogenei in tutto il mondo.
Legare insieme: sistemi per l'elaborazione eterogenea sostenibile
Poiché i carichi di lavoro del data center e dell'HPC si spostano sempre più verso architetture disaggregate e computing eterogeneo, avremo bisogno di strumenti che possano aiutarci a gestire efficacemente questi ambienti di elaborazione complessi e diversificati.
Oggi presentiamo Intel® XPU Manager, una soluzione open source per il monitoraggio e la gestione delle GPU intel per data center in locale e in remoto. È stato progettato per semplificare l'amministrazione, massimizzare l'affidabilità e i tempi di attività eseguendo una diagnostica completa, per migliorare l'utilizzo ed eseguire aggiornamenti del firmware.
Un file system DAOS (Distributed Asynchronous Object Storage) fornisce ottimizzazioni a livello di sistema per le attività di spostamento e archiviazione dei dati che richiedono molta energia. DAOS ha un enorme impatto sulle prestazioni del file system, migliorando sia il tempo di accesso complessivo che riducendo la capacità richiesta per lo storage per ridurre l'ingombro del data center e aumentare l'efficienza energetica. Nei risultati I/O 500 rispetto a Lustre, DAOS ha ottenuto un aumento di 70 voltedi 6 delle prestazioni del file system hard write.
Affrontare la sfida della sostenibilità HPC
Siamo orgogliosi di collaborare con clienti che la pensano allo stesso modo e con i principali istituti di ricerca di tutto il mondo per ottenere supercomputer più sostenibili e aperti. Esempi recenti includono la nostra partnership con il Barcelona Supercomputing Center per creare un laboratorio zettascale RISC-V pionieristico e la nostra continua collaborazione con l'Università di Cambridge e Dell per evolvere l'attuale Exascale Lab nel nuovo Cambridge Zettascale Lab. Questi sforzi si basano sui nostri piani per creare un solido ecosistema dell'innovazione dell'UE per il futuro dell'informatica.
La linea di fondo è che nessuna singola azienda può farlo da sola. L'intero ecosistema deve ugualmente appoggiarsi, attraverso la produzione, il silicio, l'interconnessione, il software e i sistemi. Facendo questo insieme, possiamo trasformare una delle più grandi sfide HPC del secolo nell'opportunità del secolo e cambiare il mondo per le generazioni future.
Jeff McVeigh è vicepresidente e direttore generale del Super Compute Group di Intel Corporation.
Avvisi e dichiarazioni di non responsabilità:
1 Andrae Hypotheses for primary energy use, electricity use and CO2 emissions of global computing and its share of the total between 2020 and 2030, WSEAS Trans Power Syst, 15 (2020)
numero arabo Come misurato da quanto segue:
TrifoglioFoglio
-
Test da parte di Intel a partire dal 26/04/2022. 1 nodo, 2 CPU Intel® Xeon® Platinum 8360Y, 72 core, HT On, Turbo On, Memoria totale 256GB (16x16GB DDR4 3200 MT/s ), SE5C6200.86B.0021.D40.2101090208, Ubuntu 20.04, Kernel 5.10, 0xd0002a0, ifort 2021.5, Intel MPI 2021.5.1, manopole di costruzione: -xCORE-AVX512 –qopt-zmm-usage=high
-
Test da parte di Intel a partire dal 19/04/22. Processore scalabile Intel® Xeon® di pre-produzione a 1 nodo, 2x nome in codice Sapphire Rapids Plus HBM, >40 core, HT ON, Turbo ON, memoria totale 128 GB (HBM2e a 3200 MHz), versione BIOS EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux versione 5.16, ifort 2021.5, Intel MPI 2021.5.1, manopole di build: -xCORE-AVX512 –qopt-zmm-usage=high
OpenFOAM
-
Test da parte di Intel a partire dal 26/01/2022. 1 nodo, 2 CPU Intel® Xeon® Platinum 8380), 80 core, HT On, Turbo On, Memoria totale 256 GB (16x16GB 3200MT/s, Dual-Rank), Versione BIOS SE5C6200.86B.0020.P23.2103261309, 0xd000270, Rocky Linux 8.5 , Linux versione 4.18., OpenFOAM® v1912, Moto 28M @ 250 iterazioni; Note di compilazione: Strumenti: Intel Parallel Studio 2020u4, Manopole di compilazione: -O3 -ip -xCORE-AVX512
-
Test di Intel a partire dal 26/01/2022 Processore scalabile Intel® Xeon® a 1 nodo, 2x pre-produzione nome in codice Sapphire Rapids Plus HBM, >40 core, HT Off, Turbo Off, Memoria totale 128 GB (HBM2e a 3200 MHz), piattaforma di preproduzione e BIOS, CentOS 8, Linux versione 5.12, OpenFOAM® v1912, Motorbike 28M @ 250 iterazioni; Note di compilazione: Strumenti: Intel Parallel Studio 2020u4, Manopole di compilazione: -O3 -ip -xCORE-AVX512
WRF
-
Test da parte di Intel a partire dal 05/03/2022. 1 nodo, 2 CPU Intel® Xeon® 8380, 80 core, HT On, Turbo On, Memoria totale 256 GB (16x16GB 3200MT/s, Dual-Rank), Versione BIOS SE5C6200.86B.0020.P23.2103261309, ucode revision=0xd000270, Rocky Linux 8.5, Linux versione 4.18, WRF v4.2.2
-
Test da parte di Intel a partire dal 05/03/2022. Processore scalabile Intel® Xeon® di pre-produzione a 1 nodo con nome in codice Sapphire Rapids Plus HBM, >40 core, HT ON, Turbo ON, memoria totale 128 GB (HBM2e a 3200 MHz), versione bios EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux versione 5.16, WRF v4.2.2
YASK ·
-
Test da parte di Intel a partire dal 05/9/2022. 1 nodo, 2x CPU Intel® Xeon® Platinum 8360Y, 72 core, HT On, Turbo On, Memoria totale 256GB (16x16GB DDR4 3200 MT/s ), SE5C6200.86B.0021.D40.2101090208, Rocky linux 8.5, kernel 4.18.0, 0xd000270, Manopole di costruzione: make -j YK_CXX='mpiicpc -cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,
-
Test da parte di Intel a partire dal 05/03/22. Processore scalabile Intel® Xeon® di pre-produzione a 1 nodo con nome in codice Sapphire Rapids Plus HBM, >40 core, HT ON, Turbo ON, Memoria totale 128 GB (HBM2e a 3200 MHz), Versione BIOS EGSDCRB1.86B.0077.D11.2203281354, ucode revision=0x83000200, CentOS Stream 8, Linux versione 5.16, Manopole di compilazione: make -j YK_CXX='mpiicpc -cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,
3 Ansys Fluente
-
Test di Intel a partire dal 2/2022 1 nodo, 2x CPU Intel ® Xeon ® Platinum 8380, 80 core, HT On, Turbo On, Memoria totale 256 GB (16x16GB 3200MT/s, Dual-Rank), VERSIONE BIOS SE5C6200.86B.0020.P23.2103261309, ucode revision=0xd000270, Rocky Linux 8.5 , Linux versione 4.18, Ansys Fluent 2021 R2 Aircraft_wing_14m; Note di compilazione: versione commerciale con compilatore Intel 19.3 e Intel MPI 2019u
-
Test di Intel a partire dal 2/2022 1 nodo, 2x nomi in codice del processore scalabile Intel® Xeon® di pre-produzione Sapphire Rapids con HBM, >40 core, HT Off, Turbo Off, Total Memory 128 GB (HBM2e a 3200 MHz), piattaforma di preproduzione e BIOS, CentOS 8, Linux versione 5.12, Ansys Fluent 2021 R2 Aircraft_wing_14m; Note di compilazione: versione commerciale con compilatore Intel 19.3 e Intel MPI 2019u8
Ansys ParSeNet
-
Test effettuato da Intel a partire dal 24/05/2022. 1 nodo, 2 CPU Intel® Xeon® Platinum 8380, 80 core, HT On, Turbo On, memoria totale 256 GB (16x16 GB DDR4 3200 MT/s [3200 MT/s]), SE5C6200.86B.0021.D40.2101090208, Ubuntu 20.04.1 LTS, 5.10, ParSeNet (SplineNet), PyTorch 1.11.0, Torch-CCL 1.2.0, IPEX 1.10.0, MKL (2021.4-Product Build 20210904), oneDNN (v2.5.0)
-
Test da parte di Intel a partire dal 18/04/2022. Processore scalabile Intel® Xeon® di pre-produzione a 1 nodo, 2x nome in codice Sapphire Rapids Plus HBM, 112 core, HT On, Turbo On, memoria totale 128 GB (HBM2e 3200 MT/s), EGSDCRB1.86B.0077.D11.2203281354, CentOS Stream 8, 5.16, ParSeNet (SplineNet), PyTorch 1.11.0, Torch-CCL 1.2.0, IPEX 1.10.0, MKL (2021.4-Product Build 20210904), oneDNN (v2.5.0)