Ottieni prestazioni di lavoro di inferenza di BERT-Large del 64% migliorate selezionando istanze AWS M6i con processori scalabili Intel® Xeon® di terza generazione

BERT-Large:

  • Ottieni prestazioni di BERT-Large fino al 64% migliori su istanze di m6i.16xlarge da 64 vCPU con processori scalabili Intel Xeon di terza generazione rispetto alle istanze m5n.16xlarge di terza generazione.

  • Elabora un throughput di BERT-Large fino al 40% superiore su istanze di m6i.8xlarge da 32 vCPU con processori scalabili Intel Xeon di terza generazione rispetto alle istanze m5n.8xlarge.

author-image

di

In base alle diverse dimensioni delle istanze, le istanze AWS M6i eseguono più operazioni di inferenza rispetto alle istanze M5n con processori scalabili Intel Xeon di seconda generazione

Le aziende utilizzano i carichi di lavoro di inferenza di machine learning di linguaggio naturale per una varietà di applicazioni aziendali, come i chatbot che analizzano il testo digitato dai clienti e da altri utenti. Questo tipo di lavoro richiede molti sforzi dalle risorse di elaborazione, rendendo molto importante selezionare istanze cloud ad alte prestazioni.

BERT è un modello di elaborazione del linguaggio naturale (NLP) di scopo generale che abbiamo scelto per misurare le prestazioni di due tipi di istanze di cloud di Amazon Web Services (AWS) EC2. Abbiamo testato due dimensioni delle istanze M6i con processori scalabili Intel Xeon di terza generazione e istanze M5n con processori scalabili Intel Xeon di seconda generazione. Abbiamo scoperto che sia le istanze M6i da 32 vCPU che da 64 vCPU con processori scalabili Intel Xeon di terza generazione superano le loro controparti M5n. In base a questi risultati, le aziende possono offrire un'esperienza più veloce ai loro utenti optando per le istanze M6i.

Istanze M6i con 64 vCPU:

Per confrontare le prestazioni dell'inferenza BERT-Large delle due serie di istanze AWS, abbiamo utilizzato il framework di TensorFlow. Come mostrato nella figura 1, l'istanza di m6i.16xlarge da 64 vCPU con processori scalabili Intel Xeon di terza generazione ha fornito un throughput superiore del 64% rispetto alle istanze m5n.16xlarge con processori scalabili Intel Xeon di seconda generazione.

Figura 1. Le prestazioni dell'inferenza BERT-Large sono raggiunte attraverso un'istanza m6i.16xlarge con processori scalabili Intel Xeon di terza generazione e attraverso un'istanza m5n.16xlarge con processori scalabili Intel Xeon di seconda generazione. I test hanno utilizzato la precisione di INT8, le dimensioni del batch di 1 e la lunghezza della sequenza di 384. Più è alto, meglio è.

Istanze M6i con 32 vCPU

Come mostrato nella figura 2, l'istanza m6i.8xlarge da 32 vCPU con processori scalabili Intel® Xeon® di terza generazione ha fornito un throughput superiore del 40% rispetto all'istanza m5n.8xlarge con processori scalabili Intel Xeon di seconda generazione.

Figura 2. Le prestazioni dell'inferenza BERT-Large sono raggiunte attraverso un'istanza m6i.8xlarge con processori scalabili Intel Xeon di terza generazione e attraverso un'istanza m5n.8xlarge con processori scalabili Intel Xeon di seconda generazione. I test hanno utilizzato la precisione di INT8, le dimensioni del batch di 1 e la lunghezza della sequenza di 384. Più è alto, meglio è.

Conclusioni

Abbiamo testato le prestazioni dell'inferenza di elaborazione del linguaggio naturale di BERT-Large di due serie di istanze AWS: le istanze M6i con processori scalabili Intel Xeon di terza generazione e le istanze M5n con processori scalabili Intel Xeon di seconda generazione. In due dimensioni diverse, le istanze M6i hanno superato le istanze M5n del 64%. Per offrire un'esperienza più veloce ai tuoi clienti e ad altri utenti, eseguire i tuoi carichi di lavoro di inferenza NLP su istanze Amazon M6i con processori scalabili Intel Xeon di terza generazione.

Per saperne di più

Per iniziare a eseguire i carichi di lavoro di inferenza NLP su istanze Amazon M6i con processori scalabili Intel Xeon di terza generazione, visita https://aws.amazon.com/ec2/istanze-types/m6i.

Test di VM singola di Intel del 30/11/2021. Tutte le VM sono configurate con Ubuntu 20.04 LTS, 5.11.0-1022-aws, storage EBS, GCC=8.4.0, Python=3.6.9, tensorflow=2.5.0, Docker=20.10.7, containerd=1.5.5, modello BERT, dimensione di batch 1, lunghezza di sequenza 384, precisione INT8. Dettagli dell'istanza: m6i.8xlarge, 32vcpu, Intel® Xeon® Platinum 8375C CPU @ 2.90GHz, 128 GB totali di memoria DDR4; m5n.8xlarge, 32vcpu, Intel® Xeon® Platinum 8259CL CPU @ 2.50GHz, 128 GB totali di memoria DDR4; m6i.16xlarge, 64vcpu, Intel® Xeon® Platinum 8375C CPU @ 2.90GHz, 256 GB totali di memoria DDR4; m5n.16xlarge, 64vcpu, Intel® Xeon® Platinum 8259CL CPU @ 2.50GHz, 256 GB totali di memori DDR4.