In base alle diverse dimensioni delle istanze, le istanze AWS M6i eseguono più operazioni di inferenza rispetto alle istanze M5n con processori scalabili Intel Xeon di seconda generazione
Le aziende utilizzano i carichi di lavoro di inferenza di machine learning di linguaggio naturale per una varietà di applicazioni aziendali, come i chatbot che analizzano il testo digitato dai clienti e da altri utenti. Questo tipo di lavoro richiede molti sforzi dalle risorse di elaborazione, rendendo molto importante selezionare istanze cloud ad alte prestazioni.
BERT è un modello di elaborazione del linguaggio naturale (NLP) di scopo generale che abbiamo scelto per misurare le prestazioni di due tipi di istanze di cloud di Amazon Web Services (AWS) EC2. Abbiamo testato due dimensioni delle istanze M6i con processori scalabili Intel Xeon di terza generazione e istanze M5n con processori scalabili Intel Xeon di seconda generazione. Abbiamo scoperto che sia le istanze M6i da 32 vCPU che da 64 vCPU con processori scalabili Intel Xeon di terza generazione superano le loro controparti M5n. In base a questi risultati, le aziende possono offrire un'esperienza più veloce ai loro utenti optando per le istanze M6i.
Istanze M6i con 64 vCPU:
Per confrontare le prestazioni dell'inferenza BERT-Large delle due serie di istanze AWS, abbiamo utilizzato il framework di TensorFlow. Come mostrato nella figura 1, l'istanza di m6i.16xlarge da 64 vCPU con processori scalabili Intel Xeon di terza generazione ha fornito un throughput superiore del 64% rispetto alle istanze m5n.16xlarge con processori scalabili Intel Xeon di seconda generazione.
Istanze M6i con 32 vCPU
Come mostrato nella figura 2, l'istanza m6i.8xlarge da 32 vCPU con processori scalabili Intel® Xeon® di terza generazione ha fornito un throughput superiore del 40% rispetto all'istanza m5n.8xlarge con processori scalabili Intel Xeon di seconda generazione.
Conclusioni
Abbiamo testato le prestazioni dell'inferenza di elaborazione del linguaggio naturale di BERT-Large di due serie di istanze AWS: le istanze M6i con processori scalabili Intel Xeon di terza generazione e le istanze M5n con processori scalabili Intel Xeon di seconda generazione. In due dimensioni diverse, le istanze M6i hanno superato le istanze M5n del 64%. Per offrire un'esperienza più veloce ai tuoi clienti e ad altri utenti, eseguire i tuoi carichi di lavoro di inferenza NLP su istanze Amazon M6i con processori scalabili Intel Xeon di terza generazione.
Per saperne di più
Per iniziare a eseguire i carichi di lavoro di inferenza NLP su istanze Amazon M6i con processori scalabili Intel Xeon di terza generazione, visita https://aws.amazon.com/ec2/istanze-types/m6i.
Test di VM singola di Intel del 30/11/2021. Tutte le VM sono configurate con Ubuntu 20.04 LTS, 5.11.0-1022-aws, storage EBS, GCC=8.4.0, Python=3.6.9, tensorflow=2.5.0, Docker=20.10.7, containerd=1.5.5, modello BERT, dimensione di batch 1, lunghezza di sequenza 384, precisione INT8. Dettagli dell'istanza: m6i.8xlarge, 32vcpu, Intel® Xeon® Platinum 8375C CPU @ 2.90GHz, 128 GB totali di memoria DDR4; m5n.8xlarge, 32vcpu, Intel® Xeon® Platinum 8259CL CPU @ 2.50GHz, 128 GB totali di memoria DDR4; m6i.16xlarge, 64vcpu, Intel® Xeon® Platinum 8375C CPU @ 2.90GHz, 256 GB totali di memoria DDR4; m5n.16xlarge, 64vcpu, Intel® Xeon® Platinum 8259CL CPU @ 2.50GHz, 256 GB totali di memori DDR4.