Intel® Data Center Diagnostic Tool per processori Intel® Xeon®

Documentazione

Manutenzione e prestazioni

000058107

18/11/2021

Introduzione

Il Intel® Data Center Diagnostic Tool è uno strumento software di diagnostica che può essere eseguito sulle piattaforme dei data center per:

  • Verificare la funzionalità di tutti i core all'interno di un processore Intel® Xeon®.
  • Essere utilizzato come parte di un programma regolare di manutenzione del sistema.

L'elevata affidabilità e disponibilità nei data center richiedono gli strumenti giusti e l'impegno per la manutenzione. Intel ritiene che sia una buona pratica del settore utilizzare strumenti di manutenzione come questi sia per l'implementazione iniziale che per i test periodici per garantire la migliore esperienza di sistema.

    Nota
    • La moderna infrastruttura di elaborazione offre una domanda sempre crescente di potenza di elaborazione combinata con le aspettative aziendali per la qualità del servizio e l'elevata disponibilità (e garanzie sugli accordi a livello di servizio [SLA] in generale). Queste aspettative sottolineano la necessità di potenti strumenti software che possano contribuire a prevedere, identificare e ridurre al minimo i guasti imprevisti del sistema che potrebbero compromettere la qualità del servizio o i tempi di attività. Leggete un articolo di IDC che copre la necessità di strumenti diagnostici, tra cui il Intel® Data Center Diagnostic Tool.

    Requisiti di sistema

    Il Intel Data Center Diagnostic Tool è un'applicazione Linux* che può essere installata ed eseguita su molte distribuzioni Linux correnti. Non esiste una versione Windows* di questo strumento.

    Per una copertura ottimale, eseguire l'applicazione nel sistema radice di un server. È possibile eseguirlo all'interno di un contenitore o di una macchina virtuale, ma tenere presente che alcune funzionalità potrebbero essere disabilitate.

    Processori supportati:

    • Processori scalabili Intel® Xeon® di terza generazione (in precedenza Ice Lake e Cooper Lake)
    • Processori scalabili Intel® Xeon® di seconda generazione (in precedenza Cascade Lake)
    • Processori scalabili Intel® Xeon® di prima generazione (in precedenza Skylake)
    • famiglia di processori Intel® Xeon® E5 v4 (in precedenza Broadwell)
    • famiglia di processori Intel® Xeon® E7 v4 (in precedenza Broadwell)
    Nota
    • Per gli sviluppatori: Intel ha avviato l'Open Data Center Diagnostic Project, che apre il framework intel® Data Center Diagnostic e fornisce test selezionati. Ciò offre agli sviluppatori un framework di sviluppo dei test coerente che invita la creatività della comunità Open Source a migliorare la gestione della flotta cloud attraverso lo sviluppo di schermi di test unici e altre soluzioni innovative. Per ulteriori informazioni e accesso a questo framework e test

    Installazione

    Note
    • Ulteriori dettagli sono disponibili nel file /usr/share/doc/dcdiag/README.rst incluso nell'installazione.
    • Si consiglia di utilizzare i passaggi nelle sezioni seguenti per collegarsi al repository, in modo da ottenere la versione più recente del Intel® Data Center Diagnostic Tool. Tuttavia, se è necessario un binario scaricabile, utilizzare un file RPM o un file DEB.

     

    Debian*/Ubuntu*

    Per installare i pacchetti software Intel® Data Center Diagnostic Tool sulle distribuzioni basate su Debian*, aggiungere il repository dei pacchetti Intel software e installare i pacchetti appropriati.

    Prima di copiare+incollare sulla console, è possibile eseguire sudo ls e immettere la password per evitare che i comandi vengano utilizzati dal prompt della password sudo:

    Impostare la chiave per verificare le firme del pacchetto

    curl https://repositories.intel.com/dcdt/dcdiag.pub | sudo apt-key add -

    Configurare il repository

    sudo apt-add-repository 'deb https://repositories.intel.com/dcdt/debian stable main'

    Installare il pacchetto

    sudo apt-get update
    sudo apt-get install dcdiag

    Fedora*/CentOS*/RHEL*

    Per installare i pacchetti software Intel Data Center Diagnostic Tool su una distribuzione basata su Fedora, aggiungere il repository dei pacchetti Intel software e installare il pacchetto.

    La prima volta che si installa, YUM o DNF richiederà di accettare la chiave di firma. Verificare che l'impronta digitale sia la seguente e quindi accettarla:
    Userid: "CN=Release Key"
    Fingerprint: 6226 CA48 AAB6 0900 2093 C7C4 0A04 4B42 CF00 5B79

    Prima di copiare+incollare sulla console, è possibile eseguire sudo ls e immettere la password per evitare che i comandi vengano utilizzati dal prompt della password sudo:

    Installare il file del repository

    sudo yum install https://repositories.intel.com/dcdt/dcdiag-repo.rpm

    Installare il pacchetto

    sudo yum install dcdiag

    OpenSUSE*/SUSE Linux Enterprise*:

    Installare il file del repository

    sudo zypper ar https://repositories.intel.com/dcdt/dcdiag.repo

    Installare il pacchetto

    sudo zypper install dcdiag

    Verrà avvisato che respond.xml non è firmato. Rispondere sì per continuare. Ti verrà data un'altra possibilità di verificare la firma del pacchetto. Verificare che l'impronta digitale sia la seguente e quindi accettarla:

    Repository: dcdiag
    Key Name: CN=Release Key
    Key Fingerprint: 6226CA48 AAB60900 2093C7C4 0A044B42 CF005B79
    Key Created: Tue 24 Nov 2020 01:47:38 PM PST
    Key Expires: Sat 25 Nov 2023 01:47:38 PM PST
    Rpm Name: gpg-pubkey-cf005b79-5fbd7f7a

     

    Come testare il processore Intel Xeon

    Una volta installato, il Intel Data Center Diagnostic Tool viene attivato automaticamente per l'esecuzione in background. È possibile verificare che ciò sia riuscito con il seguente comando:

    # systemctl status dcdiag
    ● dcdiag.service - Intel® Data Center Diagnostic Tool
    Loaded: loaded (/usr/lib/systemd/system/dcdiag.service; enabled; vendor preset: disabled)
    Active: active (running) since Fri 2021-02-19 11:24:17 MST; 4 days ago
    Docs: file:///usr/share/doc/dcdiag/README.rst
    Main PID: 8777 (dcdiag)
    CGroup: /system.slice/dcdiag.service
    └─8777 /usr/bin/dcdiag --service

    Se vengono rilevati errori, lo strumento li registrerà nel registro di sistema. Lo strumento può anche interrogare se sono stati rilevati errori nella scansione in background utilizzando l'argomento --query.

    # dcdiag --query
    Intel® Data Center Diagnostic Tool Version 506
    Test completed successfully. No issues detected.

    Questo strumento può anche essere eseguito manualmente in primo piano eseguendo al prompt dei comandi linux:

    # dcdiag

    Il test manuale viene eseguito per circa 45 minuti e ha un elevato utilizzo della CPU.

    Al termine della diagnostica, il sistema restituisce uno dei seguenti messaggi:

    • Test completato correttamente. Nessun problema rilevato.
       
    • Test completato correttamente. Si sono verificati uno o più errori di controllo del computer. Controllare i registri di sistema.
       
    • Questo processore non è supportato da questa versione dello strumento.

      Controllare il modello e la versione del processore del sistema. Questo messaggio viene visualizzato se il Intel Data Center Diagnostic Tool non rileva una versione di produzione dei processori supportati. Gli esempi di progettazione non sono supportati da questo strumento.

      Trovare assistenza nell'identificazione del processore.
       
    • Test completato. I risultati sono inconcludenti a causa di una versione obsoleta del microcodice.

      La versione più recente del microcodice risolve i problemi noti. Aggiornare. Gli aggiornamenti del microcodice vengono generalmente forniti dal fornitore della distribuzione Linux insieme a correzioni di sicurezza e altri aggiornamenti del firmware per vari componenti. Se il sistema non ha questi aggiornamenti abilitati, si consiglia di attivarli. Il microcodice viene caricato automaticamente dal kernel Linux su ogni avvio e può essere ricaricato in fase di esecuzione con il seguente comando come root:

      echo 1 > /sys/devices/system/cpu/microcode
       
    • Test completato. I risultati sono inconcludenti a causa del superamento dei limiti di temperatura del sistema

      Ciò potrebbe essere dovuto a una varietà di problemi con il sistema che non fornisce un raffreddamento sufficiente per consentire alla CPU di funzionare entro i limiti di temperatura richiesti. Si consiglia di controllare il sistema per assicurarsi che il raffreddamento richiesto funzioni correttamente. Ciò può includere ventole difettose, flusso d'aria errato o altri problemi ambientali.
       
    • Test completato. I risultati sono inconcludenti, si sono verificati uno o più errori di controllo del computer.

      Controllare i registri di sistema.
       
    • Test non riuscito. Contattare il produttore del sistema o il fornitore del processore per ricevere supporto.

      Se i risultati dei test mostrano un errore, controllare se i processori del nodo server sono ancora in garanzia:

      • Se si dispone di un processore Intel® Xeon® "in box" ancora in garanzia di 3 anni, contattare il Supporto Clienti Intel per assistenza.
      • Se si dispone di un processore in tray, contattare il fornitore del sistema o del processore o il luogo di acquisto per verificare se il processore è ancora in garanzia.
        NotaI processori in tray vengono venduti direttamente ai produttori di sistemi o ai distributori autorizzati Intel. Intel non fornisce garanzia diretta agli utenti finali per i processori in tray, a meno che non siano stati preinstallati nei sistemi server Intel® Data Center Block (Intel® DCB). Ad eccezione dei sistemi Intel DCB, la garanzia del processore in tray è del fornitore o del luogo di acquisto del processore o del sistema se il processore è stato preinstallato. Intel consiglia l'acquisto da distributori autorizzati Intel, fornitori approvati Intel e rivenditori di prodotti Intel®.
      • Tenere presente che Intel non ha un programma di sostituzione fuori garanzia.
         
    • Test non riuscito.

      Test completato ed è stato rilevato un errore sul processore fisico contenente /sys/devices/system/cpu/cpuXX.

      Contattare il produttore del sistema o il fornitore del processore per ricevere supporto.

    • Test non riuscito.

      Il test non è in grado di determinare quale processore fisico ha causato il guasto.

      Contattare il produttore del sistema o il fornitore del processore per ricevere supporto.
       

    Cronologia delle versioni

    DataVersioneDescrizione
    7 luglio 2021540Versione iniziale