Avez-vous des règles générales que vous retombez lorsque vous dépannez un problème de réseau/matériel/matériel/matériel/logiciel difficile?
Par exemple: "J'insolète la source du problème en testant un périphérique avec un deuxième ordinateur" ou "Je supprime autant de matériel que possible pour alimenter le périphérique, puis ajouter des composants d'un par un à un jusqu'à ce que je puisse reproduire le problème ", etc.
Juste une liste de points que j'ai écrites pour moi après avoir combattu avec un problème pendant un moment:
Il y avait également une grande liste de règles de débogage, c'était dans un PDF avec des explications et une explication pour chacune des règles. Je ne pouvais pas trouver rapidement le PDF, mais je pense que c'est un Affiche de la liste:
Si le problème est lié à Internet, c'est probablement le DNS.
Si le problème est difficile de diagnostiquer, c'est probablement la RAM.
Si le problème est avec un poste de travail Windows, il est probablement plus rapide de le réimposer.
Si le problème est un vendredi, c'est probablement quelque chose de grave.
(Ces points forts sont paraphrasés du chapitre "Débogage" de "la pratique de l'administration du système et du réseau" )
Deux choses à savoir:
Sachez à quoi ressemble la version "réparée". de préférence une commande que vous pouvez exécuter qui donne une certaine sortie lorsque les choses fonctionnent. Par exemple: j'essaie de comprendre pourquoi SSH demande un mot de passe lorsque j'ai défini correctement les clés (ou donc je pensais). Donc, mon test est le suivant: "SSH ServerName Uptime" et il devrait fonctionner sans demander à un mot de passe.
Décrivez le problème au niveau droit. Un utilisateur se plaint de ne pas ping qu'un serveur ne doit pas vous désactiver pour exécuter et corriger le serveur. Le travail de la personne n'est pas de s'asseoir autour et de ping une machine toute la journée. Ils veulent obtenir une sorte de tâche faite comme utiliser la machine comme serveur DNS. Exemple: une fois qu'un utilisateur s'est plaint de ne pas pouvoir ping une machine à mi-chemin du monde. Je passe la journée à suivre les Sysadmins dans cette partie de la société pour découvrir ce qui n'allait pas avec cette machine. C'était déclassé et ils étaient dans une panique parce qu'ils pensaient peut-être qu'ils avaient peut-être alimenté la mauvaise machine. J'ai contacté l'utilisateur et j'ai dit "En plus de besoin de ping à cette machine, que voudriez-vous faire avec ça?". Il s'est avéré qu'il voulait courir un travail de certains travaux et s'il suivait la procédure appropriée, ses tâches auraient été automatiquement redirigées vers la machine de remplacement. J'avais perdu toute ma journée et l'époque des Sysadmins locaux. Une autre raison "Je ne peux pas ping" n'est pas la bonne chose à tester: souvent des paquets sont configurés pour déposer des paquets de ping mais permettre à d'autres paquets. Testez ce que vous voulez passer.
Deux stratégies:
Additif: Continuez à ajouter des composants jusqu'à ce que le problème commence. La dernière chose que vous avez ajoutée est le problème. Exemple: les navigateurs Web ne peuvent pas parler à un serveur. Entre le serveur et l'utilisateur est un équilibreur de charge, un pare-feu, un cache et le proxy Web local de l'utilisateur. Essayez d'abord d'envoyer des requêtes directement sur le serveur, puis via le LB sur le serveur, puis via le pare-feu sur le LB sur le serveur, etc., etc. Chaque fois que l'ajout d'un composant.
soustractive: Continuez à supprimer les composants jusqu'à ce que le problème disparaisse. La dernière chose que vous avez supprimée était le problème: Exemple: une machine avec des dizaines de cartes ne démarrera pas. Continuez à enlever les cartes jusqu'à ce que la machine Boots.
Deux bits de chance muet:
Oublie tout ce que j'ai dit. Le problème est dû à la dernière modification apportée sur le système. (Cela fonctionne 99% du temps ... Le problème est que 99% du temps que vous ne le faites pas savoir ce que le dernier changement était réellement)
Lorsque tout le reste échoue, Vérifiez des choses stupides. http://whatexit.org/tal/mywritings/dumb-things-a-check.html Exemple: Un problème fou ne pouvait tout simplement pas être expliqué. Ensuite, nous avons vérifié le fichier de configuration: un utilisateur l'avait modifié en la copiant dans une boîte de fenêtres, en l'étant modifié, puis la copie en arrière. Il avait maintenant un ^ m à la fin de chaque ligne. Nous n'avons jamais remarqué parce que notre éditeur de texte cacha silencieusement ce fait. Malheureusement, le logiciel qui a lu le fichier de configuration a transformé ces ^ ms dans un espace non-rupture qui vissait des tonnes d'autres procédures.
Attitudes que j'essaie de tenir:
Ce sont des attitudes qui sont utiles pour que je garde - ils m'arrêtent de jeter mes bras dans les airs, déclarant quelque chose de "bizarre" puis abandonnant, ou devenir malheureux parce que cela se sent "insoluble".
Façons que je pense sur le dépannage:
Le processus de dépannage:
Internet ne fonctionne pas? Vérifiez le problème, trouvez que c'est un site Web qu'ils ne peuvent pas arriver. Des tests rapides impliquent leur connexion Internet (travaillant), se chargent-t-il pour moi (NO). Les tests rapides pointent sur le site. En voyant que le problème se produit pour moi, j'ai poussé la probabilité rapidement de leur PC, de leur navigateur, du DNS, du pare-feu de bureau de compte d'utilisateur, etc.
Donc, le site ne charge pas, maintenant quoi? Ce n'est pas encore fixable, alors cherchez des endroits pour sculpter le problème en un plus petit. Est le serveur sur? Est-ce que ça ping? DNS fonctionne-t-il? Oui. La réponse du service sur le port 80? Le service est-il en cours d'exécution? N ° ça commence? Non. Cela donne-t-il des erreurs dans le journal des événements/logfiles? Oui! Qu'est-ce-qu'ils disent?
C'est un dépannage efficace et rapide, car il est consacré sans relâche à réduire la portée du problème. Si j'avais accepté leur rapport selon lequel Internet ne fonctionne pas, je serais mal croisé en pensant à une défaillance de la connexion. Si j'avais accepté ma première observation qu'il ne charge pas pour eux, je perdrais du temps sur leur ordinateur en pensant que c'est faute.
Sculpturez des morceaux de "choses qu'il ne peut pas être" aussi grande que possible.
Comprendre le système. Les connaissances les plus générales sur un système, plus il est facile. Là où j'ai une faible compréhension, les problèmes sont plus intimidants, plus difficiles, plus lents vont et plus susceptibles de se retrouver avec une solution de contournement qu'un correctif ou avec une grande solution lente muette (réinstallation) qu'un petit correctif chirurgical précis.
Pratiques générales que je me souviens pendant tout le processus:
Pendant le dépannage ici définit ma méthodologie de base:
Généralement, je demande "Qu'est-ce qui a changé cela aurait pu causer ce problème"? La plupart des problèmes sont causés par des modifications apportées à de bonnes configurations connues. Si vous pouvez isoler qui a fait le changement, vous avez généralement votre réponse.
Je pense que c'est une compétence, pas une science. Il y a des moments où vous descendez du mauvais chemin, mais pour la plupart:
Une fois, mon patron m'a appelé avec un ingénieur "senior" au téléphone - il me disait qu'il avait n serveur qui ne pouvait pas se connecter et il avait essayé de changer le câble mais toujours pas de joie. Je pouvais entendre des bips en arrière-plan comme un onduleur sur les piles. Je lui ai demandé s'il pouvait voir l'activité sur le commutateur, il a dit non. Je lui ai demandé si le beping venait de l'onduleur, il a dit oui, je lui ai demandé s'il pouvait voir des lumières du tout dans le rack, il a dit non ... regarde au-delà de votre nez - ça aide!
Je commence par vérifier l'évident. Existe-t-il un message d'erreur expliquant quel est le problème? Est-ce que tout est connecté correctement? Je n'aime pas gaspiller plusieurs heures de dépannage de quelque chose qui aurait pu être résolu dans quelques minutes. Je pense qu'il est possible d'être trop méthodique. J'ai vu des gens gaspiller une journée entière reproduisant un problème malgré le fait que je leur ai dit précisément quel était le problème. Ce n'est pas ce que je les paye.
Si la réponse n'est pas évidente, alignez quelques suspects et testez ceux-ci en premier. Ce n'est qu'après avoir testé les suspects probables devriez-vous tester les suspects improbables. Ensuite, vous pouvez être aussi scientifique que vous le souhaitez.