web-dev-qa-db-fra.com

Vos règles de dépannage, approche du dépannage?

Avez-vous des règles générales que vous retombez lorsque vous dépannez un problème de réseau/matériel/matériel/matériel/logiciel difficile?

Par exemple: "J'insolète la source du problème en testant un périphérique avec un deuxième ordinateur" ou "Je supprime autant de matériel que possible pour alimenter le périphérique, puis ajouter des composants d'un par un à un jusqu'à ce que je puisse reproduire le problème ", etc.

22
username

Juste une liste de points que j'ai écrites pour moi après avoir combattu avec un problème pendant un moment:

  1. Quel est votre objectif principal? Devrait être indiqué clairement et aussi concis. L'objectif devrait être très particulier. Ce ne devrait pas être général. De préférence ne phrase.
  2. Quel est votre problème ?
  3. Y a-t-il juste n problème ou plusieurs? S'il y en a beaucoup, résolvez-les une à la fois.
  4. Essayez de reproduire le problème avec différentes conditions. Peut-il être reproduit dans toutes les conditions possibles ou non? Cela dit-il quelque chose sur la nature du problème?
  5. Si c'est un problème urgent, il y a une Solution de contournement? Essayez de trouver autant de solutions de contournement que possible.
  6. Essayez de faire comme de nombreuses suppositions que possible sur quelle est la cause de votre problème.
  7. Essayez de prouver vos suppositions, Expérimentez avec le système.
  8. Soyez conisitent dans ce que vous essayez de faire. Faire une chose à la fois.
  9. Gardez la piste de ce que vous faites, ce que vous avez déjà essayé.
  10. Faire ne pas dévier de votre objectif principal. Vérifiez constamment si vous résolvez toujours votre problème principal, pas un différenquet.
  11. Faire ne pas fixer soit.

Il y avait également une grande liste de règles de débogage, c'était dans un PDF avec des explications et une explication pour chacune des règles. Je ne pouvais pas trouver rapidement le PDF, mais je pense que c'est un Affiche de la liste:

enter image description here

16
axk
  • Si le problème est lié à Internet, c'est probablement le DNS.

  • Si le problème est difficile de diagnostiquer, c'est probablement la RAM.

  • Si le problème est avec un poste de travail Windows, il est probablement plus rapide de le réimposer.

  • Si le problème est un vendredi, c'est probablement quelque chose de grave.

15
Adam

(Ces points forts sont paraphrasés du chapitre "Débogage" de "la pratique de l'administration du système et du réseau" )

Deux choses à savoir:

  1. Sachez à quoi ressemble la version "réparée". de préférence une commande que vous pouvez exécuter qui donne une certaine sortie lorsque les choses fonctionnent. Par exemple: j'essaie de comprendre pourquoi SSH demande un mot de passe lorsque j'ai défini correctement les clés (ou donc je pensais). Donc, mon test est le suivant: "SSH ServerName Uptime" et il devrait fonctionner sans demander à un mot de passe.

  2. Décrivez le problème au niveau droit. Un utilisateur se plaint de ne pas ping qu'un serveur ne doit pas vous désactiver pour exécuter et corriger le serveur. Le travail de la personne n'est pas de s'asseoir autour et de ping une machine toute la journée. Ils veulent obtenir une sorte de tâche faite comme utiliser la machine comme serveur DNS. Exemple: une fois qu'un utilisateur s'est plaint de ne pas pouvoir ping une machine à mi-chemin du monde. Je passe la journée à suivre les Sysadmins dans cette partie de la société pour découvrir ce qui n'allait pas avec cette machine. C'était déclassé et ils étaient dans une panique parce qu'ils pensaient peut-être qu'ils avaient peut-être alimenté la mauvaise machine. J'ai contacté l'utilisateur et j'ai dit "En plus de besoin de ping à cette machine, que voudriez-vous faire avec ça?". Il s'est avéré qu'il voulait courir un travail de certains travaux et s'il suivait la procédure appropriée, ses tâches auraient été automatiquement redirigées vers la machine de remplacement. J'avais perdu toute ma journée et l'époque des Sysadmins locaux. Une autre raison "Je ne peux pas ping" n'est pas la bonne chose à tester: souvent des paquets sont configurés pour déposer des paquets de ping mais permettre à d'autres paquets. Testez ce que vous voulez passer.

Deux stratégies:

  1. Additif: Continuez à ajouter des composants jusqu'à ce que le problème commence. La dernière chose que vous avez ajoutée est le problème. Exemple: les navigateurs Web ne peuvent pas parler à un serveur. Entre le serveur et l'utilisateur est un équilibreur de charge, un pare-feu, un cache et le proxy Web local de l'utilisateur. Essayez d'abord d'envoyer des requêtes directement sur le serveur, puis via le LB sur le serveur, puis via le pare-feu sur le LB sur le serveur, etc., etc. Chaque fois que l'ajout d'un composant.

  2. soustractive: Continuez à supprimer les composants jusqu'à ce que le problème disparaisse. La dernière chose que vous avez supprimée était le problème: Exemple: une machine avec des dizaines de cartes ne démarrera pas. Continuez à enlever les cartes jusqu'à ce que la machine Boots.

Deux bits de chance muet:

  1. Oublie tout ce que j'ai dit. Le problème est dû à la dernière modification apportée sur le système. (Cela fonctionne 99% du temps ... Le problème est que 99% du temps que vous ne le faites pas savoir ce que le dernier changement était réellement)

  2. Lorsque tout le reste échoue, Vérifiez des choses stupides. http://whatexit.org/tal/mywritings/dumb-things-a-check.html Exemple: Un problème fou ne pouvait tout simplement pas être expliqué. Ensuite, nous avons vérifié le fichier de configuration: un utilisateur l'avait modifié en la copiant dans une boîte de fenêtres, en l'étant modifié, puis la copie en arrière. Il avait maintenant un ^ m à la fin de chaque ligne. Nous n'avons jamais remarqué parce que notre éditeur de texte cacha silencieusement ce fait. Malheureusement, le logiciel qui a lu le fichier de configuration a transformé ces ^ ms dans un espace non-rupture qui vissait des tonnes d'autres procédures.

10
TomOnTime

Attitudes que j'essaie de tenir:

  • Confiance absolue qui cause et effet fonctionne et rien n'est magique. Rien ne se passe que c'est vraiment étrange, seulement des choses que je ne comprends pas.
  • Confiance absolue que si je continue à le pousser, je vais le faire résoudre (cela peut impliquer de l'emmener à une personne plus compétente, d'apprentissage, de demander de l'aide, du travail acharné, etc.).
  • Grombement sur la manière dont une configuration, un programme ou un scénario est mal conçue ou vraiment stupide, ne vous aide pas, alors ne le faites pas. (Je trouve ce dur, grommelage est amusant).

Ce sont des attitudes qui sont utiles pour que je garde - ils m'arrêtent de jeter mes bras dans les airs, déclarant quelque chose de "bizarre" puis abandonnant, ou devenir malheureux parce que cela se sent "insoluble".

Façons que je pense sur le dépannage:

  • Les systèmes ont beaucoup de pièces, s'ils sont connectés ensemble ou configurés au hasard, ils ne fonctionnent pas comme souhaité. Il existe une ou deux configurations très spécifiques qui fonctionnent - de toutes les millions de façons de passer des briques et du métal, seuls quelques ponts et seulement un ou deux sont suffisamment bons ponts. La cause pourrait être un caractère dans un fichier texte ou un serveur défaillant, mais chaque partie doit être correcte pour le tout d'être juste. Je dois être prêt à être minutieux et méticuleux si nécessaire. Les systèmes ne peuvent pas faire "Le spectacle doit continuer".
  • Vous commencez avec un système entier comme une carte, vous imaginez un nuage de probabilité de flotter sur la carte représentant "où le problème est" et que votre travail consiste à utiliser l'expérience et à trouver des tests pour pousser la probabilité loin de certaines zones et vers les autres et Pour le condenser à des points qui sont des emplacements de problèmes de probabilité élevés, puis attaquez ceux-ci. Cela revient au point de cause et d'effet - le problème est dans le système, ce n'est pas la magie. C'est un problème qui existe pour qu'il doit exister quelque part.
  • Tout peut être configuré comme tout le monde veut. La seule façon de définir un comportement comme "ok" et un autre comme "un problème" est parce que ce que quelqu'un obtient n'est pas ce qu'ils veulent. Vous devez comprendre ce qu'ils veulent, ce qu'ils deviennent clairement et spécifiquement.

Le processus de dépannage:

  • Quel est le problème. Assurez-vous de voir cela se produisant et peut le reproduire vous-même afin qu'il n'y ait pas de mauvaise communication. Donc, souvent des problèmes ont été parmi plusieurs personnes dans notre Helpdesk au moment où ils me rencontrent toujours personne ne peut m'expliquer ce que le problème est vraiment.
  • C'est une refoulement récursive à nouveau - Divisez et conquérir une recherche binaire - vous proposez un test qui prouvera si le problème est de ce côté du test, de ce côté et de faire le test afin qu'il élimine autant que possible. Répéter jusqu'à résoudre.
  • N'apprenez pas si vous pouvez l'éviter - mieux de verrouiller le compte de base de données et prouvez que le problème se produit toujours lorsque la base de données n'est pas impliquée que de passer des heures à apprendre comment la base de données est utilisée.
  • C'est trop facile de me trouver penser à penser "Je ne sais pas quoi faire ensuite". Notez que cela se produit et revenez à venir avec des tests qui localisent le problème.

Internet ne fonctionne pas? Vérifiez le problème, trouvez que c'est un site Web qu'ils ne peuvent pas arriver. Des tests rapides impliquent leur connexion Internet (travaillant), se chargent-t-il pour moi (NO). Les tests rapides pointent sur le site. En voyant que le problème se produit pour moi, j'ai poussé la probabilité rapidement de leur PC, de leur navigateur, du DNS, du pare-feu de bureau de compte d'utilisateur, etc.

Donc, le site ne charge pas, maintenant quoi? Ce n'est pas encore fixable, alors cherchez des endroits pour sculpter le problème en un plus petit. Est le serveur sur? Est-ce que ça ping? DNS fonctionne-t-il? Oui. La réponse du service sur le port 80? Le service est-il en cours d'exécution? N ° ça commence? Non. Cela donne-t-il des erreurs dans le journal des événements/logfiles? Oui! Qu'est-ce-qu'ils disent?

C'est un dépannage efficace et rapide, car il est consacré sans relâche à réduire la portée du problème. Si j'avais accepté leur rapport selon lequel Internet ne fonctionne pas, je serais mal croisé en pensant à une défaillance de la connexion. Si j'avais accepté ma première observation qu'il ne charge pas pour eux, je perdrais du temps sur leur ordinateur en pensant que c'est faute.

Sculpturez des morceaux de "choses qu'il ne peut pas être" aussi grande que possible.

Comprendre le système. Les connaissances les plus générales sur un système, plus il est facile. Là où j'ai une faible compréhension, les problèmes sont plus intimidants, plus difficiles, plus lents vont et plus susceptibles de se retrouver avec une solution de contournement qu'un correctif ou avec une grande solution lente muette (réinstallation) qu'un petit correctif chirurgical précis.

6

Pratiques générales que je me souviens pendant tout le processus:

  1. Ecrivez tout ce que je fais.
  2. Faire un seul changement à la fois.
  3. Si possible, inverser le changement avant d'essayer un autre sauf si des progrès défini ne sont en cours.

Pendant le dépannage ici définit ma méthodologie de base:

  • Lorsque le système est opérationnel bien, avant qu'il y ait un problème, j'essaie d'apprendre à voir ce que ça fait. Joe Richards explique pourquoi beaucoup mieux que je ne pouvais dans ce court espace .
  • Je commence par la solution la plus simple. Par exemple, aucune connectivité réseau? Vérifiez la couche physique. Je ne peux pas vous dire combien de fois les problèmes de connexion intermittents n'étaient pas un problème de serveur, mais un câble de réseau à moitié ou à celui qui était devenu mauvais.
  • J'essaie de capturer tous les symptômes que je peux voir de toutes les sources probables avant de commencer à modifier.
  • Je gère des tests de diagnostic préliminaires. Par exemple, lorsque je vous ai dit qu'un serveur est en panne, la première chose que je fais est d'utiliser ping et nbtstat (Windows) pour vérifier cela. Le problème pourrait être à l'extrémité lointaine (pour emprunter un ancien contrôle technique de la Force aérienne.
  • Je n'ai pas peur de faire la recherche. Google, support.microsoft.com, evenid.net et sites comme ceux-ci sont votre ami.
  • Je n'ai pas peur de demander de l'aide de la communauté. Pas seulement des sites tels que serverfault.com, mais j'ai un bon assortiment de personnes que je fais confiance et respectez sur Twitter, je reste en contact avec.
  • J'évalue les réponses que je trouve avec ce que je vois. Je ne suppose pas que toute solution est la bonne jusqu'à ce que je puisse faire suffisamment de considérations de la preuve que je vois avec ce qui est rapporté dans la solution.
6
K. Brian Kelley

Généralement, je demande "Qu'est-ce qui a changé cela aurait pu causer ce problème"? La plupart des problèmes sont causés par des modifications apportées à de bonnes configurations connues. Si vous pouvez isoler qui a fait le changement, vous avez généralement votre réponse.

4
PowerApp101

Je pense que c'est une compétence, pas une science. Il y a des moments où vous descendez du mauvais chemin, mais pour la plupart:

  • Avoir une bonne compréhension de base de toutes les technologies associées - réseau, matériel, systèmes d'exploitation, logiciels, développement, etc. - vous aidera à éliminer certains de ces "mauvais chemins"
  • think Basic - Ne sautez pas au scénario le plus compliqué, car c'est dans votre tête, effectuez votre dépannage de base et laissez-le vous conduire.

Une fois, mon patron m'a appelé avec un ingénieur "senior" au téléphone - il me disait qu'il avait n serveur qui ne pouvait pas se connecter et il avait essayé de changer le câble mais toujours pas de joie. Je pouvais entendre des bips en arrière-plan comme un onduleur sur les piles. Je lui ai demandé s'il pouvait voir l'activité sur le commutateur, il a dit non. Je lui ai demandé si le beping venait de l'onduleur, il a dit oui, je lui ai demandé s'il pouvait voir des lumières du tout dans le rack, il a dit non ... regarde au-delà de votre nez - ça aide!

2
CPU_BUSY

Je commence par vérifier l'évident. Existe-t-il un message d'erreur expliquant quel est le problème? Est-ce que tout est connecté correctement? Je n'aime pas gaspiller plusieurs heures de dépannage de quelque chose qui aurait pu être résolu dans quelques minutes. Je pense qu'il est possible d'être trop méthodique. J'ai vu des gens gaspiller une journée entière reproduisant un problème malgré le fait que je leur ai dit précisément quel était le problème. Ce n'est pas ce que je les paye.

Si la réponse n'est pas évidente, alignez quelques suspects et testez ceux-ci en premier. Ce n'est qu'après avoir testé les suspects probables devriez-vous tester les suspects improbables. Ensuite, vous pouvez être aussi scientifique que vous le souhaitez.

1
Scott