web-dev-qa-db-fra.com

Analyse comparative et évaluation de l'utilisabilité - choix d'une approche et d'une échelle de notation

Je mène des activités d'analyse comparative UX et j'essaie de comparer différentes approches, à la fois au niveau de la tâche individuelle et au niveau de l'activité (multitâche, vue d'ensemble). Je ne connais pas bien les subtilités des mathématiques derrière les meilleures pratiques en matière d'échelles de notation et j'apprécierais des conseils ou des perspectives pour décider des échelles de notation. Je combinerai également les avis d'experts avec les commentaires des utilisateurs et je veux être attentif aux méthodes que je choisis.

Mes options: La méthode la plus simple que j’envisage est de 3 niveaux (médiocre/rouge/0, moyen/jaune/1 bon, vert/2), bien sûr. Bien sûr, il y a l'échelle de Likert classique à 5 niveaux (fortement négatif/1, négatif/2, neutre/3, positif/4, fort positif 5). Il existe de nombreux autres systèmes de notation (pouces haut et bas) et 10 systèmes de notation, pour n'en nommer que quelques-uns). Comment pourrais-je procéder pour les comparer? Je sais que divers questionnaires ont différents systèmes de notation, donc il doit y avoir de meilleures pratiques pour en choisir un, je suppose.

Je cherche des références ou des explications sur la façon dont je pourrais penser aux avantages/inconvénients de chacun - échelle de notation - Je vais utiliser différentes échelles à différents points, pour différentes raisons, et je veux être méthodique et avoir un raisonnement pour mes choix. Je sais que c'est de haut niveau/abstrait; Je ne cherche pas de réponses en soi, mais je cherche plutôt un moyen de m'aider à y réfléchir et des critères/concepts que je pourrais utiliser pour le faire. Je voudrais être mieux informé avant de donner à mes collègues quelques idées afin de pouvoir cadrer la conversation efficacement. Pensées?

3
Shlomo Goltz

Ma compréhension consiste à définir d'abord le type de métriques ou d'indicateurs de performance clés que vous souhaitez suivre en fonction duquel vous pouvez décider du type d'échelle. J'aime la façon dont userzoom préconise deux types de KPI qui sont "comportementaux" et "attitudinaux" et attache des échelles en conséquence, vous pouvez les suivre. Dans mon entreprise, nous les appelons/les appelons différemment, mais vous voyez l'idée.

Essayez de comprendre ce que sont les intervalles de confiance, la marge d'erreur.

Un exemple de mesure de comportement par userzoom est la réussite de la tâche: généralement représentée en%. En règle générale, un groupe d'utilisateurs représentatifs reçoit un ensemble de tâches réalistes avec une définition claire du succès de la tâche.

Si 8 utilisateurs sur 10 ont terminé la tâche avec succès et 2 ont échoué, la "réussite de la tâche" serait de 80%. En raison de la petite taille de l'échantillon de 10, la "marge d'erreur" à un niveau de confiance de 90% serait d'environ + -25. Cela signifie que nous sommes convaincus à 90% que le taux de réussite des tâches se situe entre 55% et 100%.

Mais si 80 utilisateurs sur 100 ont terminé la tâche donnée avec succès, le taux de "réussite de la tâche" serait toujours de 80%, mais avec une "marge d'erreur" d'environ 8%. D'une manière générale, cela signifie que nous sommes convaincus à 90% que le taux de réussite des tâches se situe entre 72% et 88%. Plus la taille de l'échantillon est grande, plus la "marge d'erreur" est petite.

Pour Attitudinal

Vous pouvez utiliser n'importe lequel du Net Promotor Score (NPS), de l'échelle d'utilisation du système (SUS), du SUPR-Q (prononcé SuperQ), de la satisfaction client (CSAT) et plus encore. Recherchez-les pour comprendre les mathématiques.

J'espère que cela t'aides. En savoir plus à ce sujet ici> https://www.userzoom.com/user-experience-research/top-ux-measurements-key-performance-indicators-usability-metrics/

1
Saif Mohammed

"Je cherche des références ou des explications sur la façon dont je pourrais penser aux avantages/inconvénients de chacun - échelle de notation - j'utiliserai différentes échelles à différents points"

Vous le savez peut-être déjà, mais cela m'a pris au dépourvu: soyez conscient d'une ride lors de l'analyse de vos résultats en ce sens que si vous ajoutez des étiquettes sémantiques à vos échelles: très bon, bon, neutre, mauvais, très mauvais, etc., beaucoup de gens considèrent alors ces données étant ordinales plutôt qu'intervalles/continues même si vous avez également une échelle numérique attachée (1-5), l'argument étant que la différence entre dire très bon et bon, et bon et neutre, n'est pas la même. Ainsi, différentes méthodes d'analyse sont nécessaires:

http://blog.minitab.com/blog/adventures-in-statistics-2/best-way-to-analyze-likert-item-data%3A-two-sample-t-test-versus- mann-whitney

1
mgraham

SUS pour la convivialité globale du système

Pour la recherche d'utilisation générale, le échelle de convivialité du système fonctionne bien. Il a une longue histoire afin que vous puissiez comparer les normes attendues, même par types de produits généralisés. J'utilise une variation "tout positif", mais les scores résultants sont les mêmes.

Suivi des événements pour les détails

Demander ce que les utilisateurs pensent est amusant et parfois utile, mais rien n'est plus révélateur qu'un comportement réel. Les modèles d'événements tels que l'engagement des fonctionnalités et les taux de réussite des tâches observés dans les scénarios quotidiens réels sont d'or.

Lorsque vous concevez une fonctionnalité, qu'il s'agisse de prototypage ou de production, il doit toujours y avoir une cible de réussite. Posez-vous cette question importante:

Quelles mesures de convivialité sont liées à mes mesures de réussite des fonctionnalités?

Lorsqu'un projet est considéré comme "abouti" et réussi, n'oubliez pas ces mesures. Vous allez créer un catalogue d'indicateurs de santé qui peuvent être mis en œuvre dans un tableau de bord pour une surveillance continue des produits.

Cela pourrait être une position controversée ici…
Si un problème de convivialité n'a pas d'incidence sur vos mesures de réussite, cela n'a pas d'importance.

0
plainclothes