Un guide de validation transculturelle des instruments
de mesure en santé mentale

Jean Caron Ph.D.
Professeur au Département des sciences du comportement
Université du Québec en Abitibi-Témiscamingue
Professeur invité au Centre de recherche de l'Hôpital Douglas
Université McGill

La validation transculturelle d’un instrument d’évaluation est un processus complexe qui nécessite un investissement important en ressources temporelles et financières. Il apparaît difficile de réaliser cet exercice en moins d'une année. Avant de s'aventurer dans ce processus, il est important de s'assurer qu'il n'existe pas d'instrument équivalent en langue française ou un instrument équivalent traduit et validé. Dans le cas contraire, il est primordial que le chercheur fasse une recension exhaustive des instruments pertinents pour son étude afin de sélectionner celui qui a traversé les étapes de validation les plus rigoureuses, dans sa langue d'origine. En effet, la validation transculturelle effectuée selon les règles de l'art ne peut généralement produire une version plus valide et fidèle que la version originelle. Certes, ce processus permet souvent d'améliorer certains aspects de la version d'origine ou de lui faire franchir certaines étapes de validation non encore complétées, mais il ne peut compenser des manques flagrants de validité de contenu, de construit et de fidélité. De plus, dans la plupart des cas, l'utilité d'un instrument d'évaluation est sa capacité de détecter des différences entre des individus, des groupes particuliers ou suite à des changements induits par un traitement, un programme ou par des modifications environnementales. On réfère ici à la spécificité et à la sensibilité de l'instrument. Ces qualités d'un instrument doivent également être prises en compte dans la sélection d'un instrument.

La validation transculturelle d'un instrument implique trois grandes étapes : 1) la traduction et la vérification de son équivalence; 2) la vérification empirique de la validité de la version traduite; 3) l'adaptation des scores au contexte culturel et le développement de normes. Chacune d’entre elles comporte également des étapes nécessaires à la réalisation d’une version valide, et plusieurs options s’offrent au chercheur avec leurs avantages et inconvénients. Le texte qui suit décrit ces étapes, et le lecteur intéressé à valider des instruments en langue française trouvera également en référence des articles spécialisés sur ce thème.

La traduction et la vérification de son équivalence

La processus de traduction doit assurer qu'un instrument conserve une équivalence inférentielle (Haccoun, 1987); c'est-à-dire qu'il soit possible de produire les mêmes inférences à partir de la version traduite qu'avec l'instrument originel. La correspondance entre les mots (équivalence sémantique) est difficilement réalisable d'une culture à l'autre compte tenu du vocabulaire et de la grammaire propre à chaque langue. Certaines expressions traduites littéralement n'ont pas de sens dans une autre culture et des expressions propres à la culture ciblée et conservant le sens des items doivent être trouvées (équivalence des expressions). Certaines situations qui sont évoquées dans la culture de l'instrument d'origine peuvent ne pas correspondre à la réalité dans une autre culture, ces items devront être remplacés par d'autres situations appropriées à cette culture tout en préservant l'objectif et le sens visé par ces items (équivalence expérientielle). Enfin, le même exercice doit être appliqué pour certains concepts, qui traduits littéralement, ne permettent pas la même représentation d'une culture à l'autre (équivalence conceptuelle). Le lecteur est invité à consulter Guillemin, Bombardier et Beaton (1993) pour un approfondissement de ces concepts d'équivalence.

Préparation d’une version préliminaire

La traduction traditionnelle. Elle consiste simplement en la traduction par un chercheur bilingue ou un traducteur professionnel de l’instrument originel. Cette méthode, utilisée seule, n’est pas recommandable, car elle introduit trop de biais, particulièrement celui de l’interprétation du chercheur ou du traducteur. Cette difficulté peut être contournée en réalisant plusieurs traductions parallèles par différents traducteurs ou chercheurs bilingues, mais les méthodes suivantes sont plus recommandables.

La méthode de traduction par comité d’experts implique la participation à la traduction de plusieurs personnes bilingues qui connaissent le domaine auquel l’instrument est destiné, ce qui limite également les biais d’un seul chercheur. Ce comité peut se pencher sur une première version traduite ou participer à l’élaboration d’une première version. Il est souhaitable que ce comité inclut un traducteur professionnel ou un linguiste qui permettra d’assurer la rédaction des items dans une forme linguistique correcte. Dans des conditions idéales, si l’auteur de la version originelle y participe, cela permet de clarifier certaines ambiguïtés que le processus de traduction génère.

La rétro-traduction («back-translation») implique que lorsqu’une première version traduite de l’instrument a été réalisée, elle est retraduite par une seconde personne dans sa langue originale. L’écart entre la version originelle et la version retraduite permet d’identifier les items problématiques. Cette méthode peut être encore plus sophistiquée en réalisant de façon parallèle deux rétro-traductions impliquant alors quatre personnes. Cette méthode peut être considérée idéale; plusieurs chercheurs l’ayant utilisée constatent toutefois qu’il est bien difficile d’obtenir une équivalence parfaite entre la version retraduite et la version d’origine.

L’évaluation de la version préliminaire

Le comité d’experts. Quelle que soit la méthode retenue pour la production d’une ou de versions préliminaires, il apparaît important que plusieurs personnes (5-10) posent un regard critique sur la traduction. Il permet de vérifier si les items de la version originelle sont adaptés dans la culture ciblée. De plus, si certains items problématiques apparaissent suite à diverses traductions ou rétro-traductions, le comité peut alors être utilisé pour en arriver à déterminer la traduction qui apparaît la plus pertinente.

Le comité de personnes ciblées par l’instrument (N=5-10). Lorsqu’une version préliminaire a traversé les épreuves précédentes, bien qu’elle puisse apparaître avoir conservé une équivalence suite à la traduction, il est important que les items soient compréhensibles pour les personnes auxquelles elle est destinée. Il est donc utile de la soumettre à un comité représentatif de ces personnes afin d’obtenir une rétroaction de leur part. Ils peuvent faire des suggestions et se prononcer sur des formulations différentes de certains items.

Le pré-test auprès d’une population cible (N=20) par interview. Il s’agit d’une autre méthode qui permet de vérifier la clarté des items et s’ils sont énoncés dans un langage accessible pour la population visée.

La vérification empirique de la validité de la version traduite

Pour qu'un instrument soit valide, il doit rencontrer des critères de validité de contenu, de validité concomitante, de validité de construit, et il doit également présenter des aspects qui assurent sa fidélité. Nous allons, dans les lignes qui suivent, présenter ces concepts et indiquer les procédures appropriées afin de vérifier la validité des instruments traduits.

La validité de contenu. Cet aspect de la validité s’apprécie par un jugement subjectif d’experts qui considèrent que les items de l’instrument semblent mesurer les aspects qu’il prétend mesurer.

La validité concomitante. Ce type de validité est obtenu lorsqu’un nouvel instrument est fortement corrélé avec un autre instrument qui mesure le ou les mêmes concepts.

Lorsque la version traduite corrèle fortement avec la version originale, elle est réputée avoir gardé sa validité de contenu et sa validité concomitante. Cet exercice suppose que la version originale et la version traduite soient administrées à des sujets bilingues et que l’on mesure leur degré de corrélation. Il faut toutefois s’assurer que les sujets sont effectivement bilingues (voir : Vallerand, 1989) Plusieurs procédures et techniques existent pour vérifier la validité de contenu et la validité concomitante.

Procédure de Prince et Monbour (voir : Haccoun,1987). Il s’agit de vérifier l’équivalence en administrant de façon contrebalancée à deux groupes, la moitié de l’instrument dans la langue de traduction et l’autre moitié dans la langue originelle. Par la suite, l’équivalence est établie en comparant la fréquence des réponses et des scores globaux des deux groupes, en examinant les corrélations et en comparant les consistances internes. Cette méthode qui est très utilisée présente toutefois des problèmes qui mettent en cause sa validité.

Technique par analyse d’énoncés (voir : Haccoun,1987). L’équivalence est vérifiée par l’administration de l’instrument dans les deux langues à un groupe unique de sujets bilingues. Par la suite, les fréquences des réponses à chaque item sont transformées et analysées statistiquement. Il faut ensuite comparer les courbes mathématiques obtenues pour chaque énoncé afin d’en vérifier l’équivalence. Il s’agit d’une méthode très sophistiquée et très efficace qui présente toutefois l’inconvénient de nécessiter des connaissances mathématiques avancées.

La technique par groupe unique (Haccoun ,1987). L’équivalence est vérifiée en administrant, à deux reprises, à un seul groupe de sujets bilingues les deux versions de l’instrument avec un intervalle de temps entre les deux administrations. L’administration est contrebalancée. Au temps 1, la moitié du groupe complète en premier lieu la version originelle, suivie de la version traduite, et au temps 2, la procédure est inversée. Par la suite, les multiples corrélations entre les deux versions sont examinées. Cette méthode est avantageuse, car elle permet du même coup de vérifier l’équivalence de la traduction et la stabilité temporelle de l’instrument dans les deux langues. Des tests-t peuvent également être utilisés pour vérifier l’équivalence de chacun des items. Il s’agit d’une technique statistique plus robuste que les corrélations (Vallerand, 1989).

La fidélité de la mesure est essentielle afin d’assurer la validité d’un instrument. Ce concept réfère à la consistance interne de l’instrument et à sa stabilité temporelle.

La stabilité temporelle de l’instrument. On s’attend d’un instrument fiable qu’il mesure le même phénomène avec la même précision d’une fois à l’autre. Si les conditions n’ont pas changé, l’instrument devrait produire les mêmes résultats suite à une période de temps. La stabilité temporelle d’un instrument s’établit donc par le degré de corrélation qui existe entre les réponses qu’ont données les mêmes sujets suite à la passation du même instrument à des temps différents. Une corrélation supérieure à 0,60 est habituellement souhaitable. L’intervalle de temps dépend de ce que l’on mesure. En effet, plus les éléments mesurés sont sensibles à des conditions qui risquent d’affecter les réponses, plus court doit être l’intervalle. Habituellement, un intervalle d'un mois apparaît approprié.

La consistance interne de l’instrument. En principe, lorsque le chercheur veut mesurer un phénomène il présentera plusieurs items pour l’appréhender. Même si ces items tentent de mesurer différents aspects du concept, ils devraient en principe être reliés. Afin de mesurer le degré de consistance interne d’un instrument, l’outil statistique recommandé est l’alpha de Cronbach. La valeur de cet alpha peut varier de 0 à 1. Cette valeur est affectée par le nombre d’items de l’instrument et le nombre de répondants. Plus ces deux paramètres sont élevés, plus l’exigence pour la valeur de l’alpha est élevée. Des valeurs entre 0,70 et 0,95 sont habituellement raisonnables lorsque l’échelle ou la sous-échelle a plus de 5 items. Un alpha trop élevé (0,90) peut indiquer une redondance de certains items. Pour apprécier la valeur de l'alpha pour des échelles de moins de 5 items, le lecteur est invité à consulter Gulliksen (1950).

La validité de construit. Lorsqu'un instrument est élaboré, il repose sur la sélection d'items propres à mesurer des aspects d'une personne ou d'une situation qui devraient être cohérents avec les connaissances théoriques ou la théorie sous-jacente au phénomène sous étude. Par ailleurs, il se peut qu'un phénomène se présente différemment d'une culture à l'autre et que l'instrument original traduit, bien que possédant une validité apparente de contenu et une validité concomitante, ne permette pas de mesurer adéquatement le phénomène dans la culture ciblée. Il est donc important de vérifier si l'instrument traduit garde la structure du construit, de même que les relations entre les différentes composantes du construit et, enfin, les conséquences du construit.
La structure du construit. Elle se vérifie par des analyses factorielles. En effet, si un instrument propose de mesurer un phénomène qui théoriquement possède trois dimensions, l'analyse factorielle devrait permettre de retrouver trois facteurs, et les items destinés à mesurer chacune des dimensions devraient en principe se grouper sur les facteurs correspondants. Il s'agit donc dans ce type d'analyse exploratoire de vérifier si la structure factorielle correspond à celle de l'instrument original (voir : Stevens, 1992). Une technique plus sophistiquée consiste à produire une analyse confirmative de type LISREL. Cette analyse permet de vérifier statistiquement si la forme traduite correspond à la version originelle. Elle présuppose toutefois que la validité de construit a déjà été vérifiée dans la version d'origine et que le chercheur puisse avoir accès aux analyses factorielles de l'instrument original.
Les relations entre les composantes du construit. Lorsqu'un instrument propose de mesurer différentes dimensions d'un phénomène, il est important de vérifier les relations (corrélations) qui existent entre les facteurs et de les comparer à celles obtenues avec la version d'origine. Cet exercice permet d'ajouter de la crédibilité à la validité de construit de l'instrument. Ainsi, si un instrument sur le soutien social postule plusieurs dimensions au soutien, en principe le fait de trouver des corrélations plus élevées entre chacun des facteurs et le score global qu'entre les différents facteurs contribue à renforcer la théorie sous-jacente.
Les conséquences du construit. Il s'agit de vérifier avec la version traduite si les hypothèses théoriques postulées par l'instrument se vérifient empiriquement. Par exemple, s'il est postulé que la qualité de soutien social devrait accroître la qualité de vie, alors des corrélations positives devraient être obtenues entre les deux instruments. Il est préférable de reproduire des études déjà réalisées avec l'instrument originel et de comparer alors les résultats avec l'instrument traduit. Le constat de la cohérence des résultats avec les hypothèses lors d'études nouvelles avec l'instrument traduit contribue également à la validation de construit.

Les lecteurs intéressés à approfondir les concepts de cette section sont invités à consulter Vallerand (1989).

L'adaptation des scores au contexte culturel et le développement de normes

Lorsqu'un instrument est élaboré dans une culture donnée, des normes sont habituellement développées pour permettre de situer un pointage individuel ou la moyenne d'un groupe par rapport à un ensemble de références plus larges. Il est possible que dans la culture pour laquelle l'instrument est traduit, le même phénomène apparaisse avec une intensité, une amplitude ou une fréquence différente. Il est donc important de comparer la distribution des pointages générés par la version traduite avec celle de l'instrument originel. Parmi les indicateurs de base, la moyenne et l'écart-type permettent d'apprécier la variabilité de la mesure. Il est important de vérifier ces indicateurs pour les hommes et les femmes. Des différences importantes dans les moyennes et dans les écarts-types avec la version originelle pourraient signifier : 1- que l'échantillon retenu pose problème, 2- que le phénomène étudié dans la culture cible présente des particularités. Une distribution très différente pourrait suggérer que l'instrument n'est peut-être pas approprié à la culture. Lorsque les différences sont acceptables, il devient important de développer des normes pour la culture cible. Ces normes devraient inclure la moyenne, l'écart-type, les rangs percentilles et les scores Z ou les scores T. Ces derniers permettent de situer les individus sur une échelle d'intervalle. Le choix de la population pour développer des normes dépend de l'objectif de l'instrument. Si l'instrument s'adresse principalement à des personnes présentant des problèmes de santé mentale, l'échantillon choisi devrait refléter cette préoccupation.

Références

Bullinger, M., Anderson,D., Cella, D., Aaronson, N. (1993). Developping and evaluating cross-cultural instruments for minimal requirements to optimal models. Quality of Life Research, 2, 451-459.

Flaherty, J.A., Gavira, M.F., Pathak,D., Mitchell,T., Wintrob, R., Richman, J., Birz, S.(1988). Developping instruments for cross-cultural psychiatric research. Journal of Nervous and Mental Disease, 176 (5) 257-263.

Guillemin,F., Bonbardier,C., Beaton, D. (1993). Cross-cultural adaptation of health-related quality of life measures : litterature review and proposed guidelines. Journal of Clinical Epidemiology, 46 (120), 1417-1432.

Gulliksen, H. (1950). Theory of mental test. NewYork : John Wiley.

Haccoun, R.R. (1987). Une nouvelle technique de vérification de l'équivalence de mesures Psychologiques traduites. Revue québécoise de psychologie, 8 (3), 30-39.

Hunt, S.M., Alonso,J., Bucqet, D., Niero, M., Wiklund, I., McKenna, S. (1991). Cross-cultural adaptation of health mesures. Health Policy, 19, 33-44.

Stevens, J. (1992) Applied multivariate statistics for the social sciences. Hillsdale : Lawrence Erlbraum Associates, Publishers

Vallerand, R.J. (1989). Vers une méthodologie de validation transculturelle de questionnaires psychologiques : implications pour la recherche en langue française. Psychologie Canadienne, 30 (4), 662-689.

Un guide de validation transculturelle des instruments de mesure en santé mentale

Un guide de validation transculturelle des instruments
de mesure en santé mentale