Rechercher

Valeurs des tests orthopédiques


Saviez-vous que le test de Jobe, ou “empty can test”, était un test médiocre pour diagnostiquer une lésion du muscle supra-épineux ? Saviez-vous que le test de Lasègue était encore plus médiocre pour vérifier la présence d’une radiculopathie lombaire ?


Bien que ces deux tests nous aient été enseignés en formation initiale, et le sont encore dans beaucoup d’instituts, ils ont pourtant une utilité vraiment limitée pour inclure la présence ou non d’une potentielle pathologie musculo-squelettique.


Les tests orthopédiques que nous utilisons tous les jours sont importants parce qu’ils font partie de notre raisonnement clinique, processus cognitif essentiel qui nous permet d’élaborer la stratégie la plus pertinente pour aider notre patient. Ils sont nécessaires également pour notre communication avec d’autres praticiens mais aussi avec nos patients.

En pratique, ne serait-ce que pour ces questions : pour moi ou pas pour moi ? Urgence ou pas urgence ? C’est peut-être d’ailleurs le plus important ! Cette question anime des débats passionnants dans le champ musculo-squelettique : une fois une pathologie “grave” (en d’autres termes les drapeaux rouges) écartée, est-il vraiment si important de s’attacher à diagnostiquer absolument, ou n’est-il pas plus pertinent de plutôt pronostiquer afin d’aider au mieux le patient dans sa fonction et sa qualité de vie ?[1]


L’erreur médical est la troisième cause de mortalité aux USA[2] ! Parmi ces erreurs médicales on trouve bien évidemment l’erreur diagnostique. En 2009 Schiff et son équipe publie[3] un rapport où sur 583 erreurs diagnostics rapportées, 28% sont considérées comme majeures, 41% comme modérées et 31% comme mineures. Une part non négligeable de ces erreurs seraient dues à des erreurs d’appréciation du clinicien (32%) lors de son raisonnement clinique, ainsi que lors de l’examen clinique (10%).


Afin d’améliorer notre précision clinique, de diminuer nos biais cognitifs, il est préférable de s’armer de tests ayant de la valeur. Valeur qui aura été donnée grâce à des études de haute qualité méthodologique.



Sensibilité et spécificité


Un test peut être excellent pour inclure une pathologie, mais médiocre pour l’exclure. Ainsi il sera pertinent s'il est positif mais il ne nous donnera que très peu d'informations s’il est négatif. Et inversement.

Il faut ainsi être en capacité de déterminer le volume d’erreur que le test produit sur une population malade (qui a préalablement été diagnostiquée par une référence), le volume d’erreur que le test produit sur une population dite saine. En d'autres termes sur une population malade, combien obtiendra-t-on de faux négatifs, combien de malades vont passer entre les mailles du filet ? C’est la sensibilité du test.

Sur une population non malade, combien obtiendra-t-on de faux positifs, combien de personnes vont obtenir un test positif alors qu’ils sont sains ? C’est la spécificité du test.

Grâce à cela, nous pouvons évaluer les risques générés par un test de produire des faux positifs et/ou des faux négatifs.


Pour obtenir ces valeurs, des études sont effectuées où le test est comparé à un gold standard (le moyen déterminé à l’heure actuelle comme étant le plus fiable pour une pathologie), un standard de référence (défini comme moins fiable) ou des critères de référence (approximatif) dans une population saine ou atteinte. Malheureusement bien que la recherche soit cruciale, elle peut être de mauvaise qualité. Ainsi des publications peuvent annoncer des résultats, mais lorsque la méthodologie est scrutée, des fragilités et des biais peuvent être détectés. Par exemple, selon la nature de la comparaison. Rien que le fait de comparer un geste physique à une imagerie est en soit biaisé. Ou bien la qualité de la référence à laquelle le test est comparé. Mais aussi la taille de l’échantillon etc...

C’est pour cela que des valeurs clinimétriques très éloignées peuvent être retrouvées pour le même test !

Le test d’Apley par exemple pour hypothétiquement évaluer une atteinte méniscale du genou obtient des valeurs égales à 61% de Se et 70% de Sp dans une étude (Hegedus et collaborateurs) mais 16% de Se et 100% de Sp dans une autre (Pookarnjanamoraka et collaborateurs).

Un score a été ainsi mis en place, le QUADAS[4] (Quality Assessment of Diagnostic Accuracy Studies), composé de 14 items et qui évalue la qualité méthodologique d’une étude. Plus le QUADAS se rapproche de 14, plus l’étude est considérée comme de bonne qualité.



Décortiquons ces chiffres et ces notions en revenant à ce fameux Jobe qui obtient des scores assez faibles[5] :


71% de sensibilité : sur 100 personnes ayant une lésion du supra-épineux, seulement 71 personnes sont positives aux tests. 29 faux négatifs ! Si je pratique ce test sur un de mes patients ayant une douleur d’épaule et qui se présente au cabinet, que le test est négatif, il y a 29% de risque que ce soit un faux négatif !


49% de spécificité : sur 100 personnes saines, 49 auront bel et bien un test négatif. Mais il y aura alors 51 personnes ayant un test positif. 51 faux positifs ! C’est à dire que si mon test est positif en cabinet j’ai, de fait, 51% de chance d’être face à une personne saine.

Ce test est-il donc fiable pour mon raisonnement clinique ? Pas vraiment. Il est mauvais pour inclure mais aussi pour exclure cette hypothèse dans mon raisonnement.




Continuons notre exemple avec le test de Lasègue, très aimé des cliniciens, avec les scores clinimétriques les plus “optimistes” [6] :

92% de sensibilité : 8 personnes sur 100 vivants une radiculopathie lombaire seront des faux négatifs, cela peut sembler être assez fiable pour se permettre d’exclure une radiculopathie si le test s’avère négatif puisqu’il y a peu de faux négatifs.



28% spécificité : sur 100 personnes saines, 72 sont susceptibles d’être positifs au test de lasègue. Un nombre considérable de faux positifs. Ainsi si mon test est positif j’ai trop de risque que ce soit un faux positif.



En prenant les données de sensibilité et de spécificité du test de Lasègue, il semblerait que ce soit un bon test pour exclure une radiculopathie lombaire lorsque le test est négatif, mais si mon test est positif ce n’est pas pertinent et cela ne doit pas influencer mon raisonnement clinique.



C’est malheureusement incomplet


Ça ne suffit pas. Sensibilité et spécificité sont indissociables et ne donnent pas beaucoup d'indications séparément puisque comme nous l’avons remarqué, ces valeurs sont des statistiques calculées grâce à une population connue. Saine ou atteinte. Cela s’éloigne alors du réel de la clinique qui nous impose d’être dans l’inconnu lorsque nous sommes face à une personne. Il existe alors des valeurs qui prennent en compte la population globale, saine additionnée à celle atteinte : les ratios de vraisemblances positif (RV+) et négatif (RV-)[7]. Ils sont calculés à partir des valeurs de sensibilité et de spécificité. Le ratio de vraisemblance positif est une valeur s’intéressant au test positif. Il est égal au taux de test positif dans une population atteinte (la sensibilité) sur le taux de tests positifs dans une population saine (1 - Sp).

Soit RV+ = Se/(1-Sp). C’est donc le ratio de vrai positif (VP) dans une population malade sur le nombre de faux positif (FP=1-Sp) dans une population saine. Plus RV+ sera supérieur à 1, plus cela voudra dire que la probabilité d’avoir un faux positif est petite et donc qu’un test positif est un vrai positif, mais cette fois dans une population globale.


Traduisons : Avec ce test Y, un individu bel et bien malade a [RV+] fois plus de chance d’avoir un test positif qu’un individu sain. Un test positif est proportionnellement fiable à hauteur que RV+ est grand.


Le taux de vraisemblance négatif est le taux de tests négatifs dans une population malade (1-Se) sur le taux de tests négatifs chez une population saine.

Soit RV- = (1-Se)/Sp. C’est donc le ratio du nombre de faux négatif (FN) sur le nombre de vrai négatif (VN) dans une population globale. Ainsi, pour un test donné, plus RV- est inférieur à 1, plus cela augmente la probabilité qu’un test négatif soit un vrai négatif.


Traduisons : Avec ce test Y, un individu malade a [RV-] fois de chance d’avoir un test négatif. Ainsi, un test négatif est proportionnellement fiable à hauteur que RV- est petit.



Reprenons nos exemples. Comment s’en sort le test de Jobe ?

RV+ = 1,39 = apport diagnostic faible

RV- = 0,59 = apport diagnostic faible

Pour le test de Lasègue : 1,28 de RV+ et 0,29 de RV-. Un apport cette fois “modéré” en cas de test négatif encore une fois.

Cela veut dire qu’une personne atteinte d’une radiculopathie a 1,28 fois plus de chance de générer un test positif comparé à un individu sain. Le risque de se tromper est grand !


Chad Cook et Eric Hegedus dans leur ouvrage Orthopedic Physical Examination Tests: An Evidence-Based approach évoque que seulement 4% des tests ont une assez bonne clinimétrie pour se suffir à eux même, et 96% ont une utilité à faible pouvoir diagnostic ou légère utilité mais pas assez pour être autonome. Ceci sur plus de 870 tests physiques revus.


On remarque ainsi que peu de tests sont fiables. Afin d’obtenir plus de fiabilité dans nos examens physiques, il a été pensé qu’élaborer des groupements de tests pourrait augmenter leur utilité[8].


Un exemple connu est le cluster de Cook et collaborateurs pour la myélopathie cervicale. Ce cluster regroupe :

- Avoir plus de 45 ans

- Sensation d’instabilité à la marche

- Test d’Hoffmann positif

- Signe du supinateur inversé

- Test de Babinski positif


Si on regarde les valeurs clinimétriques des tests (sauf 2 premiers critères) indépendamment[9] :

- Test d’Hoffmann : Se 44%, Spe 75%, RV+ 1,8, RV- 0,7

- Signe du supinateur inversé : Se 61%, Spe 78%, RV+ 1,5, RV- 0,8

- Test de Babinski : Se 33%, Spe 92%, RV+ 4, RV- 0,7


Si nous nous reportons à nos propos précédents, l’apport diagnostic de ces tests est faible voire nul.


Mais additionné en cluster, si la personne présente 3 critères positifs ou plus, la spécificité passe à 94% avec un RV+ à 30,9, pour un QUADAS à 7[10]. Ainsi, à partir de 3 tests positifs, la personne qui se présente à nous à de forte probabilité de souffrir d’une myélopathie cervicale.


Nous pourrions nous attarder également sur les clusters de Mark Laslett et le diagnostic effectif des douleurs sacro-iliaques, mais je conseille dans ce cas la lecture d’une excellente série d’article de Joshua Lavallée sur le site Kinefact[11].



Conclusion


Pour les thérapeutes manuels qui reçoivent déjà en première intention, mais aussi pour les kinésithérapeutes pour qui cela devrait être très logiquement le cas dans peu de temps, il est nécessaire de pouvoir exclure ce qui ne relève pas de leur ressort. A cet effet, l’intuition et l’expérience ne suffisent pas, bien au contraire, ils peuvent être de vrais biais ! Il faut s’armer d’outils à haute valeur afin de les mettre au service de notre raisonnement clinique. Afin d’aider à l’élaboration et à la hiérarchisation de nos hypothèses.


Nous pourrions d’ailleurs aborder le nomogramme de Fagan ? Vous êtes partant ou c’était déjà assez indigeste ? Bon et bien une prochaine fois peut être !

Mais il n’empêche que pour ce qui est de diagnostiquer précisément la pathologie de la personne qui nous consulte, comme nous l’avons remarqué plus haut, il y a très peu de tests vraiment utiles, précis. Les cliniciens doivent sans doute réfléchir et se familiariser avec la notion d’inconfort diagnostic. Dans le domaine musculo-squelettique, en ce qui concerne les tests orthopédiques, il est hautement probable qu’on ne puisse jamais vraiment trancher. En revanche, ce que nous pouvons savoir c’est ce dont la personne souffre ! Quelles sont les fonctions dont la personne se sent dépossédée ? Quelles sont les actions, les loisirs, les activités que la personne n’arrive plus à exécuter le plus confortablement possible ? “Je n’arrive plus à courir autant que je le faisais avant” n’est-il pas plus important à “diagnostiquer” que l’arthrose du genou ? Connaissant en plus la littérature actuelle sur le sujet, mais aussi toutes les notions de discordance radio-clinique. N’est-il pas plus important de développer nos capacités pronostics pour accompagner au mieux les gens qui font appel à nous, répondre à leur question, et nos capacités prescriptrices afin de leur donner des outils, et/ou connaître les stratégies à suivre ?

La règle du “C-Spine Rule” (voir image[12]) par exemple est une règle prescriptive qui ne nous permet pas de diagnostiquer, mais qui est hautement utile (Se 100%, Sp 42,5%[13]) pour décider de la suite : Imagerie ou pas imagerie ? Les critères d’Ottawa[14] également pour les entorses de cheville. Besoin ou non d’imagerie ? Suspicion de fractures ?

Quelle est véritablement la demande des patients ? Sur une journée de consultation, à la question “En quoi puis-je vous être utile, qu’espérez-vous de moi ?” combien, véritablement, de personnes répondent “Trouvez ce que j’ai !”




[1] Studies of quality and impact in clinical diagnosis and decision-making - Eric J. Hegedus doi : 10.1179/106698110X12640740713012 [2] Medical error—the third leading cause of death in the US BMJ 2016; 353 doi: https://doi.org/10.1136/bmj.i2139 (Published 03 May 2016) Cite this as: BMJ 2016;353:i2139 [3] Schiff GD, Hasan O, Kim S, et al. Diagnostic Error in Medicine: Analysis of 583 Physician-Reported Errors. Arch Intern Med. 2009;169(20):1881–1887. doi:10.1001/archinternmed.2009.333

[4] Whiting, P., Rutjes, A.W., Reitsma, J.B. et al. The development of QUADAS: a tool for the quality assessment of studies of diagnostic accuracy included in systematic reviews. BMC Med Res Methodol 3, 25 (2003). https://doi.org/10.1186/1471-2288-3-25

[5] Hermans J, Luime JJ, Meuffels DE, Reijman M, Simel DL, Bierma-Zeinstra SMA. Does This Patient With Shoulder Pain Have Rotator Cuff Disease? The Rational Clinical Examination Systematic Review. JAMA. 2013;310(8):837–847. doi:10.1001/jama.2013.276187

[6] van der Windt DA, Simons E, Riphagen II, Ammendolia C, Verhagen AP, Laslett M, Devillé W, Deyo RA, Bouter LM, de Vet HC, Aertgeerts B. Physical examination for lumbar radiculopathy due to disc herniation in patients with low-back pain. Cochrane Database Syst Rev. 2010 Feb 17;(2):CD007431. doi: 10.1002/14651858.CD007431.pub2. PMID: 20166095.

[7] Delacour H., François N., Servonnet A., Gentile A., Roche B. Les rapports de vraisemblance : un outil de choix pour l’interprétation des test biologiques. Immunoanalyse et biologie spécialisée (2009) 24, 92-99. doi:10.1016/j.immbio.2009.01.002

[8] Hegedus EJ, Cook C, Lewis J, Wright A, Park JY. Combining orthopedic special tests to improve diagnosis of shoulder pathology. Phys Ther Sport. 2015 May;16(2):87-92. doi: 10.1016/j.ptsp.2014.08.001. Epub 2014 Aug 10. PMID: 25178255.

[9] Cook C, Roman M, Stewart KM, Leithe LG, Isaacs R. Reliability and diagnostic accuracy of clinical special tests for myelopathy in patients seen for cervical dysfunction. J Orthop Sports Phys Ther. 2009 Mar;39(3):172-8. doi: 10.2519/jospt.2009.2938. PMID: 19252263. [10] Cook CE, Wilhelm M, Cook AE, Petrosino C, Isaacs R. Clinical tests for screening and diagnosis of cervical spine myelopathy: a systematic review. J Manipulative Physiol Ther. 2011 Oct;34(8):539-46. doi: 10.1016/j.jmpt.2011.08.008. Epub 2011 Sep 6. PMID: 21899892. [11]http://www.kinefact.com/troubles-musculo-squelettiques/examen-sacro-iliaques-1/

[12] http://www.piriforme.fr/sites/default/files/inline-images/canadian-c-spine.png [13] Stiell IG, Wells GA, Vandemheen KL, Clement CM, Lesiuk H, De Maio VJ, Laupacis A, Schull M, McKnight RD, Verbeek R, Brison R, Cass D, Dreyer J, Eisenhauer MA, Greenberg GH, MacPhail I, Morrison L, Reardon M, Worthington J. The Canadian C-spine rule for radiography in alert and stable trauma patients. JAMA. 2001 Oct 17;286(15):1841-8. doi: 10.1001/jama.286.15.1841. PMID: 11597285. [14] Bachmann LM, Kolb E, Koller MT, Steurer J, ter Riet G. Accuracy of Ottawa ankle rules to exclude fractures of the ankle and mid-foot: systematic review. BMJ. 2003 Feb 22;326(7386):417. doi: 10.1136/bmj.326.7386.417. PMID: 12595378; PMCID: PMC149439.



Liste des Références et supports


Cet article de blog ne prétend pas produire de la connaissance, sa rédaction est permise par la lecture de publications scientifiques, d’articles de blog et d’autres écrits.


Studies of quality and impact in clinical diagnosis and decision-making - Eric J. Hegedus

doi : 10.1179/106698110X12640740713012


Medical error—the third leading cause of death in the US BMJ 2016; 353 doi: https://doi.org/10.1136/bmj.i2139 (Published 03 May 2016) Cite this as: BMJ 2016;353:i2139


Schiff GD, Hasan O, Kim S, et al. Diagnostic Error in Medicine: Analysis of 583 Physician-Reported Errors. Arch Intern Med. 2009;169(20):1881–1887. doi:10.1001/archinternmed.2009.333