MyPEBS le scandale

Ou comment relancer le dépistage du cancer du sein pour des raisons peu avouables alors qu’il est en train de mourir

Par Dr Alain RAUSS, médecin biostatisticien pharmaco-épidémiologiste, 10 décembre 2019

Protocole complet MyPebs

Un titre comme celui-ci peut sembler fort et nécessite assurément une explication.

 

Aujourd'hui, quand on parle du dépistage du cancer du sein, il est impossible de nier des résultats qui se complètent chaque jour où il ressort que, finalement, ce dépistage, pour un résultat hypothétique ou au mieux très minime, présente en contrepartie des inconvénients importants qui ont progressivement amené la communauté scientifique à se détourner de cette pratique. Même s'il peut exister des discussions, on voit bien qu'il existe des raisons peu avouables, indépendantes de la santé des femmes, pour maintenir à tout prix le dépistage.

Le scandale, dans lequel des médecins ne sortiront pas grandis, se trouve dans le fait qu'il était possible d'éteindre presque définitivement les débats. En effet, en utilisant les fonds envisagés pour la réalisation de MyPEBS dans une étude randomisée, à grande échelle, comparant dans un bras le dépistage à un bras SANS dépistage le débat aurait été clos rapidement. Or les auteurs de l'étude, qui ont tout à perdre (économiquement il faut le dire) à montrer que le dépistage ne sert à rien et est même dangereux, ont décidé de réaliser une étude randomisée avec 2 bras dépistage ce qui ne permettra que de conclure sur la différence éventuelle entre 2 formes de dépistage. Dans le contexte actuel, il est simplissime de se rendre compte que le choix d'une telle étude n'est là QUE pour promouvoir le dépistage, sous une forme ou sous une autre mais bien promouvoir le dépistage ; c'est là que se trouve le scandale. En effet, en décidant de mettre en place une étude comparant le dépistage actuel avec un dépistage soit disant "sélectif" dans un essai de non infériorité on ne pourra que conclure, si la non infériorité est établie, que le dépistage sélectif n'est pas inférieur au dépistage actuel et que les deux approches de dépistage sont envisageables. Eventuellement tester la supériorité d'une des approches permettra alors de mettre en valeur une approche de DEPISTAGE par rapport à l'autre mais rien par rapport à une approche sans dépistage. Ainsi, alors qu'une très grosse partie de la communauté scientifique dit maintenant que le dépistage du cancer du sein n'a pas d'intérêt et est même délétère, vous avez bien lu, la conclusion de l'étude envisagée ne peut être qu'un message pour continuer le dépistage.

Financement européen

cliquez :

Le scandale va plus loin car la Commission Européenne est mise dans la "boucle des décideurs" par son association au protocole afin de s'assurer que devant les résultats de l'étude, ce soit même l'Europe qui préconise le dépistage (sous une forme ou une autre, peu importe); c'est très bien fait!

Il est possible d'aller un peu plus loin pour mieux comprendre l'ampleur du scandale de cette étude. Que la Commission Européenne ne soit pas informée des données discutées peut s'envisager (bien qu'avant de donner sa caution nous aimerions bien que cette Commission analyse correctement les données) ; mais que le docteur Delaloge de l'Institut Gustave Roussy (excusez du peu) et qu'UNICANCER ne soient pas complètement informés de ces données n'est pas envisageable et relève alors assurément d'un objectif autre (comme énoncé plus haut) que de la volonté de faire avancer la science en proposant un tel protocole. Ainsi, c'est sciemment que l'IGR et UNICANCER ont manipulé la Commission Européenne pour arriver à leur fin en sachant que la Commission Européenne devant de telles sommités n'allait pas se poser de question. Comme je l'ai dit plus haut, il suffit de regarder les moyens disponibles pour réaliser une étude randomisée avec 85 000 femmes dans 5 pays suivies pendant 4 ans avec une suite pendant 10 voir 15 ans, pour facilement se rendre compte qu'une étude randomisée comparant dépistage versus non dépistage était facilement réalisable et aurait eu assurément la puissance nécessaire pour conclure.

Le scandale ne s'arrête pas là et nous pouvons citer:

 

  • Un autre point majeur de ce scandale se trouve également dans le fait, qu'aujourd'hui, le dépistage n'existe pas chez les femmes de 40 à 49 ans dans 4 des 5 pays participant à l'étude. Proposer de faire du dépistage chez toutes les femmes à partir de 40 ans dans le cadre de l'étude va permettre d'étendre le dépistage à une population qui n'était jusque-là pas dépistée. En effet, si l'étude montre une non infériorité des 2 méthodes de dépistage la signification en est toute simple: "Le dépistage des femmes de 40 à 49 n'est pas inférieur à l'absence de dépistage chez ces femmes puisque dans un bras il n'y a pas de dépistage et dans l'autre il y en a un".
  • La présentation du chiffre de 20% de réduction de mortalité grâce au dépistage est aussi un scandale (on va dire cette fois par omission) car il n'est pas dit que ce 20% (chiffre juste) c'est 1 décès sur 5 décès parmi 2 000 femmes dépistées sur 10 ans AU PRIX de 10 surdiagnostics, donc de femmes traitées alors qu'elles n'en avaient pas besoin (vraie définition du surdiagnostic malicieusement non présentée dans le protocole [il est simplement dit que ce sont des cancers qui n'auraient pas été dignsotiqués sans le dépistage]), AU PRIX de 200 fausses alertes, AU PRIX de 1 vie raccourcie du fait des traitements et il faut le reconnaitre 1 vie qui aurait été allongé.[i]
  • Les auteurs du protocole le disent eux-mêmes (p16/119), le dépistage sélectif n'est autre qu'un moyen d'augmenter les mammographies de dépistage: "due to our anticipated increase in the average numbers of mammograms in the experimental arm" ("en raison de l’augmentation prévue du nombre moyen de mammographies dans le groupe expérimental" ) ; si ce n'est pas un objectif d'augmenter le dépistage...
  • Le score de risque utilisé pour classer les femmes dans le bras "dépistage suivant le score de risque" n'est pas formellement validé puisque les auteurs disent eux-mêmes: "Breast cancer risk levels will then be classified into 4 meaningful categories, which have been defined by the clinical trial steering committee" ("Les niveaux de risque de cancer du sein seront ensuite classés en quatre catégories significatives, qui ont été définies par le comité directeur des essais cliniques"). Ce n'est pas une étude de validation d'un score qui est à la base de la construction du score de risque mais des scores existants combinés avec d'autres éléments considérés par les auteurs comme importants mais n'ayant pas fait l'objet d'une validation formelle avant son utilisation
  • Si besoin était de s'interroger sur une éventuelle envie de renforcer le dépistage, les auteurs eux-mêmes nous le disent: "MyPeBS will de-escalate screening in part of the population but escalate it in a large other part" ("Mypebs va décroître le dépistage dans une partie de la population, mais l’intensifier dans une autre grande partie") (p38/119) (même pas besoin de faire les calculs, ils nous le disent)

Autres points

 

On pourra mentionner par ailleurs les éléments suivants:

  • Alors que les auteurs envisagent même de transformer leur étude de non infériorité en étude de supériorité, il est incompréhensible d'avoir retenu une borne de non infériorité de 25% [ii]
  • Au bout des 4 ans de l'étude, les femmes ayant participé retourneront au dépistage standard et seront suivies pendant 15 ans pour conclure quoi, du fait que l'on aura eu 2 séquences de dépistage successifs ?
  • Les auteurs du protocole nous disent (p21/119) qu'il y aura une réévaluation annuelle dans le bras "score de risque": en fonction de la littérature sans nous décrire l'algorithme envisagé pour modifier le planning du dépistage, ce qui veut dire qu'au final on ne sait pas ce que va être la comparaison finale.
  • Comment est-il possible de parler "d'information" des femmes dans le groupe "dépistage sélectif" alors que le score n'est pas un score validé et juste établi par le steering committee (comité de pilotage de l'étude) : "They will be informed on potential risk-reducing strategies associated with their individual breast cancer risk level and individual risk factors" ("Elles seront informés des stratégies potentielles de réduction des risques associées à leur niveau de risque individuel de cancer du sein et à leurs facteurs de risque individuels").
  • Le parallèle avec le système de risque dans le cardiovasculaire (p28/119) est "amusant" car on ne parle pas de score établi dans les mêmes conditions et pour des niveaux de risque comparables. En tentant de présenter la problématique des femmes a très haut risque et l'intérêt de dépister ces femmes pour justifier le dépistage, c'est un peu comme si on extrapolait le résultat obtenu pour l'hypercholestérolémie familiale homozygote pour justifier tout ce que l'on va faire à toutes les hypercholestérolémies.
  • Mettre en avant une concordance de 0,57 à 0,70, ce n'est pas très bon puisque l'on considère qu'il faut atteindre 0,8 pour parler de bonne concordance (p30/119) [iii]
  • Mettre en avant avec force une étude "in press" ne correspond pas aux standards scientifiques usuels (p30/119).[iv]
  • La méthode statistique utilisée pour passer d'une étude de non infériorité à une étude de supériorité avec les modifications du seuil du risque alpha, du fait de la multiplication des tests, n'est pas présentée, ce qui n'est pas correct.

Lire aussi :

 

Comme il y aurait encore beaucoup à dire, je renvoie le lecteur qui souhaite avoir des éléments plus détaillés et complémentaires au très beau site: https://cancer-rose.fr/my-pebs/ qui présente de très nombreux points sur la problématique de l'étude et plus généralement sur le problème du dépistage du cancer du sein. Dans ce cadre, j'invite le lecteur à vraiment consulter l'affiche d'information pour salle d'attente qui présente d'une manière très graphique et donc très parlante ce qui se passe sur 2000 femmes dépistées ou non https://cancer-rose.fr/wp-content/uploads/2019/07/affiche_depistage-mammographiqueA4-2.pdf

Autre analyse du protocole : https://cancer-rose.fr/my-pebs/2019/12/01/le-rationnel-de-letude-2/

Conclusion

Si le souci de mieux prendre en charge les femmes était le moteur de la mise en place de cette étude, nous aurions une autre étude [v]; il s'agit donc bien là d'un vrai scandale.

 

Références

[i] https://cancer-rose.fr/2017/01/03/mensonges-et-tromperies/

Qu'en est-il de la diminution de mortalité de 20%

Il s'agit de la réduction relative du risque.

La baisse du risque de mortalité depuis l'instauration du dépistage organisé est admise par tous les auteurs et experts. Elle varie, selon les études (observationnelles et randomisées), de 14 % à 48 % de diminution du risque de mortalité liée à ce cancer ; ce risque est environ de 5 % à l'âge de 50 ans; une diminution de 20 % fait donc passer ce risque à 4 %.

De fait, la synthèse de la Revue Prescrire, la synthèse de la Collaboration Cochante (groupe de chercheurs nordiques indépendants), la synthèse étasunienne (US TASK Force) donnent un aperçu en valeurs absolues.

Si sur 1 000 femmes dépistées 4 meurent d'un cancer du sein, et que sur un groupe de femmes non dépistées 5 meurent d'un cancer du sein, le passage de 5 à 4 constitue mathématiquement une réduction de 20% de mortalité, mais en chiffres absolus cela ne fait qu'une différence d'une seule femme... C'est pour cela qu'il convient de toujours exiger une présentation en données réelles, et non en pourcentage ce qui enjolive la situation.

A ce propos lire ici une excellente explication : http://hippocrate-et-pindare.fr/2017/01/01/resolution-2017-non-au-risque-relatif-oui-au-risque-absolu/

 

[ii] https://cancer-rose.fr/my-pebs/2019/10/27/quest-ce-quun-seuil-de-non-inferiorite/

[iii] NDLR, dans le protocole page 30 il est dit ceci : "Le modèle Tyrer-Cuzick (ou IBIS) a été largement décrit dans la population générale ainsi que dans les cliniques familiales à haut risque ou les populations d’essais cliniques (IBIS1). Il est particulièrement pertinent pour les femmes ayant des antécédents familiaux : son exactitude est moyenne dans la population générale (c-statistiques entre 0,57 et 0,60), tandis qu’il est très élevé dans les populations à risque familial (c-statistiques jusqu’à 0,70)." Or en effet le taux à obtenir pour une bonne concordance est de 0,8

au sujet des scores d'évaluation des risques, voir la page : https://cancer-rose.fr/my-pebs/conflits-dinterets/

[iv] "in press" signifie que cette étude n'a encore jamais été publiée...

[v] https://cancer-rose.fr/my-pebs/2019/03/09/letude-dont-on-re%CC%82vait/

Le biais d’attrition

MyPEBS SYNOPSIS . pdf

Vous trouverez l'analyse statistique expliquée et détaillée sur le site de Dr Vincent Robert :

http://mypebs-en-question.fr/mypebs.php

Critique du design de l'étude et du choix du seuil de la non infériorité, par Dr V.Robert, cliquez sur l'image

 

Ci dessous, décryptage du chapitre Analyses statistiques (page 6) tel qu'il figure dans le synopsis de MyPeBS.

Le biais d'attrition ,

Dr Vincent Robert

 

  1. Effectifs espérés

 

Groupe témoin :

nombre de femmes incluses : 42 500

nombre de femmes analysables : 28 260  (5% d'abandon puis 30% de non-respect du protocole)

 

Groupe dépistage personnalisé :

nombre de femmes incluses : 42 500

nombre de femmes analysables : 36 340 (5% d'abandon puis 10% de non-respect du protocole)

 

Commentaire : les sorties d'étude prévues sont importantes et asymétriques (14% pour le groupe dépistage personnalisé, 33% pour le groupe témoin). Ceci peut conduire à un biais d'attrition, d'autant plus que l'analyse est prévue en per protocole.

Pour mémoire, biais d'attrition = biais lié aux sorties d'étude (perdus de vue, refus de continuer à participer ou exclusions) ; ces sorties d'étude peuvent faire perdre la comparabilité des groupes issue de la randomisation.

 

  1. Efficacité espérée

 

Groupe témoin :

122 tumeurs évoluées / 100000 femmes / an

soit pour 28 260 femmes :122*28260/100000 =  34 à 35 tumeurs évoluées / an

soit 138  tumeurs évoluées au total (sur 4 ans)

Groupe dépistage personnalisé :

10% de tumeurs évoluées en moins par rapport au groupe témoin,

soit 122*0.9 = 110 tumeurs évoluées / 100000 femmes / an

soit pour 36 340 femmes : 110*36340/100000 = 40 tumeurs évoluées / an

soit 160 tumeurs évoluées au total (sur 4 ans)

138 +160 = 298 ; on retrouve les 298 tumeurs annoncées dans le synopsis.

 

On peut donc dresser le tableau de contingence suivant :

Groupe témoin Groupe dépistage personnalisé Total
Tumeur évoluée 138 160 298
Pas de tumeur évoluée 28122 36180 64302
Total 28260 36340 64600

A partir de ce tableau, on peut calculer le risque relatif :

RR = (160/36340) / (138/28260) = 0.00440 / 0.00488 = 0.90

Ainsi que son intervalle de confiance à 95% qui vaut approximativement 0.71 à 1.13

(intervalle de confiance calculé par la méthode de Miettinen :

Chi2 = 0.80 ; racine de Chi2 = 0.894

borne basse de l'intervalle = RR1+1.96/racine du Chi2 = 0.91+1.96/0.894 = 0.93.19 = 0.71

borne haute de l'intervalle = RR1-1.96/racine du Chi2 = 0.91-1.96/0.894 = 0.9-1.19 = 1.13)

 

L'intervalle de confiance du risque relatif vaut approximativement 0.71 à 1.13 et déborde donc largement de part et d'autre de 1. Avec les effectifs prévus et les hypothèses faites par les promoteurs de l'essai, la différence espérée de 10% entre les 2 groupes n'est donc pas statistiquement significative. On comprend ainsi pourquoi les promoteurs de MyPeBS n'ont pas voulu faire un essai classique de supériorité.

 

  1. Seuil de non-infériorité

 

Le seuil de non-infériorité à 1.25 signifie 25% de tumeurs évoluées en plus dans le groupe dépistage personnalisé. Soit 122*0.25 = 30 tumeurs évoluées en plus / 100000 femmes / an.

 

Les hypothèses de base de MyPeBS incluent une puissance de 80%. Le risque de 2ème espèce est donc de 20% ; autrement dit, les promoteurs de MyPeBS acceptent qu'il y ait 20 chances sur 100 que l'essai conclut à la non-infériorité alors qu'en réalité le seuil de 25% de tumeurs évoluées en plus est dépassé.

(Pour mémoire, tout test statistique expose à 2 risques d'erreur :

  • le risque de se tromper en concluant à une différence statistiquement significative alors qu'en réalité la différence est due au hasard = risque de 1ère espèce, dont le seuil est par tradition fixé à 5 chances sur 100
  • le risque de se tromper en concluant à une différence non statistiquement significative alors qu'en réalité la différence est statistiquement significative = risque de 2ème espèce.

Dans un essai classique, le risque de 1ère espèce est crucial, d'où un seuil assez bas à 5 chances d'erreur sur 100.

Dans un essai de non-infériorité, le risque de 2ème espèce est au moins aussi crucial que le risque de 1ère espèce et devrait être fixé aussi bas.)

 

Le test de non-infériorité prévu est un test unilatéral. Autrement dit et en terme d'intervalle de confiance, MyPeBS ne va s'intéresser qu'à une seule des bornes de l'intervalle de confiance et ignorer l'autre.

En théorie, l'intervalle de confiance pourrait être intégralement compris entre 1 et 1.25 exclus. Dans cette situation, on va conclure à la non-infériorité puisque la borne supérieure ne dépasse pas 1.25. Et on ne verra pas que la borne basse est supérieure à 1, donc qu'il y a une infériorité statistiquement significative, même si elle n'atteint pas 1.25.

En pratique, c'est vrai, ce risque est très faible car il suppose que l'essai ait plus de puissance que prévue (ce qui dans la pratique est très rare ; en général, c'est plutôt l'inverse). Mais tout de même, c'est un peu léger comme façon de faire.