L’étude dont on rêvait

L'étude dont on rêvait

Pourrait-on proposer une alternative à l'étude MyPeBS ?

Un essai randomisé, c'est à dire en attribuant par tirage au sort des femmes dans deux groupes, un "dépistage stratifié sur le risque" versus "pas de dépistage" est, d'un point de vue théorique, tout à fait possible.

On inclurait des femmes sans opinion catégorique sur le dépistage et bien informées sur le but de l'étude.

La moitié de la population concernée par le dépistage ne participe de toute façon pas au dépistage proposé, et les taux de participation en France sont même à la baisse ces dernières années.

La randomisation assurera la comparabilité des 2 groupes (groupe avec dépistage et groupe sans dépistage).

Il y a bien sûr toujours un problème de la compliance, ou de "l'obéissance" dans le groupe "sans dépistage", c'est à dire qu'une femme de ce groupe peut échapper et quand-même avoir recours durant l'étude à un dépistage ; c'est le problème des violations de protocole, inhérent à toutes les essais.

Dans ce cas il y a une façon de gérer ce problème.

Toutes les femmes incluses dans l'essai seraient analysées, sans exception, comme si elles avaient respecté à la lettre le protocole.

On comparerait donc des femmes soumises à un dépistage organisé stratifié sur le risque à des femmes non soumises à un dépistage organisé, mais libres de passer des mammographies à titre individuel. Dans ce cas on ne répondrait donc pas à la question "le dépistage organisé stratifié fait-il mieux que pas de dépistage du tout ?" mais on répondrait à la question : "le dépistage organisé stratifié fait-il mieux que pas de dépistage organisé ?".

Idéalement, on ferait en parallèle une analyse en per protocole, c'est à dire en sélectionnant pour cette analyse spécifique uniquement les femmes qui ont réellement respecté rigoureusement le protocole.

En fait, le principal problème d'un essai randomisé dépistage stratifié sur le risque versus pas de dépistage n'est pas d'ordre statistique mais d'ordre réglementaire.

L'étude devra être approuvée par un comité de protection des personnes (CPP), mais ce qu'on peut redouter c'est qu'en l'état actuel des discours officiels sur le dépistage, coercitifs et angoissants envers les réfractaires au dépistage mammographique (femmes et praticiens), il n'est pas garanti qu'un CPP accepterait de la valider, sous des prétextes d'éthique, même si on s'efforçait de produire un formulaire de consentement de très bonne qualité, complet, neutre, qui explique bien le but et les tenants de l'étude.

Cette procédure que nous imaginons permettrait de répondre à la (vraie) question : le dépistage organisé stratifié sur le risque fait-il mieux que pas de dépistage organisé ?

Qu'est-ce qu'on aurait pu imaginer ?

Notre statisticien suggère :

"Ce qu'il aurait fallu faire :

- une étude randomisée comparant 3 bras (40.000 non dépistées, 40.000 dépistées de manière standard et 40.000 dépistées de manière individualisée)

- des résultats exprimés sous la forme d'intervalle de confiance à 95%* des différences de cancers stade 2 ou plus (3 intervalles de confiance : 1 pour la différence pas de dépistage / dépistage standard, 1 pour la différence pas de dépistage / dépistage individualisé et 1 pour la différence dépistage individualisé / dépistage standard).

Avec les intervalles de confiance, on n'impose pas de conclusion, basée sur des règles discutables. On laisse le public (décideurs, médecins, femmes) s'approprier les résultats et en tirer eux-mêmes les conclusions."

Soit la conclusion s'impose, soit les résultats sont interprétables.

Ce procédé est beaucoup plus honnête du point de vue scientifique même si moins séduisant.

*Il existe une certaine variabilité des essais cliniques. Cela signifie que si on recommence l'essai, exactement de la même façon mais avec un autre échantillon, on ne va pas retrouver exactement le même résultat que la 1ère fois. Et aucun des 2 résultats n'est, a priori, plus juste que l'autre. On ne peut donc pas affirmer que le résultat d'un essai clinique reflète exactement la vérité. En revanche , les statisticiens sont capables de calculer une plage, de part et d'autre du résultat, qui a 95 chances sur 100 de contenir la vérité (cette plage est désignée sous le nom d'intervalle de confiance à 95%).

Quel serait l'intérêt d'un groupe supplémentaire de comparaison "pas de dépistage du tout " ?

On pourrait avoir une idée concernant l'efficacité de chaque groupe sur la réduction des cancers graves, et savoir ce qu'il en est de ces "20% de réduction de mortalité" allégués constamment par les autorités et fortement mis en doute par les dernières publications récentes et indépendantes.

En revanche, pour ce qui est du surdiagnostic, l'étude peut ne pas apporter de conclusion probante.

Dans l'estimation des surdiagnostics, il faut :

- constater et estimer une différence d'incidence (de nouveaux cas) des cancers selon la stratégie de dépistage.

- mais aussi comprendre à quoi correspond cette différence (si elle existe), pour pouvoir isoler la partie "surdiagnostic".

La randomisation permet d'avoir une estimation plus fiable (sans facteurs de confusion) de la différence d'incidence dans chaque groupe, selon la stratégie de dépistage appliquée.

Mais il sera hasardeux de faire la différence entre ce qu'on appelle "avance au diagnostic" et surdiagnostic. Le fait de devancer la maladie (phénomène d'avance au diagnostic), c'est à dire de déceler des cancers avant qu'interviennent les signes cliniques, augmente automatiquement l'incidence des cancers en tout début du dépistage, mais ensuite ce taux se stabilise puisqu'on qu'on a trouvé d'un coup des cancers avant leur manifestation, avec un résultat qui tend à l'équilibre sur le long terme, c'est à dire au bout de plusieurs années.

Dans l'étude MyPEBS prévue, il y a un résultat attendu après une première période de suivi de 4 ans. Les participations au dépistage sur cette période devraient être stables. Ensuite un autre résultat est attendu après une période de 10 à 15 ans mais pendant laquelle les femmes seront libres de faire ce qu'elles veulent, participer à un dépistage ou pas.

Dans cette deuxième période la stabilité de la participation n'est plus garantie du tout. On peut donc se demander si les 4 années de suivi des femmes incluses dans l'étude seront suffisantes pour arriver à cette phase d'équilibre du taux d'incidence (c'est à dire après l'augmentation initiale de l'incidence due au phénomène d'avance au diagnostic). Rappelons que l'étude d'Oslo de 2008 comparait deux cohortes, une de femmes dépistées tous les deux ans, et l'autre sans dépistage, avec un bilan de l'étude au bout de 6 années.

Et ensuite, en deuxième période les résultats seront de toute façon ininterprétables puisqu'une participation stable des femmes à leur groupe n'est pas garantie, rendant impossible la récolte de résultats fiables.

En conclusion

Autant une bonne étude randomisée avec un groupe de comparaison "sans dépistage" devrait permettre de faire le point sur l'efficacité des différentes stratégies de dépistage (taux des cancers graves, idée du gain éventuel sur la mortalité), autant pour les surdiagnostics, cette étude n'a pas ni la durée ni la rigueur suffisante.

Elle permettra au mieux de se faire une idée de la différence de surdiagnostic entre deux groupes, mais pour estimer correctement la valeur du surdiagnostic il faudrait imaginer une étude dédiée, suffisamment longue, avec une cohorte "pure" de femmes sans dépistage, c'est à dire sans contamination du groupe témoin ; en somme refaire l'étude d'Oslo de 2008.

Ceci paraît très difficile, même avec une bonne information des femmes, vu le caractère angoissant des messages médicaux, sociaux et médiatiques qui sont infligés aux femmes se soustrayant au dépistage.

Présentation : analyse de MyPEBS

Le 1er décembre 2018 débutera une étude appelée MyPeBS (Personalising Breast Screening) sur 80 000 femmes volontaires âgées de 40 à 70 ans (30 000 en Italie, 20 000 en France, 15 000 en Israël, 10 000 en Belgique et 10 000 au Royaume-Uni).

Documents publiés par les organisateurs de MyPebs

MyPEBS SYNOPSIS . pdf

MyPEBS Présentation investigateurs

Vers_un_depistage_personnalise_des_cancers_du_sein_mel_20180709

Les groupes à risques :

 

De quoi s'agit-il ?

"Etude internationale randomisée comparant, chez les femmes âgées de 40 à 70 ans, un dépistage personnalisé en fonction du risque individuel de développer un cancer du sein, au dépistage standard."

Il s'agit d'une étude dite de non-infériorité (nous reviendrons sur ce terme dans "objectif" , voir plus bas) comparant deux groupes de femmes attribuées de façon aléatoire à deux groupes (par randomisation : c'est à dire par tirage au sort). L'un des deux groupes sera composé de femmes suivant un dépistage habituel selon les recommandations officielles en vigueur, l'autre groupe comprendra des femmes qui suivront un dépistage individualisé, basé sur une évaluation de leur risque personnel de chacune d'avoir un cancer invasif durant son existence.

Pour chaque femme, cette évaluation tiendra compte de l'âge, de ses antécédents familiaux, de la densité de ses seins ainsi que d'un test salivaire, réalisé pour une étude de polymorphisme génétique autre que sur les gènes prédisposants BCRA1 et BCRA2 (ces derniers sont recherchés chez la personne ayant un parent touché, les femmes concernées resteront dans l'essai et se verront assignées à la catégorie 'risque élevé avec suivi adéquat').

(Spécifiquement en Israël, il a été prévu que les femmes ayant signé un consentement éclairé spécial (proposé à toutes les participantes à l'entrée dans l'étude) subiront une évaluation supplémentaire des polymorphismes et de leur score génétique, dans le but d'identifier la présence de ces mutations connues chez les Ashkénazes.)

Dans le groupe standard de My-PeBS (page 10 du Synopsis), les femmes suivront un dépistage du cancer du sein conformément aux directives et procédures nationales en vigueur (qui sont toutefois différentes selon les pays, voir tableau bas de page) : mammographie tous les 2 ou trois ans et/ou tomosynthèse (TS) à partir de l'âge de 50 ans pour la France, à laquelle s’ajoutera ou pas une échographie en fonction de la densité mammaire à la mammographie.

Les femmes randomisées dans le groupe basé sur le risque individuel, incluses dès l'âge de 40 ans) devront fournir un échantillon de salive pour l'analyse du risque génétique et leur densité mammaire sera évaluée. Une estimation de leur risque individuel sera effectuée en fonction de ces paramètres et leur programme de dépistage personnalisé, basé sur le risque individuel pour les 4 années à venir, leur sera communiqué.

Que fera-t-on des données recueillies ?

Dans le groupe basé sur le risque individuel, à partir des différents résultats obtenus et synthétisés, on classera les patientes en quatre niveaux de risque : bas, moyen, élevé et très élevé.

Pour un risque bas, on effectuera le contrôle mammographique tous les quatre ans
Pour les risques moyens, une mammographie tous les deux ans, si densité élevée il se rajoutera échographie et ou une tomosynthèse* tous les deux ans.
Pour les risques élevés il y aura un examen mammographique annuel, si densité élevée il se rajoutera échographie et ou 3D tous les deux ans. (rien n'est dit sur la double lecture)
Pour les risques très élevés les femmes se voient proposer une mammographie et une IRM chaque année jusqu'à 60 ans.
Nous ne trouvons aucune information sur le fait qu'un examen clinique sera réalisé ou pas avec la procédure mammographique.

Quel est l'objectif de l'étude MyPebs ?

L'objectif principal est de rechercher si la nouvelle stratégie de dépistage basée sur le risque n'est pas inférieure que la procédure standard sur le plan de la réduction du taux de cancers graves.
On mesure donc le taux des cancers stade 2 et plus de chaque groupe, on compare statistiquement ces deux groupes afin d'effectuer un calcul de non-infériorité du groupe basé sur le risque par rapport au groupe standard.

Mais d'autres éléments seront examinés également :

  • Le taux de faux positifs et de biopsies bénignes dans les deux groupes,
  • Le taux de faux négatifs et de cancers d'intervalle,
  • Les coûts et la rentabilité de chaque stratégie,
  • Comparer la mortalité due au cancer du sein dans les deux groupes, au bout de 10 ans et de 15 ans de suivi
  • Rechercher s'il existe véritablement une valeur ajoutée de l'adjonction d'une échographie ainsi que d'une tomosynthèse (TS) dans la détection des cancers du sein de stade 2 et plus ,
  • Estimer le surdiagnostic et le surtraitement dans chaque groupe,
  • Evaluer les taux de cancers du sein identifiés à la seconde lecture dans chaque groupe
  • Evaluer la satisfaction des participantes

(Nous ne trouvons pas l'objectif d'étude de la mortalité toutes causes confondues)

Il s’agit donc de savoir si le nombre de cancers de stade avancés (stade 2 ou plus) ne sera pas statistiquement plus élevé avec la nouvelle stratégie, par comparaison avec l’ancienne, en acceptant un écart choisi à 25% . Autrement dit, on cherche à savoir si la nouvelle stratégie n’est pas moins efficace que l’ancienne, en admettant que s’il y a par exemple 24% (moins de 25%) de cancers graves en plus, les résultats sont déclarés « non-inférieurs ». Les auteurs s’autoriseront à dire que les deux types de dépistage sont aussi efficaces l'un que l'autre, et l'étude sera déclarée un succès.

Concrètement  le synopsis explique que "l'incidence attendue des cancers du sein de stade 2 et plus pour 100 000 femmes suivies pendant 1 an dans le groupe standard de l'étude My-PeBS est donc : (140 x 0,75) + (0,25 x 0,5 x 140) = 105 + 17,5 = 122. Une estimation légèrement prudente est donc de 120." Donc, les promoteurs de l'étude s'attendent à une incidence cumulée sur 4 ans de 480 tumeurs stade 2 ou plus /100.000 femmes dans le groupe dépistage standard.

Ils disent aussi : "..... correspond à une augmentation jusqu'à 120/100 000 cancers de stade 2 du taux de risque cumulé sur 4 ans dans le groupe basé sur le risque individuel sous H0),....."  Ce qui veut dire que si on additionne les 480 plus les 120 cas de cancers stade 2 attendus en plus, on arrive à 600 cas de cancers graves dans le groupe stratifié.

Autrement dit les promoteurs considèrent donc que, si l'incidence cumulée sur 4 ans pour le groupe stratifié ne dépasse pas 480 x 1,25 = 600 /100.000, on peut considérer que les 2 groupes sont équivalents en terme de résultats.
Cette définition pour le moins laxiste de la non-infériorité est d'autant plus inacceptable qu'elle n'est pas expliquée ou justifiée où que ce soit..

 

Secondairement doit être effectué un calcul de supériorité.

Si le premier calcul montre que la nouvelle stratégie n’est « pas statistiquement inférieure » à l’ancienne, un second calcul cherchera à savoir s’il y a statistiquement moins de cancers graves (de stade 2 ou plus) dans le groupe « nouvelle stratégie », par comparaison avec l’ancienne.

Autrement dit, si la nouvelle stratégie est jugée « non inférieure » en nombre de cancers graves, on cherchera à savoir si elle peut être jugée « supérieure ».

Combien de temps ?

L'inclusion se déroule sur 2 ans, avec un premier résultat attendu dans 6 ans incluant une période de suivi des groupes sur 4 ans. Une deuxième évaluation se fera ensuite après un suivi de 10 à 15 ans.

Que peut-on en attendre ?

Que peut-on attendre de cette étude ? Ses résultats pourront-ils nous donner des informations utiles ?

Page 25 du protocole il est dit : "After analyses of all components, the final objective of MyPeBS is to deliver the best recommendations for the best future breast cancer screening strategy in Europe."

"Après analyse de toutes les composantes, l’objectif final de Mypebs est de fournir les meilleures recommandations pour la meilleure stratégie de dépistage du cancer du sein en Europe. "

Or avec une étude de non -infériorité, cela n'est pas possible. Si l' objectif principal est atteint et qu'une " non-infériorité" est démontrée, les recommandations pourront n'être que de l'ordre de : " dépistage standard ou dépistage personnalisé c'est idem, ou du moins ce n'est pas moins bon en tolérant qu'il puisse y avoir jusqu'à 25% de perte de performance."

Sur notre site https://cancer-rose.fr/my-pebs/ nous examinerons en plusieurs rubriques les problèmes et défauts de MyPebs, du point de vue de la méthodologie, l’analyse statistique prévue et le formulaire de consentement distribué aux femmes.

Nous pourrons ainsi faire un bilan de ses qualités et de ses inconvénients.

* La tomosynthèse est une mammographie en trois dimensions. Elle permet, grâce à des coupes rapprochées, d’éliminer le problème de la superposition de structures du tissu mammaire pouvant simuler une lésion inquiétante.

Analyse critique, lire : https://cancer-rose.fr/my-pebs/2019/02/09/argumentaire/

Présentation simplifiée du problème que pose la méthodologie de Mypebs

Une grande difficulté réside pour tout un chacun dans la compréhension de la méthode choisie.

Nous essayons ici de simplifier.

Nous avons eu beaucoup de mal à croire que le fait de trouver, dans l'étude, un nombre de cancers de stade avancé statistiquement supérieur, mais de moins de 25% par rapport au dépistage standard, ferait conclure aux concepteurs de Mypebs que le dépistage individualisé est « non inférieur » au dépistage habituel, mais c’est bien ce qui est prévu dans le protocole

Etude MyPebs, Que veut-on faire ?

 

On veut comparer deux types du dépistage du cancer du sein, le dépistage standard (DS) et le dépistage individualisé (DI) qui, lui, est basé sur le risque individuel de chaque femme de contracter un cancer du sein.

 

Pourquoi l'étude ?

 

Le dépistage vise à détecter des cancers de faible stade afin de faire diminuer le nombre des cancers graves (de stade 2 ou plus). C'est l'objectif théorique de tout dépistage. Le dépistage standard est remis en cause, en particulier en raison de ses effets indésirables (surdiagnostic). On teste un autre mode de dépistage.

 

Le procédé

 

L'étude MyPebs ne cherche pas à vérifier si le DI réduira plus efficacement le taux de cancers graves que le DS. Non.

Elle se contente de voir si le dépistage individualisé ne laisse pas passer trop de cancers graves, par comparaison avec le dépistage standard.

C’est ce qu’on appelle un « essai de non infériorité ». Si le dépistage individualisé laisse passer moins de 25% de cancers graves de plus que le dépistage standard, on considérera qu’il est « non inférieur », et que les deux techniques, somme toute, se valent.

 

Car statistiquement parlant, et c'est là toute la subtilité, DI "non-inférieur" à DS ne signifie pas que DI est équivalent à DS, non ; DI "non-inférieur" cela signifie que DI peut très bien, mais oui, être inférieur à DS, mais sans dépasser un certain seuil préalablement déterminé.

 Concrètement :

Selon les promoteurs de l’étude, chez les femmes soumises au dépistage standard, on attend 480 tumeurs graves (de stade 2 ou plus) pour 100 000 femmes au cours des 4 ans de l’essai.

Ils expliquent qu’ils ont choisi un seuil de non infériorité de 25% qui « correspond à une augmentation tolérable, dans le groupe DI, jusqu’à 120/100 000 cancers de stade 2 (risque cumulé sur les 4 ans). Que signifie ce jargon ?

Il signifie que si, dans le groupe dépistage individualisé, il apparait plus de cancers graves que dans le groupe dépistage standard, mais que ce dépassement n’atteint pas 25%, on considérera que le dépistage individualisé est « non inférieur » au dépistage standard. En réalité, on les considérera comme équivalents.

Pour les promoteurs de MyPEBs, on peut tolérer un supplément de cancers graves de

480 x 25 % = 120. Et on peut donc accepter qu’il apparaisse 480 + 120 = 600 cancers graves pour 100 000 femmes dans ce groupe.

Donc si, dans le groupe dépistage individuel, on observe 600 cancers graves au lieu de 480 dans le groupe dépistage standard (+ 25%), on dira quand même que les deux techniques sont équivalentes.

Il pourra donc y avoir 480 X 1,25 cancers graves (= 600) dans le groupe DI, pour 100 000 femmes, sur 4 ans.
Ce 1,25 correspond à un rapport, un ratio.

Il s'agit du ratio "cancers graves DI" / "cancers graves DS".

600                /           480                          = 1,25

 

Tant que le ratio (nombre de cancers avancés DI / nombre de cancers avancés DS) ne dépasse pas 1.25, alors le dépistage individualisé ne sera pas significativement inférieur au dépistage standard, et donc tout à fait acceptable.

 

Les résultats qu'on peut attendre

 

 

Toutefois on ne se contente pas d'un seul résultat, d'un seul ratio lorsqu'on effectue une étude.

Car on considère que les résultats d'un essai pourraient être variables si on le renouvelait plusieurs fois avec d'autres échantillons.

Afin d'intégrer cette variabilité, les statisticiens calculent ce qu'on appelle un "intervalle de confiance", généralement de 95%, ce qui correspond non pas à un résultat ponctuel mais à une zone de résultats de part et d'autre du résultat médian. Cette zone c'est l'intervalle dans lequel la vérité à 95 chances sur 100 de se situer.

 

Voyons à présent ce qui pourrait se présenter comme situations lors de l'essai MyPebs.

Les flèches rouges représentent les intervalles de confiance.

Le chiffre rouge représente le ratio trouvé pour chaque situation,

1,25 est la limite de ratio à ne pas dépasser.

cliquez sur l'image

 

Situation n°1

 

groupe dépistage standard : 135 cancers avancés ; groupe dépistage individualisé : 163 cancers avancés
ratio observé = 163 / 135 = 1.21
intervalle de confiance à 95% du ratio = 0.96 à 1.53
borne supérieure de l'intervalle > 1.25   ->   perdu !

On ne peut pas conclure que le DI soit non-inférieur au DS, il l'est probablement.

 

Situation n°2

 

groupe dépistage standard : 149 cancers avancés ; groupe dépistage individualisé : 149 cancers avancés
ratio observé = 149 / 149 =
intervalle de confiance à 95% du ratio = 0.79 à 1.263
borne supérieure de l'intervalle > 1.25   ->   perdu !

On ne peut une fois encore pas conclure que le DI serait non-inférieur au DS

 

Situation n°3

 

groupe dépistage standard : 150 cancers avancés ; groupe dépistage individualisé : 148 cancers avancés
ratio observé = 148 / 150 = 0.99
intervalle de confiance à 95% du ratio = 0.78 à 1.247
borne supérieure < 1.25   ->   gagné !

On pourrait conclure à la non infériorité du DI par rapport au DS.

Toutefois, nous pensons que dans cette situation, une différence statistiquement significative aussi minime ne devrait pas être interprétée au final comme une non-infériorité. En général, dans des situations analogues pour des essais de non-infériorité sur des médicaments, c'est ce qui est observé, ces situations limites ne sont pas jugées probantes. 

Malgré le fait que nous ne disposons pas du protocole complet de l'étude gardé secret aux non-investigateurs, cette éventualité, si elle se présente, ne serait logiquement pas retenue, car manquant de puissance pour convaincre d'une véritable non-infériorité.

 

Situation n°4

 

groupe dépistage standard : 163 cancers avancés ; groupe dépistage individualisé : 135 cancers avancés
ratio observé = 135 / 163 = 0.83
intervalle de confiance à 95% du ratio = 0.65 à 1.05
borne supérieure < 1.25   ->   gagné !

On peut conclure à la non-infériorité du DI par rapport au DS

 

Conclusion

 

Voilà comment s'effectuera en pratique l'analyse dont on tirera la conclusion de MyPebs, on voit très bien à quel point des résultats quasiment identiques, très proches en tous cas,  pourraient théoriquement donner lieu à des conclusions diamétralement opposées.

Mais de toute façon, avec ce seuil arbitraire choisi, très avantageux de 25%, le dépistage individualisé aura toutes les chances d'être déclaré « non inférieur » au dépistage standard, quelle que soit son efficacité, ou son inefficacité.