Actualisation 2023-fin de l’inclusion des participantes

Synthèse par Dr Bour,
Dr V.Robert, statisticien, pour l'analyse au chapitre "un amendement apporté à l'étude" - 5 octobre 2023

MyPeBS ('My Personal Breast Screening' ou 'mon dépistage personnalisé du cancer du sein') est une étude clinique internationale affichant pour but de comparer une stratégie de dépistage personnalisée au dépistage standard en vigueur.

Initialement 85 000 puis 80 000 femmes volontaires âgées de 40 à 70 ans devaient être recrutées dans 5 pays: Belgique, France, Israël, Italie et Royaume-Uni.
Le recrutement a posé beaucoup de problèmes, l'Espagne a été donc rajoutée comme pays recruteur lors de la dernière année, afin de pallier au problème de participation.
Malgré cela, lors de l'arrêt de la phase de recrutement (août 2023), seules 53 142 femmes étaient intégrées dans l'étude.

Site officiel de MyPEBS

Rappel des objectifs de l'étude MyPEBS

 Il s'agit d'une étude dont l'objectif principal est de comparer le nombre de nouveaux cas de cancers du sein avancés dans deux groupes de femmes.
Un groupe est composé de femmes soumises à un dépistage adapté à leur niveau de risque personnel de cancer du sein.
L'autre groupe de femmes sera soumis au dépistage organisé habituel.

Non-inférieur ?? Késako....

Il s'agit d'une étude dite de non-infériorité, ce qui signifie qu'il ne s'agit pas du tout de vérifier si le dépistage individuel serait meilleur que le dépistage standard.

Il s'agit de vérifier si le nouveau dispositif (dépistage individualisé) ne serait pas moins bon que le dépistage standard pour détecter des cancers de stade 2 et plus, en tolérant une certaine perte d'efficacité, à hauteur d'un certain seuil tolérable, qu'on appelle le seuil de non-infériorité.
Ici le seuil choisi est de 25%.

Les promoteurs de l’essai expliquent qu’ils s’attendent à trouver 480 nouveaux cas de tumeurs graves pour 100 000 femmes dans le groupe dépistage habituel. Si ce même taux ne dépasse pas 600 pour 100 000 femmes dans le groupe "adapté au risque", les deux groupes seront déclarés équivalents.

Cela signifie que si le taux de cancers graves est augmenté de moins de 25% (par exemple de 18%) dans le groupe "adapté au risque", alors l’étude sera un succès et affirmera que les nouvelles modalités de dépistage sont « aussi efficaces » que les anciennes. Alors qu'un dépistage est censé au départ diminuer drastiquement les formes graves lorsqu'il est vraiment performant...

Les essais de non infériorité sont des études utilisées dans le cas où une intervention donnée est reconnue efficace, mais est associée à des toxicités importantes, et qu'on veut démontrer qu’une nouvelle intervention alternative (celle qui va être testée) est au moins aussi efficace, mais généralement associé à une diminution des toxicités. Et surtout qu'il y a un avantage compensateur pour les patients.

Malheureusement l'étude MyPEBS comporte de nombreux travers que nous avions pointés du doigt.
Et le  rationnel de l'étude (protocole qui justifie l'étude,
également) faisait déjà l'aveu suivant :et que nous avons téléchargé
"À ce jour, les dommages supplémentaires (mammographies faussement positives, possibles surdiagnostics, biopsies rétrospectives inutiles, mammographies faussement négatives) et les bénéfices supplémentaires de l’utilisation de l’information sur les risques polygéniques afin d'adapter les stratégies de dépistage (décès par cancer du sein évités, années de vie sauvées ajustées à la qualité de vie, réduction de la mortalité par cancer du sein) demeurent non testées et inconnues." ( page 47, point 1.1.25)
Ce qui n'est pas rassurant.

Un amendement apporté à l'étude

Du fait de l'échec de recrutement de suffisamment de femmes, un amendement (pour l'instant confidentiel) a dû être apporté à la méthodologie et au plan d'analyses statistiques de l'étude, document que nous avons pu consulter.
Par ailleurs nous disposons également d'un document PDF relatif à un webinaire de juin 2022 que nous pouvons reproduire, et il mentionne les informations de ces modifications contenues dans l'amendement.

PDF webinaire juin 2022 : MyPeBSwebinaire300622

Slide 9

Par Dr V.Robert

En raison de difficultés de recrutement, le nombre de femmes à inclure dans l'étude a dû être revu à la baisse.

Comment les promoteurs de l'étude justifient-ils cette baisse des inclusions ?

  1. En changeant de stratégie d'analyse des résultats.

Initialement, l'analyse était prévue en per-protocole. Autrement dit, seules les participantes ayant parfaitement respecté le protocole de l'étude pouvaient être analysées. Ce mode d'analyse a une conséquence évidente : les femmes n'ayant pas respecté le protocole sont comptées dans les inclusions mais ne comptent pas dans l'analyse. Il faut donc inclure plus de femmes que le nombre nécessaire pour l'analyse. Le protocole initial prévoyait 42 500 inclusions dans chaque bras, avec 30% de "pertes" par non-respect du protocole + perdues de vue dans le bras dépistage personnalisé et 10% de "pertes" dans le bras dépistage standard (anticipated rate of non-compliance). On devait donc avoir 85000 femmes incluses (2x42500) et seulement 68000 femmes analysables (42500 – 42500x30/100 = 29750 dans le groupe dépistage personnalisé et 42500 – 42500x10/100 = 38250 dans le groupe dépistage standard).

Slide 40

L'analyse en per-protocole a été abandonnée au profit d'une analyse en intention de traiter. Dans une analyse en intention de traiter, toutes les participantes sont analysables (même les "non-compliantes"), même si elles n'ont pas respecté le protocole de l'étude. Du coup, il y a moins de "pertes". Les promoteurs de MyPeBS estiment à 5% (dropout rate) , dans chaque bras, les "pertes" par perdues de vue. Concrètement, cela signifie que, pour avoir 68000 femmes analysables, il n'y a plus besoin d'inclure que 71600 femmes (au lieu des 85000 du protocole initial) (explication : 71600 – 71600x5/100 = 68000).

  1. En augmentant la différence supposée entre les 2 bras.

Comme 71600 femmes à inclure, c'est encore au-dessus des capacités d'inclusion, les promoteurs utilisent une autre astuce pour réduire le nombre d'inclusions nécessaires : ils font passer la différence supposée entre les 2 bras de 10% à 12,5% (relative improvement).

Pour comprendre l'intérêt de cette astuce, il faut se rappeler que chercher une différence entre 2 groupes, c'est un peu comme chercher une aiguille dans une botte de foin. Plus l'aiguille (la différence entre les groupes) est grosse, plus l'aiguille sera facile à trouver, et moins on aura besoin d'une grosse loupe (le nombre de femmes incluses). En postulant une différence de 12,5% plutôt que 10%, les promoteurs parient sur une plus grosse "aiguille" et ont besoin d'une plus petite "loupe". Cette 2ème astuce leur permet de "justifier" 56300 inclusions.

Que penser de ces justifications ?

L'analyse en intention de traiter est habituellement moins puissante mais comporte moins de risque de biais qu'une analyse en per-protocole. On peut donc facilement admettre le passage d'une analyse en per-protocole vers une analyse en intention de traiter. On peut juste s'étonner que le choix d'une analyse en intention de traiter n'ait pas été fait dès le protocole initial.

Mais le plus surprenant est l'augmentation de la différence supposée de 10 à 12,5%. Comme mentionné ci-dessus, une analyse en intention de traiter est habituellement moins puissante qu'une analyse en per-protocole (les violations du protocole conduisent à atténuer l'éventuelle supériorité d'un des bras). La logique aurait donc été de revoir à la baisse la différence supposée entre les 2 bras et certainement pas de l'augmenter.

L'explication de ces choix illogiques est évidente. Normalement, une méthodologie correcte impose de fixer le type d'analyse et l'efficacité supposée et ensuite, et seulement ensuite, de calculer les effectifs à inclure. Ici, les promoteurs de MyPeBS font exactement le contraire : ils fixent les effectifs à inclure en fonction de leur capacité d'inclusion puis ils bidouillent le type d'analyse et l'efficacité supposée jusqu'à ce que ça colle avec les effectifs prédéfinis.

On est bien loin de la rigueur qui devrait être respectée lors d'un essai clinique et cette magouille méthodologique discrédite complètement les futures conclusions de l'étude, quelles que soient ces conclusions. Les promoteurs ne sont pas responsables de l'épidémie COVID mais l'honnêteté scientifique aurait été, soit de prolonger les inclusions jusqu'aux 85000 initialement prévues, soit de jeter l'éponge et d'arrêter l'étude faute de capacité à inclure un nombre suffisant de participantes.

Problème d'une trop grande homogénéité des pannels

Le recrutement n'est pas suffisamment varié pour représenter la population, comme les promoteurs eux-mêmes s'en émeuvent dans un mail du mois de mai 2023 envoyé aux investigateurs..

L'interprétabilité des résultats est mise à mal si dans la population des femmes recrutées une catégorie socio-professionnelle se retrouve sur-représentée, ces résultats ne correspondent qu'à une catégorie de femmes d'un niveau économique particulier, et les conclusions de l'étude seront difficilement généralisables sur une population réelle bien plus diverse.

En conclusion

De toute évidence, la révision des effectifs à inclure n'est pas motivée par des considérations statistiques mais par la difficulté à inclure les femmes dans l'étude. Plutôt que de "bidouiller" le protocole pour tenter de justifier la diminution des effectifs, il eut été plus honnête de reconnaître l'échec et d'abandonner le projet.
Que l'ANSM, un CPP et UNICANCER aient accepté le "bidouillage" ne  contribue pas à la crédibilité de ces institutions.

Enfin, ne l'oublions pas, cette étude ne disposant pas d'un groupe sans dépistage, elle permet de donner un seul choix aux femmes, entre un dépistage et un autre ; elle permet seulement de conclure que quelle que soit la forme de dépistage, l'un n'est pas moins bon que l'autre.

Cela permet ainsi de faire disparaitre la notion d'absence de dépistage du discours, et d'une hypothèse envisageable d'un non-dépistage tout aussi acceptable.

 

Le rationnel de l’étude

7 octobre 2019

Protocole et rationnel, original

Le rationnel, traduction en français, points principaux

Ici en pièces jointes le protocole complet contenant le rationnel, à partir de la page 25, et une traduction en français avec, surlignés, les points principaux que nous abordons ci après.

Le rationnel d'une étude, partie intégrante du protocole, explique pourquoi elle est faite, et on légitime les choix de la méthode et les buts escomptés.

Pour commencer les concepteurs n'envisagent visiblement que deux possibilités, ou un dépistage comme actuellement effectué ou bien un dépistage individualisé. Il y a bien une troisième voie, celle de pas de dépistage du tout.

1°L'objectif fixé par rapport à l'Union Européenne ne sera pas atteint

Page 25 du protocole

Il est dit : "Après analyse de toutes les composantes, l’objectif final de Mypebs est de fournir les meilleures recommandations pour la meilleure stratégie de dépistage du cancer du sein en Europe. "
Or avec une étude de non -infériorité, cela n'est pas possible. Si l' objectif principal est atteint et qu'une " non-infériorité" est démontrée, les recommandations pourront n'être que très floues ; dépistage standard ou individualisé, on ne peut trancher, le nouveau dépistage peut ne pas être moins bon en tolérant même qu'il soit de 25% moins performant.
En effet, la méthodologie prévoit ceci :
Selon le synopsis de l’étude, dans le groupe dépistage standard, on attend la survenue de 480 tumeurs de stade 2 ou plus pour 100 000 femmes au cours des 4 ans de l’essai.
Le synopsis explique que le seuil de non infériorité choisi « correspond à une augmentation jusqu’à 120/100 000 cancers de stade 2 du taux de risque cumulé sur 4 ans dans le groupe basé sur le risque individuel »
Autrement dit, s’il apparaîssent 600 cancers avancés pour 100 000 femmes (au lieu de 480), soit +25% dans le groupe dépistage individuel, alors il sera considéré comme « non inférieur » ou « équivalent » au dépistage standard.
Alors que rappelons-le, le but d'un dépistage est de diminuer le taux des cancers avancés. Cet objectif n'est pas les objectifs primaires du protocole.
Donc la recommandation émise pour l'Europe ne pourra pas être tranchée en faveur d'un dépistage individuel, puisque la supériorité en matière de réduction des cancers graves n'est pas démontrée. Conclusion, on peut continuer le dépistage habituel...

2°La transparence de l'information

Dans l'introduction déjà, le chiffre de 20% de réduction de mortalité est repris, alors que cette donnée de réduction de mortalité imputable au dépistage  est fortement contestée et même n'est plus retrouvée dans les études les plus récentes.

Page 35 il est dit :
Point 1.1.12 Communication des risques de cancer du sein dans les Mypebs

"Un enjeu majeur est de rendre les femmes plus informées et plus actives dans leurs décisions de dépistage, comme le reconnaissent clairement plusieurs études internationales. En effet, l’une des principales préoccupations des programmes nationaux de dépistage dans tous les pays participants est de promouvoir des choix éclairés quant aux décisions de participer au dépistage et aux options de traitement subséquentes. Les choix éclairés exigent que des renseignements pertinents de bonne qualité soient communiqués aux femmes, afin qu’elles puissent prendre des décisions conformes à leurs valeurs."

On est d'accord, sauf que dans la brochure donnée aux participantes, on s'occupe surtout de délivrer une information sur la façon dont le niveau de risque sera attribué à chacune, et comment on répartira dans les deux bras les participantes.

Mais l'information capitale qu'il convenait de leur délivrer est l'absence d'efficacité démontrée jusqu'à présent du dépistage en terme de réduction des cancers graves, et surtout la matérialisation du surdiagnostic, qui est le surtraitement. Ce dernier n'est jamais évoqué dans la brochure d'information.

3° Le nouveau dépistage ne diminue pas les risques

page 37 il est dit :
Point 1.1.14.

"Les essais de non infériorité sont actuellement largement utilisés dans le cas où une intervention donnée est reconnue efficace mais est associée à des toxicités importantes, et qu'on veut démontrer qu’une nouvelle intervention alternative est au moins aussi efficace, mais généralement associé à une diminution des toxicités."

C'est vrai, sauf que l'efficacité du dépistage n'est plus aussi formellement démontrée depuis les études internationales récentes, qui ne retrouvent plus la diminution de mortalité imputable au dépistage comme les premières études des années 60-80.

Surtout , page 47, point 1.1.25 il est dit :

"À ce jour, les dommages supplémentaires (mammographies faussement positives, possibles surdiagnostics, biopsies rétrospectives inutiles, mammographies faussement négatives) et les bénéfices supplémentaires de l’utilisation de l’information sur les risques polygéniques afin d'adapter les stratégies de dépistage (décès par cancer du sein évités, années de vie sauvées ajustées à la qualité de vie, réduction de la mortalité par cancer du sein) demeurent non testées et inconnues."

Les risques et leur ampleur est donc parfaitement inconnue, ce qui fait qu'on ne peut proclamer en préambule que l'étude servira à diminuer les risques si on n'en sait rien.

Pour les femmes à haut risque dans le bras dépistage individuel, ils ne seront pas diminués, on dit bien à ces femmes qu'elles ont un espoir de voir diminuer leur risque de cancer grave, cela au prix de davantage de surdiagnotic et biopsies.

Point 1.1.10, page 35

"Chez les personnes à risque élevé, même si les méfaits du dépistage ne diminueront pas et peut même augmenteront en raison d’une fréquence de dépistage plus élevée, ce dépistage a de grandes chances d’être plus efficace, comme le démontrent de nombreuses publications."

Mais les publications mentionnées dans le protocole ne sont pas des études randomisées, seulement des études en modélisation, en effet :

Page 29
Point 1.1.3.

"Modélisation des avantages potentiels du dépistage fondé sur le risque dans la population générale (Yen, Hall, Koitsatu, Onega, Morman)
La grande majorité des femmes ne présentent pas un risque accru de cancer du sein et il est recommandé de suivre les lignes directrices générales de dépistage. Seulement une femme sur neuf à risque moyen développera un cancer du sein. L’élaboration d’approches de dépistage plus efficaces et fondées sur les risques pour cette population générale nécessite des modèles d’estimation des risques validés et une évaluation de l’utilité clinique de ces modèles. Le dépistage fondé sur le risque a en effet été récemment reconnu par de nombreuses sociétés ou groupes comme une façon importante d’explorer sa capacité à mener à un meilleur dépistage, qui serait plus efficace, moins morbide et économiquement bénéfique pour la santé.

En l’absence d’essais contrôlés randomisés évaluant l’efficacité des protocoles de dépistage fondés sur les risques dans la population générale, des études de modélisation par simulation ont permis de donner une idée sur l’équilibre entre les risques et les avantages potentiels de différents protocoles de dépistage basés sur le risque."

Et enfin page 77 et 78 point 8.1

Ici sont clairement dites deux choses :

  • dans le groupe standard sont attendus 204 cas de cancer de stade 2 ou plus (42 500 femmes dans le groupe pour une incidence de 120/100 000 par an: 204=120*4*42500/100 000) et
  • on considèrera que la non infériorité sera atteinte (compte tenu des différentes hypothèses faites) s'il y a moins de 298 cancers de stade 2 ou plus dans le groupe dépistage personnalisé. Donc constater dans ce groupe de femmes jusqu'à 298 cas de cancer en plus et considérer que cela est acceptable dans le cadre de la non-infériorité, c'est énorme, car ce chiffre est bien loin des "quelques cas en plus" attendus (6 cas), chiffre basé sur un calcul basique d'un intervalle de confiance où la limite supérieur de l'intervalle de confiance du risque serait 1,25.

 

Point 1.1.16, le risque d'irradiation

Après avis de Mr Nicolas Foray, radiobiologiste, chercheur à l'INSERM (réunion 9 oct), les personnes dites à très "hauts risques" dans le protocole et comparées aux femmes à mutation BCRA, ne sont justement en rien comparables aux femmes BCRA1 ou BCRA2.

Il s'agit là d'une autre population, avec d'autres cancers, d'autres risques, qui cumule et le risque de cancer tout court, et le risque de cancer radio-induit. La bonne question à se poser est celle de la pertinence des mammographies annuelles, si on pré-suppose que le risque des femmes dites à haut risque dans MyPEBS est équivalent à celles des mutations BCRA .

Voir notre article : https://cancer-rose.fr/2019/07/18/radiotoxicite-et-depistage-de-cancer-du-sein-prudence-prudence-prudence/

4° La marge de non infériorité de 25% est importante et généreuse

Accepter une perte d'efficacité de 25% , c'est à dire jusqu'à 25% de cancers stade 2 en plus, alors que l'objectif est d'en avoir moins, est énorme..
C'est comme si on vous promettait une non diminution de salaire, mais en vous disant que votre salaire pourrait diminuer de 25%, mais qu'on va considérer cela comme équivalent.
Et surtout elle n'est nulle part justifiée dans le protocole disponible.

5° Il faudrait un bras comparatif sans dépistage

Pour évaluer correctement le surdiagnostic ainsi que les autres potentiels méfaits du dépistage, il faut reproduire l'expérience d'Oslo de 2008, c'est à dire une comparaison avec une grande population vierge de tout dépistage, ce qui permettrait un chiffrage exact du surdiagnostic. L'étude d'Oslo intégrait 200 000 femmes dans une étude randomisée.
La définition du surdiagnostic par ailleurs est étrange :

Page 81 Point 8.6.1. du document anglais

"Les cancers du sein surdiagnostiqués sont définis comme des cancers qui n’auraient jamais été diagnostiqués, si les femmes n’avaient pas été dépistées. On peut mesurer le surdiagnostic différentiel en comparant l’incidence cumulative du cancer du sein du recrutement jusqu'à une période raisonnablement longue après la fin de l'étude, c. à d. plus longue que le temps de séjour prévu des cancers détectés au dépistage. Dans cette étude, on surveillera l’incidence du cancer du sein dans les deux groupes pendant 10 et 15 ans après la fin de l’intervention."

Le surdiagnostic différentiel est évidemment la seule chose que l'étude peut mesurer, et non pas un surdiagnostic réel par rapport à un groupe vierge de dépistage, et il est quasiment mensonger de parler de surdiagnostic au sens propre, celui-ci répondant à une définition qui est celle d'un cancer qui, s'il n'avait pas été dépisté, ne serait jamais devenu clinique. D'ailleurs cette définition est correctement restituée page 26, point 3 : "dépistage d’un cancer qui ne serait pas apparu cliniquement sans dépistage".

Lire aussi "l'étude dont on rêvait"

CONCLUSION

Les promoteurs justifient le choix d'un essai de non-infériorité par la promesse de moins de dommages collatéraux ... tout en annonçant plus loin qu'ils veulent étudier ces dommages collatéraux parce qu'ils ne savent pas combien il va y en avoir.
Le surdiagnostic ne pourra être mesuré, l'objectif de non-infériorité accepte le fait qu'il n'y ait pas moins de cancers graves grâce au dépistage, mais qu'on accepte même qu'il y en ait davantage jusqu'à un seuil arbitrairement choisi de 25%.
La brochure d'information est insuffisante.
Cette étude est un plan de relance du dépistage, pas question prendre le risque d'un échec en adoptant un seuil de non-infériorité plus réaliste, ou en adoptant une supériorité comme critère principal.

L’étude dont on rêvait

L'étude dont on rêvait

Pourrait-on proposer une alternative à l'étude MyPeBS ?

Un essai randomisé, c'est à dire en attribuant par tirage au sort des femmes dans deux groupes, un "dépistage stratifié sur le risque" versus "pas de dépistage" est, d'un point de vue théorique, tout à fait possible.

On inclurait des femmes sans opinion catégorique sur le dépistage et bien informées sur le but de l'étude.

La moitié de la population concernée par le dépistage ne participe de toute façon pas au dépistage proposé, et les taux de participation en France sont même à la baisse ces dernières années.

La randomisation assurera la comparabilité des 2 groupes (groupe avec dépistage et groupe sans dépistage), les deux groupes avec des femmes correctement informées des tenants et aboutissants de l'étude..

Il y a bien sûr toujours un problème de la compliance, ou de "l'obéissance" dans le groupe "sans dépistage", c'est à dire qu'une femme de ce groupe peut échapper et quand-même avoir recours durant l'étude à un dépistage ; c'est le problème des violations de protocole, inhérent à toutes les essais.

Dans ce cas il y a une façon de gérer ce problème.

Toutes les femmes incluses dans l'essai seraient analysées, sans exception, comme si elles avaient respecté à la lettre le protocole.

On comparerait donc des femmes soumises à un dépistage organisé stratifié sur le risque à des femmes non soumises à un dépistage organisé, mais libres de passer des mammographies à titre individuel. Dans ce cas on ne répondrait donc pas à la question "le dépistage organisé stratifié fait-il mieux que pas de dépistage du tout ?" mais on répondrait à la question : "le dépistage organisé stratifié fait-il mieux que pas de dépistage organisé ?".

Idéalement, on ferait en parallèle une analyse en per protocole, c'est à dire en sélectionnant pour cette analyse spécifique uniquement les femmes qui ont réellement respecté rigoureusement le protocole.

Cette procédure que nous imaginons permettrait de répondre à la (vraie) question : le dépistage organisé stratifié sur le risque fait-il mieux que pas de dépistage organisé ?

Un moins mauvais choix aurait été :

 

Notre statisticien, Dr Robert, suggère :

"Ce qu'il aurait fallu faire :

- une étude randomisée comparant 3 bras ( femmes non dépistées, dépistées de manière standard et dépistées de manière individualisée ; davantage de sujets nécessaires NDLR)

- des résultats exprimés sous la forme d'intervalle de confiance à 95%* des différences de cancers stade 2 ou plus (3 intervalles de confiance : 1 pour la différence pas de dépistage / dépistage standard, 1 pour la différence pas de dépistage / dépistage individualisé et 1 pour la différence dépistage individualisé / dépistage standard).

Avec les intervalles de confiance, on n'impose pas de conclusion, basée sur des règles discutables. On laisse le public (décideurs, médecins, femmes) s'approprier les résultats et en tirer eux-mêmes les conclusions."

Soit la conclusion s'impose, soit les résultats sont interprétables.

Ce procédé est beaucoup plus honnête du point de vue scientifique même si moins séduisant.

*Il existe une certaine variabilité des essais cliniques. Cela signifie que si on recommence l'essai, exactement de la même façon mais avec un autre échantillon, on ne va pas retrouver exactement le même résultat que la 1ère fois. Et aucun des 2 résultats n'est, a priori, plus juste que l'autre. On ne peut donc pas affirmer que le résultat d'un essai clinique reflète exactement la vérité. En revanche , les statisticiens sont capables de calculer une plage, de part et d'autre du résultat, qui a 95 chances sur 100 de contenir la vérité (cette plage est désignée sous le nom d'intervalle de confiance à 95%).

Quel serait l'intérêt d'un groupe supplémentaire de comparaison "pas de dépistage du tout " ?

On pourrait avoir une idée concernant l'efficacité de chaque groupe sur la réduction des cancers graves, et savoir ce qu'il en est de ces "20% de réduction de mortalité" allégués constamment par les autorités et fortement mis en doute par les dernières publications récentes et indépendantes.

En revanche, pour ce qui est du surdiagnostic, l'étude peut ne pas apporter de conclusion probante.

Dans l'estimation des surdiagnostics, il faut :

- constater et estimer une différence d'incidence (de nouveaux cas) des cancers selon la stratégie de dépistage.

- mais aussi comprendre à quoi correspond cette différence (si elle existe), pour pouvoir isoler la partie "surdiagnostic".

La randomisation permet d'avoir une estimation plus fiable (sans facteurs de confusion) de la différence d'incidence dans chaque groupe, selon la stratégie de dépistage appliquée.

Mais il sera hasardeux de faire la différence entre ce qu'on appelle "avance au diagnostic" et surdiagnostic. Le fait de devancer la maladie (phénomène d'avance au diagnostic), c'est à dire de déceler des cancers avant qu'interviennent les signes cliniques, augmente automatiquement l'incidence des cancers en tout début du dépistage, mais ensuite ce taux se stabilise puisqu'on qu'on a trouvé d'un coup des cancers avant leur manifestation, avec un résultat qui tend à l'équilibre sur le long terme, c'est à dire au bout de plusieurs années.

Dans l'étude MyPEBS prévue, il y a un résultat attendu après une première période de suivi de 4 ans. Les participations au dépistage sur cette période devraient être stables. Ensuite un autre résultat est attendu après une période de 10 à 15 ans mais pendant laquelle les femmes seront libres de faire ce qu'elles veulent, participer à un dépistage ou pas.

Dans cette deuxième période la stabilité de la participation n'est plus garantie du tout. On peut donc se demander si les 4 années de suivi des femmes incluses dans l'étude seront suffisantes pour arriver à cette phase d'équilibre du taux d'incidence (c'est à dire après l'augmentation initiale de l'incidence due au phénomène d'avance au diagnostic). Rappelons que l'étude d'Oslo de 2008 comparait deux cohortes, une de femmes dépistées tous les deux ans, et l'autre sans dépistage, avec un bilan de l'étude au bout de 6 années.

Et ensuite, en deuxième période les résultats seront de toute façon ininterprétables puisqu'une participation stable des femmes à leur groupe n'est pas garantie, rendant impossible la récolte de résultats fiables.

Ce qu'on pourrait en attendre

 

Autant une bonne étude randomisée avec un groupe de comparaison "sans dépistage" devrait permettre de faire le point sur l'efficacité des différentes stratégies de dépistage (taux des cancers graves, idée du gain éventuel sur la mortalité), autant pour les surdiagnostics, cette étude n'a pas ni la durée ni la rigueur suffisante.

Elle permettra au mieux de se faire une idée de la différence de surdiagnostic entre deux groupes, mais pour estimer correctement la valeur du surdiagnostic il faudrait imaginer une étude dédiée, suffisamment longue, avec une cohorte "pure" de femmes sans dépistage, c'est à dire sans contamination du groupe témoin ; en somme refaire l'étude d'Oslo de 2008.

Conclusion

 

Ethiquement et d’un point de vue scientifique la SEULE ETUDE PROPOSABLE était une étude avec 2 bras : un bras "pas de dépistage" et un bras "dépistage sélectif" qui pourrait être meilleur que "pas de dépistage", et qui mériterait alors d’être testé par rapport au standard scientifique qui existe aujourd’hui : pas de dépistage (le dépistage actuel ayant montré sa faillite en terme de réduction significative de mortalité, réduction des formes graves, allègements thérapeutiques).

La difficulté réside dans le fait que, même avec une bonne information des femmes, des messages médicaux, sociaux et médiatiques angoissants sont infligés aux femmes se soustrayant au dépistage.

Présentation : analyse de MyPEBS

Le 1er décembre 2018 débutera une étude appelée MyPeBS (Personalising Breast Screening) sur 80 000 femmes volontaires âgées de 40 à 70 ans (30 000 en Italie, 20 000 en France, 15 000 en Israël, 10 000 en Belgique et 10 000 au Royaume-Uni).

Documents publiés par les organisateurs de MyPebs

MyPEBS SYNOPSIS . pdf

MyPEBS Présentation investigateurs

Vers_un_depistage_personnalise_des_cancers_du_sein_mel_20180709

Les groupes à risques :

 

De quoi s'agit-il ?

"Etude internationale randomisée comparant, chez les femmes âgées de 40 à 70 ans, un dépistage personnalisé en fonction du risque individuel de développer un cancer du sein, au dépistage standard."

Il s'agit d'une étude dite de non-infériorité (nous reviendrons sur ce terme dans "objectif" , voir plus bas) comparant deux groupes de femmes attribuées de façon aléatoire à deux groupes (par randomisation : c'est à dire par tirage au sort). L'un des deux groupes sera composé de femmes suivant un dépistage habituel selon les recommandations officielles en vigueur, l'autre groupe comprendra des femmes qui suivront un dépistage individualisé, basé sur une évaluation de leur risque personnel de chacune d'avoir un cancer invasif durant son existence.

Pour chaque femme, cette évaluation tiendra compte de l'âge, de ses antécédents familiaux, de la densité de ses seins ainsi que d'un test salivaire, réalisé pour une étude de polymorphisme génétique autre que sur les gènes prédisposants BCRA1 et BCRA2 (ces derniers sont recherchés chez la personne ayant un parent touché, les femmes concernées resteront dans l'essai et se verront assignées à la catégorie 'risque élevé avec suivi adéquat').

(Spécifiquement en Israël, il a été prévu que les femmes ayant signé un consentement éclairé spécial (proposé à toutes les participantes à l'entrée dans l'étude) subiront une évaluation supplémentaire des polymorphismes et de leur score génétique, dans le but d'identifier la présence de ces mutations connues chez les Ashkénazes.)

Dans le groupe standard de My-PeBS (page 10 du Synopsis), les femmes suivront un dépistage du cancer du sein conformément aux directives et procédures nationales en vigueur (qui sont toutefois différentes selon les pays, voir tableau bas de page) : mammographie tous les 2 ou trois ans et/ou tomosynthèse (TS) à partir de l'âge de 50 ans pour la France, à laquelle s’ajoutera ou pas une échographie en fonction de la densité mammaire à la mammographie.

Les femmes randomisées dans le groupe basé sur le risque individuel, incluses dès l'âge de 40 ans) devront fournir un échantillon de salive pour l'analyse du risque génétique et leur densité mammaire sera évaluée. Une estimation de leur risque individuel sera effectuée en fonction de ces paramètres et leur programme de dépistage personnalisé, basé sur le risque individuel pour les 4 années à venir, leur sera communiqué.

Que fera-t-on des données recueillies ?

Dans le groupe basé sur le risque individuel, à partir des différents résultats obtenus et synthétisés, on classera les patientes en quatre niveaux de risque : bas, moyen, élevé et très élevé.

Pour un risque bas, on effectuera le contrôle mammographique tous les quatre ans
Pour les risques moyens, une mammographie tous les deux ans, si densité élevée il se rajoutera échographie et ou une tomosynthèse* tous les deux ans.
Pour les risques élevés il y aura un examen mammographique annuel, si densité élevée il se rajoutera échographie et ou 3D tous les deux ans. (rien n'est dit sur la double lecture)
Pour les risques très élevés les femmes se voient proposer une mammographie et une IRM chaque année jusqu'à 60 ans.
Nous ne trouvons aucune information sur le fait qu'un examen clinique sera réalisé ou pas avec la procédure mammographique.

Quel est l'objectif de l'étude MyPebs ?

L'objectif principal est de rechercher si la nouvelle stratégie de dépistage basée sur le risque n'est pas inférieure que la procédure standard sur le plan de la réduction du taux de cancers graves.
On mesure donc le taux des cancers stade 2 et plus de chaque groupe, on compare statistiquement ces deux groupes afin d'effectuer un calcul de non-infériorité du groupe basé sur le risque par rapport au groupe standard.

Mais d'autres éléments seront examinés également :

  • Le taux de faux positifs et de biopsies bénignes dans les deux groupes,
  • Le taux de faux négatifs et de cancers d'intervalle,
  • Les coûts et la rentabilité de chaque stratégie,
  • Comparer la mortalité due au cancer du sein dans les deux groupes, au bout de 10 ans et de 15 ans de suivi
  • Rechercher s'il existe véritablement une valeur ajoutée de l'adjonction d'une échographie ainsi que d'une tomosynthèse (TS) dans la détection des cancers du sein de stade 2 et plus ,
  • Estimer le surdiagnostic et le surtraitement dans chaque groupe,
  • Evaluer les taux de cancers du sein identifiés à la seconde lecture dans chaque groupe
  • Evaluer la satisfaction des participantes

(Nous ne trouvons pas l'objectif d'étude de la mortalité toutes causes confondues)

Il s’agit donc de savoir si le nombre de cancers de stade avancés (stade 2 ou plus) ne sera pas statistiquement plus élevé avec la nouvelle stratégie, par comparaison avec l’ancienne, en acceptant un écart choisi à 25% . Autrement dit, on cherche à savoir si la nouvelle stratégie n’est pas moins efficace que l’ancienne, en admettant que s’il y a par exemple 24% (moins de 25%) de cancers graves en plus, les résultats sont déclarés « non-inférieurs ». Les auteurs s’autoriseront à dire que les deux types de dépistage sont aussi efficaces l'un que l'autre, et l'étude sera déclarée un succès.

Concrètement  le synopsis explique que "l'incidence attendue des cancers du sein de stade 2 et plus pour 100 000 femmes suivies pendant 1 an dans le groupe standard de l'étude My-PeBS est donc : (140 x 0,75) + (0,25 x 0,5 x 140) = 105 + 17,5 = 122. Une estimation légèrement prudente est donc de 120." Donc, les promoteurs de l'étude s'attendent à une incidence cumulée sur 4 ans de 480 tumeurs stade 2 ou plus /100.000 femmes dans le groupe dépistage standard.

Ils disent aussi : "..... correspond à une augmentation jusqu'à 120/100 000 cancers de stade 2 du taux de risque cumulé sur 4 ans dans le groupe basé sur le risque individuel sous H0),....."  Ce qui veut dire que si on additionne les 480 plus les 120 cas de cancers stade 2 attendus en plus, on arrive à 600 cas de cancers graves dans le groupe stratifié.

Autrement dit les promoteurs considèrent donc que, si l'incidence cumulée sur 4 ans pour le groupe stratifié ne dépasse pas 480 x 1,25 = 600 /100.000, on peut considérer que les 2 groupes sont équivalents en terme de résultats.
Cette définition pour le moins laxiste de la non-infériorité est d'autant plus inacceptable qu'elle n'est pas expliquée ou justifiée où que ce soit..

 

Secondairement doit être effectué un calcul de supériorité.

Si le premier calcul montre que la nouvelle stratégie n’est « pas statistiquement inférieure » à l’ancienne, un second calcul cherchera à savoir s’il y a statistiquement moins de cancers graves (de stade 2 ou plus) dans le groupe « nouvelle stratégie », par comparaison avec l’ancienne.

Autrement dit, si la nouvelle stratégie est jugée « non inférieure » en nombre de cancers graves, on cherchera à savoir si elle peut être jugée « supérieure ».

Combien de temps ?

L'inclusion se déroule sur 2 ans, avec un premier résultat attendu dans 6 ans incluant une période de suivi des groupes sur 4 ans. Une deuxième évaluation se fera ensuite après un suivi de 10 à 15 ans.

Que peut-on en attendre ?

Que peut-on attendre de cette étude ? Ses résultats pourront-ils nous donner des informations utiles ?

Page 25 du protocole il est dit : "After analyses of all components, the final objective of MyPeBS is to deliver the best recommendations for the best future breast cancer screening strategy in Europe."

"Après analyse de toutes les composantes, l’objectif final de Mypebs est de fournir les meilleures recommandations pour la meilleure stratégie de dépistage du cancer du sein en Europe. "

Or avec une étude de non -infériorité, cela n'est pas possible. Si l' objectif principal est atteint et qu'une " non-infériorité" est démontrée, les recommandations pourront n'être que de l'ordre de : " dépistage standard ou dépistage personnalisé c'est idem, ou du moins ce n'est pas moins bon en tolérant qu'il puisse y avoir jusqu'à 25% de perte de performance."

Sur notre site https://cancer-rose.fr/my-pebs/ nous examinerons en plusieurs rubriques les problèmes et défauts de MyPebs, du point de vue de la méthodologie, l’analyse statistique prévue et le formulaire de consentement distribué aux femmes.

Nous pourrons ainsi faire un bilan de ses qualités et de ses inconvénients.

* La tomosynthèse est une mammographie en trois dimensions. Elle permet, grâce à des coupes rapprochées, d’éliminer le problème de la superposition de structures du tissu mammaire pouvant simuler une lésion inquiétante.

Analyse critique, lire : https://cancer-rose.fr/my-pebs/2019/02/09/argumentaire/

Présentation simplifiée du problème que pose la méthodologie de Mypebs

Une grande difficulté réside pour tout un chacun dans la compréhension de la méthode choisie.

Nous essayons ici de simplifier.

Nous avons eu beaucoup de mal à croire que le fait de trouver, dans l'étude, un nombre de cancers de stade avancé statistiquement supérieur, mais de moins de 25% par rapport au dépistage standard, ferait conclure aux concepteurs de Mypebs que le dépistage individualisé est « non inférieur » au dépistage habituel, mais c’est bien ce qui est prévu dans le protocole

Etude MyPebs, Que veut-on faire ?

 

On veut comparer deux types du dépistage du cancer du sein, le dépistage standard (DS) et le dépistage individualisé (DI) qui, lui, est basé sur le risque individuel de chaque femme de contracter un cancer du sein.

 

Pourquoi l'étude ?

 

Le dépistage vise à détecter des cancers de faible stade afin de faire diminuer le nombre des cancers graves (de stade 2 ou plus). C'est l'objectif théorique de tout dépistage. Le dépistage standard est remis en cause, en particulier en raison de ses effets indésirables (surdiagnostic). On teste un autre mode de dépistage.

 

Le procédé

 

L'étude MyPebs ne cherche pas à vérifier si le DI réduira plus efficacement le taux de cancers graves que le DS. Non.

Elle se contente de voir si le dépistage individualisé ne laisse pas passer trop de cancers graves, par comparaison avec le dépistage standard.

C’est ce qu’on appelle un « essai de non infériorité ». Si le dépistage individualisé laisse passer moins de 25% de cancers graves de plus que le dépistage standard, on considérera qu’il est « non inférieur », et que les deux techniques, somme toute, se valent.

 

Car statistiquement parlant, et c'est là toute la subtilité, DI "non-inférieur" à DS ne signifie pas que DI est équivalent à DS, non ; DI "non-inférieur" cela signifie que DI peut très bien, mais oui, être inférieur à DS, mais sans dépasser un certain seuil préalablement déterminé.

 Concrètement :

Selon les promoteurs de l’étude, chez les femmes soumises au dépistage standard, on attend 480 tumeurs graves (de stade 2 ou plus) pour 100 000 femmes au cours des 4 ans de l’essai.

Ils expliquent qu’ils ont choisi un seuil de non infériorité de 25% qui « correspond à une augmentation tolérable, dans le groupe DI, jusqu’à 120/100 000 cancers de stade 2 (risque cumulé sur les 4 ans). Que signifie ce jargon ?

Il signifie que si, dans le groupe dépistage individualisé, il apparait plus de cancers graves que dans le groupe dépistage standard, mais que ce dépassement n’atteint pas 25%, on considérera que le dépistage individualisé est « non inférieur » au dépistage standard. En réalité, on les considérera comme équivalents.

Pour les promoteurs de MyPEBs, on peut tolérer un supplément de cancers graves de

480 x 25 % = 120. Et on peut donc accepter qu’il apparaisse 480 + 120 = 600 cancers graves pour 100 000 femmes dans ce groupe.

Donc si, dans le groupe dépistage individuel, on observe 600 cancers graves au lieu de 480 dans le groupe dépistage standard (+ 25%), on dira quand même que les deux techniques sont équivalentes.

Il pourra donc y avoir 480 X 1,25 cancers graves (= 600) dans le groupe DI, pour 100 000 femmes, sur 4 ans.
Ce 1,25 correspond à un rapport, un ratio.

Il s'agit du ratio "cancers graves DI" / "cancers graves DS".

600                /           480                          = 1,25

 

Tant que le ratio (nombre de cancers avancés DI / nombre de cancers avancés DS) ne dépasse pas 1.25, alors le dépistage individualisé ne sera pas significativement inférieur au dépistage standard, et donc tout à fait acceptable.

 

Les résultats qu'on peut attendre

 

 

Toutefois on ne se contente pas d'un seul résultat, d'un seul ratio lorsqu'on effectue une étude.

Car on considère que les résultats d'un essai pourraient être variables si on le renouvelait plusieurs fois avec d'autres échantillons.

Afin d'intégrer cette variabilité, les statisticiens calculent ce qu'on appelle un "intervalle de confiance", généralement de 95%, ce qui correspond non pas à un résultat ponctuel mais à une zone de résultats de part et d'autre du résultat médian. Cette zone c'est l'intervalle dans lequel la vérité à 95 chances sur 100 de se situer.

 

Voyons à présent ce qui pourrait se présenter comme situations lors de l'essai MyPebs.

Les flèches rouges représentent les intervalles de confiance.

Le chiffre rouge représente le ratio trouvé pour chaque situation,

1,25 est la limite de ratio à ne pas dépasser.

cliquez sur l'image

 

Situation n°1

 

groupe dépistage standard : 135 cancers avancés ; groupe dépistage individualisé : 163 cancers avancés
ratio observé = 163 / 135 = 1.21
intervalle de confiance à 95% du ratio = 0.96 à 1.53
borne supérieure de l'intervalle > 1.25   ->   perdu !

On ne peut pas conclure que le DI soit non-inférieur au DS, il l'est probablement.

 

Situation n°2

 

groupe dépistage standard : 149 cancers avancés ; groupe dépistage individualisé : 149 cancers avancés
ratio observé = 149 / 149 =
intervalle de confiance à 95% du ratio = 0.79 à 1.263
borne supérieure de l'intervalle > 1.25   ->   perdu !

On ne peut une fois encore pas conclure que le DI serait non-inférieur au DS

 

Situation n°3

 

groupe dépistage standard : 150 cancers avancés ; groupe dépistage individualisé : 148 cancers avancés
ratio observé = 148 / 150 = 0.99
intervalle de confiance à 95% du ratio = 0.78 à 1.247
borne supérieure < 1.25   ->   gagné !

On pourrait conclure à la non infériorité du DI par rapport au DS.

Toutefois, nous pensons que dans cette situation, une différence statistiquement significative aussi minime ne devrait pas être interprétée au final comme une non-infériorité. En général, dans des situations analogues pour des essais de non-infériorité sur des médicaments, c'est ce qui est observé, ces situations limites ne sont pas jugées probantes. 

Malgré le fait que nous ne disposons pas du protocole complet de l'étude gardé secret aux non-investigateurs, cette éventualité, si elle se présente, ne serait logiquement pas retenue, car manquant de puissance pour convaincre d'une véritable non-infériorité.

 

Situation n°4

 

groupe dépistage standard : 163 cancers avancés ; groupe dépistage individualisé : 135 cancers avancés
ratio observé = 135 / 163 = 0.83
intervalle de confiance à 95% du ratio = 0.65 à 1.05
borne supérieure < 1.25   ->   gagné !

On peut conclure à la non-infériorité du DI par rapport au DS

 

Conclusion

 

Voilà comment s'effectuera en pratique l'analyse dont on tirera la conclusion de MyPebs, on voit très bien à quel point des résultats quasiment identiques, très proches en tous cas,  pourraient théoriquement donner lieu à des conclusions diamétralement opposées.

Mais de toute façon, avec ce seuil arbitraire choisi, très avantageux de 25%, le dépistage individualisé aura toutes les chances d'être déclaré « non inférieur » au dépistage standard, quelle que soit son efficacité, ou son inefficacité.