Actualisation 2023-fin de l’inclusion des participantes

Synthèse par Dr Bour,
Dr V.Robert, statisticien, pour l'analyse au chapitre "un amendement apporté à l'étude" - 5 octobre 2023

MyPeBS ('My Personal Breast Screening' ou 'mon dépistage personnalisé du cancer du sein') est une étude clinique internationale affichant pour but de comparer une stratégie de dépistage personnalisée au dépistage standard en vigueur.

Initialement 85 000 puis 80 000 femmes volontaires âgées de 40 à 70 ans devaient être recrutées dans 5 pays: Belgique, France, Israël, Italie et Royaume-Uni.
Le recrutement a posé beaucoup de problèmes, l'Espagne a été donc rajoutée comme pays recruteur lors de la dernière année, afin de pallier au problème de participation.
Malgré cela, lors de l'arrêt de la phase de recrutement (août 2023), seules 53 142 femmes étaient intégrées dans l'étude.

Site officiel de MyPEBS

Rappel des objectifs de l'étude MyPEBS

Il s'agit d'une étude dont l'objectif principal est de comparer le nombre de nouveaux cas de cancers du sein avancés dans deux groupes de femmes.
Un groupe est composé de femmes soumises à un dépistage adapté à leur niveau de risque personnel de cancer du sein.
L'autre groupe de femmes sera soumis au dépistage organisé habituel.

Non-inférieur ?? Késako....

Il s'agit d'une étude dite de non-infériorité, ce qui signifie qu'il ne s'agit pas du tout de vérifier si le dépistage individuel serait meilleur que le dépistage standard.

Il s'agit de vérifier si le nouveau dispositif (dépistage individualisé) ne serait pas moins bon que le dépistage standard pour détecter des cancers de stade 2 et plus, en tolérant une certaine perte d'efficacité, à hauteur d'un certain seuil tolérable, qu'on appelle le seuil de non-infériorité.
Ici le seuil choisi est de 25%.

Les promoteurs de l’essai expliquent qu’ils s’attendent à trouver 480 nouveaux cas de tumeurs graves pour 100 000 femmes dans le groupe dépistage habituel. Si ce même taux ne dépasse pas 600 pour 100 000 femmes dans le groupe "adapté au risque", les deux groupes seront déclarés équivalents.

Cela signifie que si le taux de cancers graves est augmenté de moins de 25% (par exemple de 18%) dans le groupe "adapté au risque", alors l’étude sera un succès et affirmera que les nouvelles modalités de dépistage sont « aussi efficaces » que les anciennes. Alors qu'un dépistage est censé au départ diminuer drastiquement les formes graves lorsqu'il est vraiment performant...

Les essais de non infériorité sont des études utilisées dans le cas où une intervention donnée est reconnue efficace, mais est associée à des toxicités importantes, et qu'on veut démontrer qu’une nouvelle intervention alternative (celle qui va être testée) est au moins aussi efficace, mais généralement associé à une diminution des toxicités. Et surtout qu'il y a un avantage compensateur pour les patients.

Malheureusement l'étude MyPEBS comporte de nombreux travers que nous avions pointés du doigt.
Et le rationnel de l'étude (protocole qui justifie l'étude,
également) faisait déjà l'aveu suivant :et que nous avons téléchargé
"À ce jour, les dommages supplémentaires (mammographies faussement positives, possibles surdiagnostics, biopsies rétrospectives inutiles, mammographies faussement négatives) et les bénéfices supplémentaires de l’utilisation de l’information sur les risques polygéniques afin d'adapter les stratégies de dépistage (décès par cancer du sein évités, années de vie sauvées ajustées à la qualité de vie, réduction de la mortalité par cancer du sein) demeurent non testées et inconnues." ( page 47, point 1.1.25)
Ce qui n'est pas rassurant.

Un amendement apporté à l'étude

Du fait de l'échec de recrutement de suffisamment de femmes, un amendement (pour l'instant confidentiel) a dû être apporté à la méthodologie et au plan d'analyses statistiques de l'étude, document que nous avons pu consulter.
Par ailleurs nous disposons également d'un document PDF relatif à un webinaire de juin 2022 que nous pouvons reproduire, et il mentionne les informations de ces modifications contenues dans l'amendement.

PDF webinaire juin 2022 : MyPeBSwebinaire300622

Slide 9

Par Dr V.Robert

En raison de difficultés de recrutement, le nombre de femmes à inclure dans l'étude a dû être revu à la baisse.

Comment les promoteurs de l'étude justifient-ils cette baisse des inclusions ?

En changeant de stratégie d'analyse des résultats.

Initialement, l'analyse était prévue en per-protocole. Autrement dit, seules les participantes ayant parfaitement respecté le protocole de l'étude pouvaient être analysées. Ce mode d'analyse a une conséquence évidente : les femmes n'ayant pas respecté le protocole sont comptées dans les inclusions mais ne comptent pas dans l'analyse. Il faut donc inclure plus de femmes que le nombre nécessaire pour l'analyse. Le protocole initial prévoyait 42 500 inclusions dans chaque bras, avec 30% de "pertes" par non-respect du protocole + perdues de vue dans le bras dépistage personnalisé et 10% de "pertes" dans le bras dépistage standard (anticipated rate of non-compliance). On devait donc avoir 85000 femmes incluses (2x42500) et seulement 68000 femmes analysables (42500 – 42500x30/100 = 29750 dans le groupe dépistage personnalisé et 42500 – 42500x10/100 = 38250 dans le groupe dépistage standard).

Slide 40

L'analyse en per-protocole a été abandonnée au profit d'une analyse en intention de traiter. Dans une analyse en intention de traiter, toutes les participantes sont analysables (même les "non-compliantes"), même si elles n'ont pas respecté le protocole de l'étude. Du coup, il y a moins de "pertes". Les promoteurs de MyPeBS estiment à 5% (dropout rate) , dans chaque bras, les "pertes" par perdues de vue. Concrètement, cela signifie que, pour avoir 68000 femmes analysables, il n'y a plus besoin d'inclure que 71600 femmes (au lieu des 85000 du protocole initial) (explication : 71600 – 71600x5/100 = 68000).

En augmentant la différence supposée entre les 2 bras.

Comme 71600 femmes à inclure, c'est encore au-dessus des capacités d'inclusion, les promoteurs utilisent une autre astuce pour réduire le nombre d'inclusions nécessaires : ils font passer la différence supposée entre les 2 bras de 10% à 12,5% (relative improvement).

Pour comprendre l'intérêt de cette astuce, il faut se rappeler que chercher une différence entre 2 groupes, c'est un peu comme chercher une aiguille dans une botte de foin. Plus l'aiguille (la différence entre les groupes) est grosse, plus l'aiguille sera facile à trouver, et moins on aura besoin d'une grosse loupe (le nombre de femmes incluses). En postulant une différence de 12,5% plutôt que 10%, les promoteurs parient sur une plus grosse "aiguille" et ont besoin d'une plus petite "loupe". Cette 2ème astuce leur permet de "justifier" 56300 inclusions.

Que penser de ces justifications ?

L'analyse en intention de traiter est habituellement moins puissante mais comporte moins de risque de biais qu'une analyse en per-protocole. On peut donc facilement admettre le passage d'une analyse en per-protocole vers une analyse en intention de traiter. On peut juste s'étonner que le choix d'une analyse en intention de traiter n'ait pas été fait dès le protocole initial.

Mais le plus surprenant est l'augmentation de la différence supposée de 10 à 12,5%. Comme mentionné ci-dessus, une analyse en intention de traiter est habituellement moins puissante qu'une analyse en per-protocole (les violations du protocole conduisent à atténuer l'éventuelle supériorité d'un des bras). La logique aurait donc été de revoir à la baisse la différence supposée entre les 2 bras et certainement pas de l'augmenter.

L'explication de ces choix illogiques est évidente. Normalement, une méthodologie correcte impose de fixer le type d'analyse et l'efficacité supposée et ensuite, et seulement ensuite, de calculer les effectifs à inclure. Ici, les promoteurs de MyPeBS font exactement le contraire : ils fixent les effectifs à inclure en fonction de leur capacité d'inclusion puis ils bidouillent le type d'analyse et l'efficacité supposée jusqu'à ce que ça colle avec les effectifs prédéfinis.

On est bien loin de la rigueur qui devrait être respectée lors d'un essai clinique et cette magouille méthodologique discrédite complètement les futures conclusions de l'étude, quelles que soient ces conclusions. Les promoteurs ne sont pas responsables de l'épidémie COVID mais l'honnêteté scientifique aurait été, soit de prolonger les inclusions jusqu'aux 85000 initialement prévues, soit de jeter l'éponge et d'arrêter l'étude faute de capacité à inclure un nombre suffisant de participantes.

Problème d'une trop grande homogénéité des pannels

Le recrutement n'est pas suffisamment varié pour représenter la population, comme les promoteurs eux-mêmes s'en émeuvent dans un mail du mois de mai 2023 envoyé aux investigateurs..

L'interprétabilité des résultats est mise à mal si dans la population des femmes recrutées une catégorie socio-professionnelle se retrouve sur-représentée, ces résultats ne correspondent qu'à une catégorie de femmes d'un niveau économique particulier, et les conclusions de l'étude seront difficilement généralisables sur une population réelle bien plus diverse.

En conclusion

De toute évidence, la révision des effectifs à inclure n'est pas motivée par des considérations statistiques mais par la difficulté à inclure les femmes dans l'étude. Plutôt que de "bidouiller" le protocole pour tenter de justifier la diminution des effectifs, il eut été plus honnête de reconnaître l'échec et d'abandonner le projet.
Que l'ANSM, un CPP et UNICANCER aient accepté le "bidouillage" ne contribue pas à la crédibilité de ces institutions.

Enfin, ne l'oublions pas, cette étude ne disposant pas d'un groupe sans dépistage, elle permet de donner un seul choix aux femmes, entre un dépistage et un autre ; elle permet seulement de conclure que quelle que soit la forme de dépistage, l'un n'est pas moins bon que l'autre.

Cela permet ainsi de faire disparaitre la notion d'absence de dépistage du discours, et d'une hypothèse envisageable d'un non-dépistage tout aussi acceptable.

1 décembre 20199 octobre 2023

Le rationnel de l’étude

7 octobre 2019

Protocole et rationnel, original

Le rationnel, traduction en français, points principaux

Ici en pièces jointes le protocole complet contenant le rationnel, à partir de la page 25, et une traduction en français avec, surlignés, les points principaux que nous abordons ci après.

Le rationnel d'une étude, partie intégrante du protocole, explique pourquoi elle est faite, et on légitime les choix de la méthode et les buts escomptés.

Pour commencer les concepteurs n'envisagent visiblement que deux possibilités, ou un dépistage comme actuellement effectué ou bien un dépistage individualisé. Il y a bien une troisième voie, celle de pas de dépistage du tout.

1°L'objectif fixé par rapport à l'Union Européenne ne sera pas atteint

Page 25 du protocole

Il est dit : "Après analyse de toutes les composantes, l’objectif final de Mypebs est de fournir les meilleures recommandations pour la meilleure stratégie de dépistage du cancer du sein en Europe. "
Or avec une étude de non -infériorité, cela n'est pas possible. Si l' objectif principal est atteint et qu'une " non-infériorité" est démontrée, les recommandations pourront n'être que très floues ; dépistage standard ou individualisé, on ne peut trancher, le nouveau dépistage peut ne pas être moins bon en tolérant même qu'il soit de 25% moins performant.
En effet, la méthodologie prévoit ceci :
Selon le synopsis de l’étude, dans le groupe dépistage standard, on attend la survenue de 480 tumeurs de stade 2 ou plus pour 100 000 femmes au cours des 4 ans de l’essai.
Le synopsis explique que le seuil de non infériorité choisi « correspond à une augmentation jusqu’à 120/100 000 cancers de stade 2 du taux de risque cumulé sur 4 ans dans le groupe basé sur le risque individuel »
Autrement dit, s’il apparaîssent 600 cancers avancés pour 100 000 femmes (au lieu de 480), soit +25% dans le groupe dépistage individuel, alors il sera considéré comme « non inférieur » ou « équivalent » au dépistage standard.
Alors que rappelons-le, le but d'un dépistage est de diminuer le taux des cancers avancés. Cet objectif n'est pas les objectifs primaires du protocole.
Donc la recommandation émise pour l'Europe ne pourra pas être tranchée en faveur d'un dépistage individuel, puisque la supériorité en matière de réduction des cancers graves n'est pas démontrée. Conclusion, on peut continuer le dépistage habituel...

2°La transparence de l'information

Dans l'introduction déjà, le chiffre de 20% de réduction de mortalité est repris, alors que cette donnée de réduction de mortalité imputable au dépistage est fortement contestée et même n'est plus retrouvée dans les études les plus récentes.

Page 35 il est dit :

Point 1.1.12 Communication des risques de cancer du sein dans les Mypebs

"Un enjeu majeur est de rendre les femmes plus informées et plus actives dans leurs décisions de dépistage, comme le reconnaissent clairement plusieurs études internationales. En effet, l’une des principales préoccupations des programmes nationaux de dépistage dans tous les pays participants est de promouvoir des choix éclairés quant aux décisions de participer au dépistage et aux options de traitement subséquentes. Les choix éclairés exigent que des renseignements pertinents de bonne qualité soient communiqués aux femmes, afin qu’elles puissent prendre des décisions conformes à leurs valeurs."

On est d'accord, sauf que dans la brochure donnée aux participantes, on s'occupe surtout de délivrer une information sur la façon dont le niveau de risque sera attribué à chacune, et comment on répartira dans les deux bras les participantes.

Mais l'information capitale qu'il convenait de leur délivrer est l'absence d'efficacité démontrée jusqu'à présent du dépistage en terme de réduction des cancers graves, et surtout la matérialisation du surdiagnostic, qui est le surtraitement. Ce dernier n'est jamais évoqué dans la brochure d'information.

3° Le nouveau dépistage ne diminue pas les risques

page 37 il est dit :
Point 1.1.14.

"Les essais de non infériorité sont actuellement largement utilisés dans le cas où une intervention donnée est reconnue efficace mais est associée à des toxicités importantes, et qu'on veut démontrer qu’une nouvelle intervention alternative est au moins aussi efficace, mais généralement associé à une diminution des toxicités."

C'est vrai, sauf que l'efficacité du dépistage n'est plus aussi formellement démontrée depuis les études internationales récentes, qui ne retrouvent plus la diminution de mortalité imputable au dépistage comme les premières études des années 60-80.

Surtout , page 47, point 1.1.25 il est dit :

"À ce jour, les dommages supplémentaires (mammographies faussement positives, possibles surdiagnostics, biopsies rétrospectives inutiles, mammographies faussement négatives) et les bénéfices supplémentaires de l’utilisation de l’information sur les risques polygéniques afin d'adapter les stratégies de dépistage (décès par cancer du sein évités, années de vie sauvées ajustées à la qualité de vie, réduction de la mortalité par cancer du sein) demeurent non testées et inconnues."

Les risques et leur ampleur est donc parfaitement inconnue, ce qui fait qu'on ne peut proclamer en préambule que l'étude servira à diminuer les risques si on n'en sait rien.

Pour les femmes à haut risque dans le bras dépistage individuel, ils ne seront pas diminués, on dit bien à ces femmes qu'elles ont un espoir de voir diminuer leur risque de cancer grave, cela au prix de davantage de surdiagnotic et biopsies.

Point 1.1.10, page 35

"Chez les personnes à risque élevé, même si les méfaits du dépistage ne diminueront pas et peut même augmenteront en raison d’une fréquence de dépistage plus élevée, ce dépistage a de grandes chances d’être plus efficace, comme le démontrent de nombreuses publications."

Mais les publications mentionnées dans le protocole ne sont pas des études randomisées, seulement des études en modélisation, en effet :

Page 29
Point 1.1.3.

"Modélisation des avantages potentiels du dépistage fondé sur le risque dans la population générale (Yen, Hall, Koitsatu, Onega, Morman)
La grande majorité des femmes ne présentent pas un risque accru de cancer du sein et il est recommandé de suivre les lignes directrices générales de dépistage. Seulement une femme sur neuf à risque moyen développera un cancer du sein. L’élaboration d’approches de dépistage plus efficaces et fondées sur les risques pour cette population générale nécessite des modèles d’estimation des risques validés et une évaluation de l’utilité clinique de ces modèles. Le dépistage fondé sur le risque a en effet été récemment reconnu par de nombreuses sociétés ou groupes comme une façon importante d’explorer sa capacité à mener à un meilleur dépistage, qui serait plus efficace, moins morbide et économiquement bénéfique pour la santé.

En l’absence d’essais contrôlés randomisés évaluant l’efficacité des protocoles de dépistage fondés sur les risques dans la population générale, des études de modélisation par simulation ont permis de donner une idée sur l’équilibre entre les risques et les avantages potentiels de différents protocoles de dépistage basés sur le risque."

Et enfin page 77 et 78 point 8.1

Ici sont clairement dites deux choses :

dans le groupe standard sont attendus 204 cas de cancer de stade 2 ou plus (42 500 femmes dans le groupe pour une incidence de 120/100 000 par an: 204=120*4*42500/100 000) et
on considèrera que la non infériorité sera atteinte (compte tenu des différentes hypothèses faites) s'il y a moins de 298 cancers de stade 2 ou plus dans le groupe dépistage personnalisé. Donc constater dans ce groupe de femmes jusqu'à 298 cas de cancer en plus et considérer que cela est acceptable dans le cadre de la non-infériorité, c'est énorme, car ce chiffre est bien loin des "quelques cas en plus" attendus (6 cas), chiffre basé sur un calcul basique d'un intervalle de confiance où la limite supérieur de l'intervalle de confiance du risque serait 1,25.

Point 1.1.16, le risque d'irradiation

Après avis de Mr Nicolas Foray, radiobiologiste, chercheur à l'INSERM (réunion 9 oct), les personnes dites à très "hauts risques" dans le protocole et comparées aux femmes à mutation BCRA, ne sont justement en rien comparables aux femmes BCRA1 ou BCRA2.

Il s'agit là d'une autre population, avec d'autres cancers, d'autres risques, qui cumule et le risque de cancer tout court, et le risque de cancer radio-induit. La bonne question à se poser est celle de la pertinence des mammographies annuelles, si on pré-suppose que le risque des femmes dites à haut risque dans MyPEBS est équivalent à celles des mutations BCRA .

Voir notre article : https://cancer-rose.fr/2019/07/18/radiotoxicite-et-depistage-de-cancer-du-sein-prudence-prudence-prudence/

4° La marge de non infériorité de 25% est importante et généreuse

Accepter une perte d'efficacité de 25% , c'est à dire jusqu'à 25% de cancers stade 2 en plus, alors que l'objectif est d'en avoir moins, est énorme..
C'est comme si on vous promettait une non diminution de salaire, mais en vous disant que votre salaire pourrait diminuer de 25%, mais qu'on va considérer cela comme équivalent.
Et surtout elle n'est nulle part justifiée dans le protocole disponible.

5° Il faudrait un bras comparatif sans dépistage

Pour évaluer correctement le surdiagnostic ainsi que les autres potentiels méfaits du dépistage, il faut reproduire l'expérience d'Oslo de 2008, c'est à dire une comparaison avec une grande population vierge de tout dépistage, ce qui permettrait un chiffrage exact du surdiagnostic. L'étude d'Oslo intégrait 200 000 femmes dans une étude randomisée.
La définition du surdiagnostic par ailleurs est étrange :

Page 81 Point 8.6.1. du document anglais

"Les cancers du sein surdiagnostiqués sont définis comme des cancers qui n’auraient jamais été diagnostiqués, si les femmes n’avaient pas été dépistées. On peut mesurer le surdiagnostic différentiel en comparant l’incidence cumulative du cancer du sein du recrutement jusqu'à une période raisonnablement longue après la fin de l'étude, c. à d. plus longue que le temps de séjour prévu des cancers détectés au dépistage. Dans cette étude, on surveillera l’incidence du cancer du sein dans les deux groupes pendant 10 et 15 ans après la fin de l’intervention."

Le surdiagnostic différentiel est évidemment la seule chose que l'étude peut mesurer, et non pas un surdiagnostic réel par rapport à un groupe vierge de dépistage, et il est quasiment mensonger de parler de surdiagnostic au sens propre, celui-ci répondant à une définition qui est celle d'un cancer qui, s'il n'avait pas été dépisté, ne serait jamais devenu clinique. D'ailleurs cette définition est correctement restituée page 26, point 3 : "dépistage d’un cancer qui ne serait pas apparu cliniquement sans dépistage".

CONCLUSION

Les promoteurs justifient le choix d'un essai de non-infériorité par la promesse de moins de dommages collatéraux ... tout en annonçant plus loin qu'ils veulent étudier ces dommages collatéraux parce qu'ils ne savent pas combien il va y en avoir.
Le surdiagnostic ne pourra être mesuré, l'objectif de non-infériorité accepte le fait qu'il n'y ait pas moins de cancers graves grâce au dépistage, mais qu'on accepte même qu'il y en ait davantage jusqu'à un seuil arbitrairement choisi de 25%.
La brochure d'information est insuffisante.
Cette étude est un plan de relance du dépistage, pas question prendre le risque d'un échec en adoptant un seuil de non-infériorité plus réaliste, ou en adoptant une supériorité comme critère principal.

9 mars 201911 mars 2020

L’étude dont on rêvait

L'étude dont on rêvait

Pourrait-on proposer une alternative à l'étude MyPeBS ?

Un essai randomisé, c'est à dire en attribuant par tirage au sort des femmes dans deux groupes, un "dépistage stratifié sur le risque" versus "pas de dépistage" est, d'un point de vue théorique, tout à fait possible.

On inclurait des femmes sans opinion catégorique sur le dépistage et bien informées sur le but de l'étude.

La moitié de la population concernée par le dépistage ne participe de toute façon pas au dépistage proposé, et les taux de participation en France sont même à la baisse ces dernières années.

La randomisation assurera la comparabilité des 2 groupes (groupe avec dépistage et groupe sans dépistage), les deux groupes avec des femmes correctement informées des tenants et aboutissants de l'étude..

Il y a bien sûr toujours un problème de la compliance, ou de "l'obéissance" dans le groupe "sans dépistage", c'est à dire qu'une femme de ce groupe peut échapper et quand-même avoir recours durant l'étude à un dépistage ; c'est le problème des violations de protocole, inhérent à toutes les essais.

Dans ce cas il y a une façon de gérer ce problème.

Toutes les femmes incluses dans l'essai seraient analysées, sans exception, comme si elles avaient respecté à la lettre le protocole.

On comparerait donc des femmes soumises à un dépistage organisé stratifié sur le risque à des femmes non soumises à un dépistage organisé, mais libres de passer des mammographies à titre individuel. Dans ce cas on ne répondrait donc pas à la question "le dépistage organisé stratifié fait-il mieux que pas de dépistage du tout ?" mais on répondrait à la question : "le dépistage organisé stratifié fait-il mieux que pas de dépistage organisé ?".

Idéalement, on ferait en parallèle une analyse en per protocole, c'est à dire en sélectionnant pour cette analyse spécifique uniquement les femmes qui ont réellement respecté rigoureusement le protocole.

Cette procédure que nous imaginons permettrait de répondre à la (vraie) question : le dépistage organisé stratifié sur le risque fait-il mieux que pas de dépistage organisé ?

Un moins mauvais choix aurait été :

Notre statisticien, Dr Robert, suggère :

"Ce qu'il aurait fallu faire :

- une étude randomisée comparant 3 bras ( femmes non dépistées, dépistées de manière standard et dépistées de manière individualisée ; davantage de sujets nécessaires NDLR)

- des résultats exprimés sous la forme d'intervalle de confiance à 95%* des différences de cancers stade 2 ou plus (3 intervalles de confiance : 1 pour la différence pas de dépistage / dépistage standard, 1 pour la différence pas de dépistage / dépistage individualisé et 1 pour la différence dépistage individualisé / dépistage standard).

Avec les intervalles de confiance, on n'impose pas de conclusion, basée sur des règles discutables. On laisse le public (décideurs, médecins, femmes) s'approprier les résultats et en tirer eux-mêmes les conclusions."

Soit la conclusion s'impose, soit les résultats sont interprétables.

Ce procédé est beaucoup plus honnête du point de vue scientifique même si moins séduisant.

*Il existe une certaine variabilité des essais cliniques. Cela signifie que si on recommence l'essai, exactement de la même façon mais avec un autre échantillon, on ne va pas retrouver exactement le même résultat que la 1ère fois. Et aucun des 2 résultats n'est, a priori, plus juste que l'autre. On ne peut donc pas affirmer que le résultat d'un essai clinique reflète exactement la vérité. En revanche , les statisticiens sont capables de calculer une plage, de part et d'autre du résultat, qui a 95 chances sur 100 de contenir la vérité (cette plage est désignée sous le nom d'intervalle de confiance à 95%).

Quel serait l'intérêt d'un groupe supplémentaire de comparaison "pas de dépistage du tout " ?

On pourrait avoir une idée concernant l'efficacité de chaque groupe sur la réduction des cancers graves, et savoir ce qu'il en est de ces "20% de réduction de mortalité" allégués constamment par les autorités et fortement mis en doute par les dernières publications récentes et indépendantes.

En revanche, pour ce qui est du surdiagnostic, l'étude peut ne pas apporter de conclusion probante.

Dans l'estimation des surdiagnostics, il faut :

- constater et estimer une différence d'incidence (de nouveaux cas) des cancers selon la stratégie de dépistage.

- mais aussi comprendre à quoi correspond cette différence (si elle existe), pour pouvoir isoler la partie "surdiagnostic".

La randomisation permet d'avoir une estimation plus fiable (sans facteurs de confusion) de la différence d'incidence dans chaque groupe, selon la stratégie de dépistage appliquée.

Mais il sera hasardeux de faire la différence entre ce qu'on appelle "avance au diagnostic" et surdiagnostic. Le fait de devancer la maladie (phénomène d'avance au diagnostic), c'est à dire de déceler des cancers avant qu'interviennent les signes cliniques, augmente automatiquement l'incidence des cancers en tout début du dépistage, mais ensuite ce taux se stabilise puisqu'on qu'on a trouvé d'un coup des cancers avant leur manifestation, avec un résultat qui tend à l'équilibre sur le long terme, c'est à dire au bout de plusieurs années.

Dans l'étude MyPEBS prévue, il y a un résultat attendu après une première période de suivi de 4 ans. Les participations au dépistage sur cette période devraient être stables. Ensuite un autre résultat est attendu après une période de 10 à 15 ans mais pendant laquelle les femmes seront libres de faire ce qu'elles veulent, participer à un dépistage ou pas.

Dans cette deuxième période la stabilité de la participation n'est plus garantie du tout. On peut donc se demander si les 4 années de suivi des femmes incluses dans l'étude seront suffisantes pour arriver à cette phase d'équilibre du taux d'incidence (c'est à dire après l'augmentation initiale de l'incidence due au phénomène d'avance au diagnostic). Rappelons que l'étude d'Oslo de 2008 comparait deux cohortes, une de femmes dépistées tous les deux ans, et l'autre sans dépistage, avec un bilan de l'étude au bout de 6 années.

Et ensuite, en deuxième période les résultats seront de toute façon ininterprétables puisqu'une participation stable des femmes à leur groupe n'est pas garantie, rendant impossible la récolte de résultats fiables.

Ce qu'on pourrait en attendre

Autant une bonne étude randomisée avec un groupe de comparaison "sans dépistage" devrait permettre de faire le point sur l'efficacité des différentes stratégies de dépistage (taux des cancers graves, idée du gain éventuel sur la mortalité), autant pour les surdiagnostics, cette étude n'a pas ni la durée ni la rigueur suffisante.

Elle permettra au mieux de se faire une idée de la différence de surdiagnostic entre deux groupes, mais pour estimer correctement la valeur du surdiagnostic il faudrait imaginer une étude dédiée, suffisamment longue, avec une cohorte "pure" de femmes sans dépistage, c'est à dire sans contamination du groupe témoin ; en somme refaire l'étude d'Oslo de 2008.

Conclusion

Ethiquement et d’un point de vue scientifique la SEULE ETUDE PROPOSABLE était une étude avec 2 bras : un bras "pas de dépistage" et un bras "dépistage sélectif" qui pourrait être meilleur que "pas de dépistage", et qui mériterait alors d’être testé par rapport au standard scientifique qui existe aujourd’hui : pas de dépistage (le dépistage actuel ayant montré sa faillite en terme de réduction significative de mortalité, réduction des formes graves, allègements thérapeutiques).

La difficulté réside dans le fait que, même avec une bonne information des femmes, des messages médicaux, sociaux et médiatiques angoissants sont infligés aux femmes se soustrayant au dépistage.

1 mars 201912 novembre 2019

Présentation : analyse de MyPEBS

Le 1er décembre 2018 débutera une étude appelée MyPeBS (Personalising Breast Screening) sur 80 000 femmes volontaires âgées de 40 à 70 ans (30 000 en Italie, 20 000 en France, 15 000 en Israël, 10 000 en Belgique et 10 000 au Royaume-Uni).

Documents publiés par les organisateurs de MyPebs

MyPEBS SYNOPSIS . pdf

MyPEBS Présentation investigateurs

Vers_un_depistage_personnalise_des_cancers_du_sein_mel_20180709

Les groupes à risques :

De quoi s'agit-il ?

"Etude internationale randomisée comparant, chez les femmes âgées de 40 à 70 ans, un dépistage personnalisé en fonction du risque individuel de développer un cancer du sein, au dépistage standard."

Il s'agit d'une étude dite de non-infériorité (nous reviendrons sur ce terme dans "objectif" , voir plus bas) comparant deux groupes de femmes attribuées de façon aléatoire à deux groupes (par randomisation : c'est à dire par tirage au sort). L'un des deux groupes sera composé de femmes suivant un dépistage habituel selon les recommandations officielles en vigueur, l'autre groupe comprendra des femmes qui suivront un dépistage individualisé, basé sur une évaluation de leur risque personnel de chacune d'avoir un cancer invasif durant son existence.

Pour chaque femme, cette évaluation tiendra compte de l'âge, de ses antécédents familiaux, de la densité de ses seins ainsi que d'un test salivaire, réalisé pour une étude de polymorphisme génétique autre que sur les gènes prédisposants BCRA1 et BCRA2 (ces derniers sont recherchés chez la personne ayant un parent touché, les femmes concernées resteront dans l'essai et se verront assignées à la catégorie 'risque élevé avec suivi adéquat').

(Spécifiquement en Israël, il a été prévu que les femmes ayant signé un consentement éclairé spécial (proposé à toutes les participantes à l'entrée dans l'étude) subiront une évaluation supplémentaire des polymorphismes et de leur score génétique, dans le but d'identifier la présence de ces mutations connues chez les Ashkénazes.)

Dans le groupe standard de My-PeBS (page 10 du Synopsis), les femmes suivront un dépistage du cancer du sein conformément aux directives et procédures nationales en vigueur (qui sont toutefois différentes selon les pays, voir tableau bas de page) : mammographie tous les 2 ou trois ans et/ou tomosynthèse (TS) à partir de l'âge de 50 ans pour la France, à laquelle s’ajoutera ou pas une échographie en fonction de la densité mammaire à la mammographie.

Les femmes randomisées dans le groupe basé sur le risque individuel, incluses dès l'âge de 40 ans) devront fournir un échantillon de salive pour l'analyse du risque génétique et leur densité mammaire sera évaluée. Une estimation de leur risque individuel sera effectuée en fonction de ces paramètres et leur programme de dépistage personnalisé, basé sur le risque individuel pour les 4 années à venir, leur sera communiqué.

Que fera-t-on des données recueillies ?

Dans le groupe basé sur le risque individuel, à partir des différents résultats obtenus et synthétisés, on classera les patientes en quatre niveaux de risque : bas, moyen, élevé et très élevé.

Pour un risque bas, on effectuera le contrôle mammographique tous les quatre ans
Pour les risques moyens, une mammographie tous les deux ans, si densité élevée il se rajoutera échographie et ou une tomosynthèse* tous les deux ans.
Pour les risques élevés il y aura un examen mammographique annuel, si densité élevée il se rajoutera échographie et ou 3D tous les deux ans. (rien n'est dit sur la double lecture)
Pour les risques très élevés les femmes se voient proposer une mammographie et une IRM chaque année jusqu'à 60 ans.
Nous ne trouvons aucune information sur le fait qu'un examen clinique sera réalisé ou pas avec la procédure mammographique.

Quel est l'objectif de l'étude MyPebs ?

L'objectif principal est de rechercher si la nouvelle stratégie de dépistage basée sur le risque n'est pas inférieure que la procédure standard sur le plan de la réduction du taux de cancers graves.
On mesure donc le taux des cancers stade 2 et plus de chaque groupe, on compare statistiquement ces deux groupes afin d'effectuer un calcul de non-infériorité du groupe basé sur le risque par rapport au groupe standard.

Mais d'autres éléments seront examinés également :

Le taux de faux positifs et de biopsies bénignes dans les deux groupes,
Le taux de faux négatifs et de cancers d'intervalle,
Les coûts et la rentabilité de chaque stratégie,
Comparer la mortalité due au cancer du sein dans les deux groupes, au bout de 10 ans et de 15 ans de suivi
Rechercher s'il existe véritablement une valeur ajoutée de l'adjonction d'une échographie ainsi que d'une tomosynthèse (TS) dans la détection des cancers du sein de stade 2 et plus ,
Estimer le surdiagnostic et le surtraitement dans chaque groupe,
Evaluer les taux de cancers du sein identifiés à la seconde lecture dans chaque groupe
Evaluer la satisfaction des participantes

(Nous ne trouvons pas l'objectif d'étude de la mortalité toutes causes confondues)

Il s’agit donc de savoir si le nombre de cancers de stade avancés (stade 2 ou plus) ne sera pas statistiquement plus élevé avec la nouvelle stratégie, par comparaison avec l’ancienne, en acceptant un écart choisi à 25% . Autrement dit, on cherche à savoir si la nouvelle stratégie n’est pas moins efficace que l’ancienne, en admettant que s’il y a par exemple 24% (moins de 25%) de cancers graves en plus, les résultats sont déclarés « non-inférieurs ». Les auteurs s’autoriseront à dire que les deux types de dépistage sont aussi efficaces l'un que l'autre, et l'étude sera déclarée un succès.

Concrètement le synopsis explique que "l'incidence attendue des cancers du sein de stade 2 et plus pour 100 000 femmes suivies pendant 1 an dans le groupe standard de l'étude My-PeBS est donc : (140 x 0,75) + (0,25 x 0,5 x 140) = 105 + 17,5 = 122. Une estimation légèrement prudente est donc de 120." Donc, les promoteurs de l'étude s'attendent à une incidence cumulée sur 4 ans de 480 tumeurs stade 2 ou plus /100.000 femmes dans le groupe dépistage standard.

Ils disent aussi : "..... correspond à une augmentation jusqu'à 120/100 000 cancers de stade 2 du taux de risque cumulé sur 4 ans dans le groupe basé sur le risque individuel sous H0),....." Ce qui veut dire que si on additionne les 480 plus les 120 cas de cancers stade 2 attendus en plus, on arrive à 600 cas de cancers graves dans le groupe stratifié.

Autrement dit les promoteurs considèrent donc que, si l'incidence cumulée sur 4 ans pour le groupe stratifié ne dépasse pas 480 x 1,25 = 600 /100.000, on peut considérer que les 2 groupes sont équivalents en terme de résultats.
Cette définition pour le moins laxiste de la non-infériorité est d'autant plus inacceptable qu'elle n'est pas expliquée ou justifiée où que ce soit..

Secondairement doit être effectué un calcul de supériorité.

Si le premier calcul montre que la nouvelle stratégie n’est « pas statistiquement inférieure » à l’ancienne, un second calcul cherchera à savoir s’il y a statistiquement moins de cancers graves (de stade 2 ou plus) dans le groupe « nouvelle stratégie », par comparaison avec l’ancienne.

Autrement dit, si la nouvelle stratégie est jugée « non inférieure » en nombre de cancers graves, on cherchera à savoir si elle peut être jugée « supérieure ».

Combien de temps ?

L'inclusion se déroule sur 2 ans, avec un premier résultat attendu dans 6 ans incluant une période de suivi des groupes sur 4 ans. Une deuxième évaluation se fera ensuite après un suivi de 10 à 15 ans.

Que peut-on en attendre ?

Que peut-on attendre de cette étude ? Ses résultats pourront-ils nous donner des informations utiles ?

Page 25 du protocole il est dit : "After analyses of all components, the final objective of MyPeBS is to deliver the best recommendations for the best future breast cancer screening strategy in Europe."

"Après analyse de toutes les composantes, l’objectif final de Mypebs est de fournir les meilleures recommandations pour la meilleure stratégie de dépistage du cancer du sein en Europe. "

Or avec une étude de non -infériorité, cela n'est pas possible. Si l' objectif principal est atteint et qu'une " non-infériorité" est démontrée, les recommandations pourront n'être que de l'ordre de : " dépistage standard ou dépistage personnalisé c'est idem, ou du moins ce n'est pas moins bon en tolérant qu'il puisse y avoir jusqu'à 25% de perte de performance."

Sur notre site https://cancer-rose.fr/my-pebs/ nous examinerons en plusieurs rubriques les problèmes et défauts de MyPebs, du point de vue de la méthodologie, l’analyse statistique prévue et le formulaire de consentement distribué aux femmes.

Nous pourrons ainsi faire un bilan de ses qualités et de ses inconvénients.

* La tomosynthèse est une mammographie en trois dimensions. Elle permet, grâce à des coupes rapprochées, d’éliminer le problème de la superposition de structures du tissu mammaire pouvant simuler une lésion inquiétante.

Analyse critique, lire : https://cancer-rose.fr/my-pebs/2019/02/09/argumentaire/

25 février 201910 septembre 2019

Présentation simplifiée du problème que pose la méthodologie de Mypebs

Une grande difficulté réside pour tout un chacun dans la compréhension de la méthode choisie.

Nous essayons ici de simplifier.

Nous avons eu beaucoup de mal à croire que le fait de trouver, dans l'étude, un nombre de cancers de stade avancé statistiquement supérieur, mais de moins de 25% par rapport au dépistage standard, ferait conclure aux concepteurs de Mypebs que le dépistage individualisé est « non inférieur » au dépistage habituel, mais c’est bien ce qui est prévu dans le protocole.

Etude MyPebs, Que veut-on faire ?

On veut comparer deux types du dépistage du cancer du sein, le dépistage standard (DS) et le dépistage individualisé (DI) qui, lui, est basé sur le risque individuel de chaque femme de contracter un cancer du sein.

Pourquoi l'étude ?

Le dépistage vise à détecter des cancers de faible stade afin de faire diminuer le nombre des cancers graves (de stade 2 ou plus). C'est l'objectif théorique de tout dépistage. Le dépistage standard est remis en cause, en particulier en raison de ses effets indésirables (surdiagnostic). On teste un autre mode de dépistage.

Le procédé

L'étude MyPebs ne cherche pas à vérifier si le DI réduira plus efficacement le taux de cancers graves que le DS. Non.

Elle se contente de voir si le dépistage individualisé ne laisse pas passer trop de cancers graves, par comparaison avec le dépistage standard.

C’est ce qu’on appelle un « essai de non infériorité ». Si le dépistage individualisé laisse passer moins de 25% de cancers graves de plus que le dépistage standard, on considérera qu’il est « non inférieur », et que les deux techniques, somme toute, se valent.

Car statistiquement parlant, et c'est là toute la subtilité, DI "non-inférieur" à DS ne signifie pas que DI est équivalent à DS, non ; DI "non-inférieur" cela signifie que DI peut très bien, mais oui, être inférieur à DS, mais sans dépasser un certain seuil préalablement déterminé.

Concrètement :

Selon les promoteurs de l’étude, chez les femmes soumises au dépistage standard, on attend 480 tumeurs graves (de stade 2 ou plus) pour 100 000 femmes au cours des 4 ans de l’essai.

Ils expliquent qu’ils ont choisi un seuil de non infériorité de 25% qui « correspond à une augmentation tolérable, dans le groupe DI, jusqu’à 120/100 000 cancers de stade 2 (risque cumulé sur les 4 ans). Que signifie ce jargon ?

Il signifie que si, dans le groupe dépistage individualisé, il apparait plus de cancers graves que dans le groupe dépistage standard, mais que ce dépassement n’atteint pas 25%, on considérera que le dépistage individualisé est « non inférieur » au dépistage standard. En réalité, on les considérera comme équivalents.

Pour les promoteurs de MyPEBs, on peut tolérer un supplément de cancers graves de

480 x 25 % = 120. Et on peut donc accepter qu’il apparaisse 480 + 120 = 600 cancers graves pour 100 000 femmes dans ce groupe.

Donc si, dans le groupe dépistage individuel, on observe 600 cancers graves au lieu de 480 dans le groupe dépistage standard (+ 25%), on dira quand même que les deux techniques sont équivalentes.

Il pourra donc y avoir 480 X 1,25 cancers graves (= 600) dans le groupe DI, pour 100 000 femmes, sur 4 ans.
Ce 1,25 correspond à un rapport, un ratio.

Il s'agit du ratio "cancers graves DI" / "cancers graves DS".

600 / 480 = 1,25

Tant que le ratio (nombre de cancers avancés DI / nombre de cancers avancés DS) ne dépasse pas 1.25, alors le dépistage individualisé ne sera pas significativement inférieur au dépistage standard, et donc tout à fait acceptable.

Les résultats qu'on peut attendre

Toutefois on ne se contente pas d'un seul résultat, d'un seul ratio lorsqu'on effectue une étude.

Car on considère que les résultats d'un essai pourraient être variables si on le renouvelait plusieurs fois avec d'autres échantillons.

Afin d'intégrer cette variabilité, les statisticiens calculent ce qu'on appelle un "intervalle de confiance", généralement de 95%, ce qui correspond non pas à un résultat ponctuel mais à une zone de résultats de part et d'autre du résultat médian. Cette zone c'est l'intervalle dans lequel la vérité à 95 chances sur 100 de se situer.

Voyons à présent ce qui pourrait se présenter comme situations lors de l'essai MyPebs.

Les flèches rouges représentent les intervalles de confiance.

Le chiffre rouge représente le ratio trouvé pour chaque situation,

1,25 est la limite de ratio à ne pas dépasser.

cliquez sur l'image

Situation n°1

groupe dépistage standard : 135 cancers avancés ; groupe dépistage individualisé : 163 cancers avancés
ratio observé = 163 / 135 = 1.21
intervalle de confiance à 95% du ratio = 0.96 à 1.53
borne supérieure de l'intervalle > 1.25 -> perdu !

On ne peut pas conclure que le DI soit non-inférieur au DS, il l'est probablement.

Situation n°2

groupe dépistage standard : 149 cancers avancés ; groupe dépistage individualisé : 149 cancers avancés
ratio observé = 149 / 149 = 1
intervalle de confiance à 95% du ratio = 0.79 à 1.263
borne supérieure de l'intervalle > 1.25 -> perdu !

On ne peut une fois encore pas conclure que le DI serait non-inférieur au DS

Situation n°3

groupe dépistage standard : 150 cancers avancés ; groupe dépistage individualisé : 148 cancers avancés
ratio observé = 148 / 150 = 0.99
intervalle de confiance à 95% du ratio = 0.78 à 1.247
borne supérieure < 1.25 -> gagné !

On pourrait conclure à la non infériorité du DI par rapport au DS.

Toutefois, nous pensons que dans cette situation, une différence statistiquement significative aussi minime ne devrait pas être interprétée au final comme une non-infériorité. En général, dans des situations analogues pour des essais de non-infériorité sur des médicaments, c'est ce qui est observé, ces situations limites ne sont pas jugées probantes.

Malgré le fait que nous ne disposons pas du protocole complet de l'étude gardé secret aux non-investigateurs, cette éventualité, si elle se présente, ne serait logiquement pas retenue, car manquant de puissance pour convaincre d'une véritable non-infériorité.

Situation n°4

groupe dépistage standard : 163 cancers avancés ; groupe dépistage individualisé : 135 cancers avancés
ratio observé = 135 / 163 = 0.83
intervalle de confiance à 95% du ratio = 0.65 à 1.05
borne supérieure < 1.25 -> gagné !

On peut conclure à la non-infériorité du DI par rapport au DS

Conclusion

Voilà comment s'effectuera en pratique l'analyse dont on tirera la conclusion de MyPebs, on voit très bien à quel point des résultats quasiment identiques, très proches en tous cas, pourraient théoriquement donner lieu à des conclusions diamétralement opposées.

Mais de toute façon, avec ce seuil arbitraire choisi, très avantageux de 25%, le dépistage individualisé aura toutes les chances d'être déclaré « non inférieur » au dépistage standard, quelle que soit son efficacité, ou son inefficacité.

Rappel des objectifs de l'étude MyPEBS

Non-inférieur ?? Késako....

Un amendement apporté à l'étude

Problème d'une trop grande homogénéité des pannels

En conclusion

Le rationnel d'une étude, partie intégrante du protocole, explique pourquoi elle est faite, et on légitime les choix de la méthode et les buts escomptés.

1°L'objectif fixé par rapport à l'Union Européenne ne sera pas atteint

Page 25 du protocole

2°La transparence de l'information

Page 35 il est dit :

Point 1.1.12 Communication des risques de cancer du sein dans les Mypebs

3° Le nouveau dépistage ne diminue pas les risques

page 37 il est dit : Point 1.1.14.

Surtout , page 47, point 1.1.25 il est dit :

Point 1.1.10, page 35

Page 29 Point 1.1.3.

Et enfin page 77 et 78 point 8.1

Point 1.1.16, le risque d'irradiation

4° La marge de non infériorité de 25% est importante et généreuse

5° Il faudrait un bras comparatif sans dépistage

Page 81 Point 8.6.1. du document anglais

CONCLUSION

L'étude dont on rêvait

Pourrait-on proposer une alternative à l'étude MyPeBS ?

Un moins mauvais choix aurait été :

Ce qu'on pourrait en attendre

Conclusion

De quoi s'agit-il ?

Que fera-t-on des données recueillies ?

Quel est l'objectif de l'étude MyPebs ?

Combien de temps ?

Que peut-on en attendre ?

Etude MyPebs, Que veut-on faire ?

Pourquoi l'étude ?

Le procédé

Les résultats qu'on peut attendre

Les flèches rouges représentent les intervalles de confiance.

Situation n°1

Situation n°2

Situation n°3

Situation n°4

Conclusion

page 37 il est dit :
Point 1.1.14.

Page 29
Point 1.1.3.