Construction d'un score prédictif du cancer du sein adapté à la population française : évaluation, validation interne et externe, pouvoir discriminant, calibration et performance du modèle

par Emmanuel Bonnet

Projet de thèse en Biostatistique

Sous la direction de Paul Landais et de Jean-Pierre Daurès.

Thèses en préparation à Montpellier , dans le cadre de École Doctorale Information, Structures, Systèmes (Montpellier ; 2015) , en partenariat avec LBERC - Laboratoire de Biostatistique, Epidémiologie et Recherche Clinique (laboratoire) et de Biostatique, Epidémiologie clinique, Santé Publique et Information Médicale - BESPIM (equipe de recherche) depuis le 01-10-2017 .


  • Résumé

    L'efficacité de la lutte contre le cancer passe par un dépistage précoce. C'est un objectif majeur pour améliorer le pronostic de cette cause principale de mortalité féminine. Près de 90% des femmes pourrait ne pas récidiver si les tumeurs faisaient moins de 1 cm lors du diagnostic. Le dépistage mammographique [1] et l'IRM ont amélioré le pronostic mais leur sensibilité reste insuffisante. Le cancer dépend de facteurs génétiques et environnementaux qui commencent à être bien identifiés. Il est actuellement impossible de développer des investigations plus poussées sur l'ensemble de la population pour une raison financière évidente. Par contre, si nous pouvions isoler un groupe de femmes à risque particulièrement élevé de cancer du sein, nous pourrions fonder une politique de prise en charge efficace, en les excluant du dépistage organisé si elles en relèvent et dans tous les cas en les surveillant par des méthodes adaptées, et développer de nouvelles stratégies prédictives basées sur des techniques de biologie moléculaire. Il existe déjà des index prédictifs (Gail [8], Claus [4], IBIS [7], BRCAPRO [5], BOADICEA [6]) dont le contenu est détaillé dans le Tableau 1. Une analyse de ces modèles (A de Pauw) [3], montre des insuffisances qui rendent ces modèles perfectibles, et une étude espagnole [2] a montré que l'index de Gail n'est pas adapté à la population hispanique. On notera qu'il n'y a pas d'information récente dans la littérature sur les propriétés statistiques de ces modèles. De plus, des facteurs connus comme à risque ne sont inclus dans aucun de ces modèles, à savoir : la densité mammaire, l'activité physique, l'utilisation d'oestro progestatifs avant la ménopause, l'utilisation d'un traitement hormonal substitutif (THM) après, une partie de la génétique familiale ou somatique (dont le père des femmes suivies), l'exposition aux xénoestrogènes (alimentaires ou environnementaux), la consommation d'alcool ou l'ostéoporose. Il est par ailleurs intéressant de noter que, souvent, seule la discrimination (capacité d'un modèle à prédire le risque d'être malade des non malades : mesure de l'aire sous la courbe ROC (AUC)) est validée. La calibration (concordance entre la probabilité prédite et observée, estimée par le rapport du nombre de cas observés sur le nombre de cas attendus par le modèle (O/E)) (60% pour GAIL) ainsi que la validation interne (robustesse du modèle : performance corrigée par l'optimisme) et externe (transportabilité du modèle à d'autres populations) sont souvent insuffisantes. Les analyses de sur-ajustement et d'optimisme (i.e. validation interne) sont rarement réalisées. Le projet se situe exactement dans les recommandations faites par l'INCa suite aux concertations citoyennes de mai 2016 [12] et ceci autant au niveau des citoyennes, qui insistent pour que le dépistage devienne « de plus en plus personnalisé selon les facteurs de risque des individus », que des professionnels qui désirent « déterminer le niveau de risque individuel, si possible à 40 ans, sur la base d'un outil à définir, type score de Gail ». Certaines femmes du DO sont à risque plus élevé que d'autres tout en étant dans le groupe de risque « normal ». Il faut les identifier pour les prendre en charge autrement. De plus, les femmes hors du DO pour des raisons d'âge gagneraient à connaitre leur score de risque pour que leur praticien puisse envisager un suivi adéquat (« dépistage » des femmes jeunes à risque élevé et très élevé). La fonction de risque peut aussi permettre, en présence d'un cancer du sein, d'optimiser la prise en charge par, par exemple, la connaissance de la positivité de certains marqueurs (thérapie ciblée) Objectif L'objectif est donc de créer un nouveau score individuel prédictif du risque de cancer du sein chez la femme française ; en proposant une validation complète : interne et externe avec évaluation du pouvoir discriminant et de calibration. Il est nouveau au sens de la population concernée et des variables incluses, prenant en compte un ensemble des facteurs de risque cités ci-dessus. Hypothèses Détecter les femmes à risque élevé parmi les femmes bénéficiant du DO d'un cancer du sein permet d'identifier une sous-population susceptible de bénéficier d'un « dépistage » individuel spécifique et plus adapté que le DO. Détecter les femmes à risque élevé hors du DO permet de mieux les suivre, de faire des diagnostics plus précoces, donc de diminuer la mortalité et de gagner des années de vies. Identifier chez les femmes à risque élevé les covariables causales permet de diminuer le risque (part attribuable des variables modifiables) et/ou, s'il y a cancer du sein, d'optimiser le traitement.

  • Titre traduit

    Construction of a predictive score of breast cancer: assessment, internal and external validation, discriminative power, calibration and performance of the model.


  • Résumé

    The effectiveness of the fight against cancer goes through an early detection. It is a major objective to improve the prognosis for this leading cause of female mortality. Nearly 90 percent of women might not to relapse if tumors were less than 1 cm at time of diagnosis. Mammographic screening [1] and MRI have improved the prognosis, but their sensitivity is insufficient. Cancer depends on genetic and environmental factors that are starting to be identified. It is currently impossible to develop investigations further on the whole population for an obvious financial reason. On the other hand, if we could identify a group of women at particularly high risk of breast cancer, we could base a policy of effective management, by excluding them from the screening procedure and in all cases by their monitoring by appropriate methods, and develop new predictive strategies based on techniques of molecular biology. There are already predictive index (Gail [8], Claus [4], [7] IBIS, BRCAPRO [5], BOADICEA [6]). An analysis of these models (A de Pauw) [3], shows the shortcomings that make these models upgradeable, and a Spanish study [2] showed that Gail's index was not suitable for the Hispanic population. It should be noted that there is no recent information in the literature on the statistical properties of these models. Moreover, known risk factors are not included in any of these models, namely: breast density, physical activity, the use of estroprogestogestational treatment before menopause, use of hormone replacement therapy (HRT), part of the family or somatic genetics (including the fathers of the women followed), exposure to Xenoestrogens (environmental or food), alcohol consumption, or osteoporosis. The project exactly follows the recommendations of the INCa, it also follows the citizen consultations of May 2016 [12] and this as much at the level of the citizens, who insist that testing becomes 'increasingly customized according to individual risk factors', and professionals who wish to 'determine the level of individual risk, if possible at 40 years of age.' ', on the basis of a tool set to be defined, such as Gail's score. Some women are at higher risk than others, while being in the Group of 'normal' risk One must find a way to care them. In addition, women out of the DO due to age would benefit to be informed of their risk score so that their practitioner can organize a proper follow-up ('screening' of young women to high and very high risk). The function of risk can also enable in the presence of a breast cancer, to optimize the support by, for example, the knowledge of the positivity of some markers (targeted therapy) The objective is therefore to create a new individual predictive risk score of French women breast cancer; by offering a complete validation: internal and external with evaluation of the discriminating power and calibration. It is new in the sense of the population concerned and the variables included, taking into account a set of above mentioned risk factors. Assumptions: detect women at high risk among women with breast cancer do to identify a sub-population that is likely to benefit from an individual specific 'screening' more customized than DO. Detect women at high risk allows a better follow-up, to make earlier diagnoses, so the reduction of mortality and save years of lives. Identifying, in women at high risk, the causal covariates can reduce the risk (attributable proportion of editable variables) or, if there is breast cancer, to optimize the treatment.