Analyse prédictive de séries temporelles dans divers contextes applicatifs

par Roxane Elias mallouhy

Projet de thèse en Informatique

Sous la direction de Christophe Guyeux et de Chady Abou Jaoude.

Thèses en préparation à Bourgogne Franche-Comté , dans le cadre de SPIM - Sciences Physiques pour l'Ingénieur et Microtechniques , en partenariat avec FEMTO-ST Franche Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies (laboratoire) et de DISC - Département Informatique et Systèmes Complexes (equipe de recherche) depuis le 01-10-2020 .


  • Résumé

    Le transport sanitaire d'urgence est enclenché, en France, suite à l'appel à un des numéros d'urgence (15, 18 ou 112), et suite à cet appel une ambulance est envoyée, provenant soit du SMUR (SAMU), soit d'une entreprise d'ambulanciers privés, soit des sapeurs-pompiers. Les accidents étant liés à l'activité humaine, qui elle-même est conditionnée à l'heure dans le jour, à la saison, au temps qu'il fait, etc., la sollicitation pour du secours à personnes n'est donc pas aléatoire, mais prévisible. Ainsi, les chutes sur des plaques de verglas se produisent en hiver, quand les noyades en piscine privée d'extérieur se produisent quand il fait bon. Les flux de ces trois opérateurs sont donc prévisibles, dans une certaine mesure, notamment du fait de leur caractère saisonnier. Et parvenir à les prévoir rend possible la mise en place de stratégies de planifications, qui pourraient aider grandement à la gestion de ce secteur actuellement en crise. Par exemple, être en mesure de prévoir la sollicitation à l'horizon de quelques heures, chez les pompiers, leur permet d'anticiper le besoin en pompiers volontaires. Avoir une visibilité à deux ou trois mois permet de planifier au mieux les congés des ambulanciers ou au niveau des urgences, quand une visibilité à plusieurs années aide à la planification des besoins futurs, tant matériel qu'humain. Dans ce contexte, nous avons pu nous procurer divers flux (hôpitaux de Belfort, Montbéliard, et du Nord Franche-Comté, sapeurs-pompiers du Doubs), sur des périodes s'étalant de quelques à une vingtaine d'années. L'objectif de cette thèse consiste à exploiter au mieux ces flux, tant pour en analyser la dynamique que pour être en mesure d'effectuer des prévisions à plus ou moins long terme. Certains de ces flux ont d'ores et déjà été exploités dans une approche d'apprentissage supervisé, qui nécessite la collecte en continu d'un certain nombre de variables explicatives (liées à la météorologie, aux données d'éphémérides et d'épidémiologie, etc.), ce qui s'avère complexe à mettre en oeuvre pour un dispositif opérationnel : des scripts doivent être mis en place pour récupérer à chaque heure ces variables, planifier périodiquement de nouveaux apprentissages automatiques, etc. Dans cette thèse, nous étudierons donc si, en l'absence de variables explicatives, des techniques récentes d'analyse de séries temporelles ne permettraient pas d'atteindre sensiblement la même précision au niveau des prédictions, et ce pour une complexité de mise en oeuvre bien réduite. Des méthodes de l'état de l'art (AR, ARMA, ARIMA...) seront à comparer aux approches d'apprentissage supervisé, et des techniques plus récentes telles que Prophet devront être regardées. L'aspect prédictions ne devra pas uniquement être regardé, mais il conviendra d'analyser aussi en profondeur ces séries temporelles, pour en extraire de la connaissance métier (clustering de séries temporelles, caractère saisonnier de certains motifs et événements, etc.)

  • Titre traduit

    Predictive analysis of time series in various application contexts


  • Résumé

    In France, emergency medical transportation was initiated following a call to one of the emergency numbers (15, 18 or 112), and following this request an ambulance is sent, from either the SMUR (SAMU), a private ambulance company, or firefighters. Accidents are related to human activity, which is a major cause of accidents affected by the time of day, the season, the weather, etc. The request for assistance is therefore not random, but predictable. Thus, ice falling occurs in winter, when drowning in outdoor swimming pools happened if the weather is warm. The flows of these three attributes are therefore predictable, to a certain extent, notably because of their seasonality. And being able to predict them makes possible to implement strategies for planning, which could greatly assist in the management of this sector in crisis. For example, being able to forecast solicitation on the horizon for few hours, in the fire department, allows to anticipate the need for volunteering firefighters. Having a visibility at two or three months allows a better planning for the ambulance or emergency ,thus a visibility over many years helps in planning for future material and human needs. volunteers. In this context, we were able to procure various flows (hospitals in Belfort, Montbéliard, and North of Franche-Comté, fire departments of the Doubs), over periods ranging from a few to about twenty years. The objective of this thesis is to make the best use of these flows, both to analyze their dynamics and to be able to make long term forecasts. Some of these flows have already been exploited in a supervised learning approach, which requires the continuous collection of a certain number of explanatory variables (related to meteorology, ephemeris and epidemiology data, etc.), which is complex to implement for an operational device: scripts must be setup in order to retrieve these variables hourly, planning periodically new automatic learnings, etc. In this thesis, we will then study, in the absence of explanatory variables, recent techniques of time series analysis not allowing to reach approximately the same accuracy at the level of predictions, and a much reduced complexity of implementation. State-of-the-art methods (AR, ARMA, ARIMA...) will be compared to supervised learning approaches, and more recent techniques such as Prophet. The prediction aspect will not only have to be considered, but these time series will also have to be analyzed in depth in order to extract business knowledge (clustering of time series, seasonality of certain patterns and events, etc.).