Classification de flux applicatifs et détection d'intrusion dans le trafic Internet

par Maciej Korczynski

Thèse de doctorat en Informatique

Sous la direction de Andrzej Duda.

Soutenue le 26-11-2012

à Grenoble , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire d'Informatique de Grenoble (équipe de recherche) .

Le président du jury était Jean-Marc Thiriet.

Le jury était composé de Andrzej Pach.

Les rapporteurs étaient Philippe Owezarski, Guillaume Urvoy-keller.


  • Résumé

    Le sujet de la classification de trafic r´eseau est d’une grande importance pourla planification de r´eseau efficace, la gestion de trafic `a base de r`egles, la gestionde priorit´e d’applications et le contrˆole de s´ecurit´e. Bien qu’il ait re¸cu une atten-tion consid´erable dans le milieu de la recherche, ce th`eme laisse encore de nom-breuses questions en suspens comme, par exemple, les m´ethodes de classificationdes flux de trafics chiffr´es. Cette th`ese est compos´ee de quatre parties. La premi`erepr´esente quelques aspects th´eoriques li´es `a la classification de trafic et `a la d´etec-tion d’intrusion. Les trois parties suivantes traitent des probl`emes sp´ecifiques declassification et proposent des solutions pr´ecises.Dans la deuxi`eme partie, nous proposons une m´ethode d’´echantillonnage pr´ecisepour d´etecter les attaques de type ”SYN flooding”et ”portscan”. Le syst`eme examineles segments TCP pour trouver au moins un des multiples segments ACK provenantdu serveur. La m´ethode est simple et ´evolutive, car elle permet d’obtenir unebonne d´etection avec un taux de faux positif proche de z´ero, mˆeme pour des tauxd’´echantillonnage tr`es faibles. Nos simulations bas´ees sur des traces montrent quel’efficacit´e du syst`eme propos´e repose uniquement sur le taux d’´echantillonnage,ind´ependamment de la m´ethode d’´echantillonnage.Dans la troisi`eme partie, nous consid´erons le probl`eme de la d´etection et de laclassification du trafic de Skype et de ses flux de services tels que les appels vocaux,SkypeOut, les vid´eo-conf´erences, les messages instantan´es ou le t´el´echargement defichiers. Nous proposons une m´ethode de classification pour le trafic Skype chiffr´ebas´e sur le protocole d’identification statistique (SPID) qui analyse les valeurs statis-tiques de certains attributs du trafic r´eseau. Nous avons ´evalu´e notre m´ethode surun ensemble de donn´ees montrant d’excellentes performances en termes de pr´eci-sion et de rappel. La derni`ere partie d´efinit un cadre fond´e sur deux m´ethodescompl´ementaires pour la classification des flux applicatifs chiffr´es avec TLS/SSL.La premi`ere mod´elise des ´etats de session TLS/SSL par une chaˆıne de Markov ho-mog`ene d’ordre 1. Les param`etres du mod`ele de Markov pour chaque applicationconsid´er´ee diff`erent beaucoup, ce qui est le fondement de la discrimination entreles applications. La seconde m´ethode de classification estime l’´ecart d’horodatagedu message Server Hello du protocole TLS/SSL et l’instant d’arriv´ee du paquet.Elle am´eliore la pr´ecision de classification des applications et permet l’identificationviiefficace des flux Skype. Nous combinons les m´ethodes en utilisant une ClassificationNaive Bay´esienne (NBC). Nous validons la proposition avec des exp´erimentationssur trois s´eries de donn´ees r´ecentes. Nous appliquons nos m´ethodes `a la classificationde sept applications populaires utilisant TLS/SSL pour la s´ecurit´e. Les r´esultatsmontrent une tr`es bonne performance.

  • Titre traduit

    Classifying Application Flows and Intrusion Detection in Internet Traffic


  • Résumé

    The subject of traffic classification is of great importance for effective networkplanning, policy-based traffic management, application prioritization, and securitycontrol. Although it has received substantial attention in the research communitythere are still many unresolved issues, for example how to classify encrypted trafficflows. This thesis is composed of four parts. The first part presents some theoreticalaspects related to traffic classification and intrusion detection, while in the followingthree parts we tackle specific classification problems and propose accurate solutions.In the second part, we propose an accurate sampling scheme for detecting SYNflooding attacks as well as TCP portscan activity. The scheme examines TCPsegments to find at least one of multiple ACK segments coming from the server.The method is simple and scalable, because it achieves a good detection with aFalse Positive Rate close to zero even for very low sampling rates. Our trace-basedsimulations show that the effectiveness of the proposed scheme only relies on thesampling rate regardless of the sampling method.In the third part, we consider the problem of detecting Skype traffic and classi-fying Skype service flows such as voice calls, skypeOut, video conferences, chat, fileupload and download. We propose a classification method for Skype encrypted traf-fic based on the Statistical Protocol IDentification (SPID) that analyzes statisticalvalues of some traffic attributes. We have evaluated our method on a representativedataset to show excellent performance in terms of Precision and Recall.The last part defines a framework based on two complementary methods for clas-sifying application flows encrypted with TLS/SSL. The first one models TLS/SSLsession states as a first-order homogeneous Markov chain. The parameters of theMarkov models for each considered application differ a lot, which is the basis foraccurate discrimination between applications. The second classifier considers thedeviation between the timestamp in the TLS/SSL Server Hello message and thepacket arrival time. It improves the accuracy of application classification and al-lows efficient identification of Skype flows. We combine the methods using a NaiveBayes Classifier (NBC).We validate the framework with experiments on three recentdatasets—we apply our methods to the classification of seven popular applicationsthat use TLS/SSL for security. The results show a very good performance.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Service Interétablissement de Documentation. Documentation électronique.
  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service interétablissements de Documentation. STM. Documentation électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.