Traitement statistique de données hybrides de très grande dimension. Application aux enchères temps réel pour la publicité en ligne.

par Benoit Baylin

Projet de thèse en Mathématiques appliquées

Sous la direction de Gersende Fort et de Florence D'alche buc.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) , en partenariat avec LTCI - Laboratoire de Traitement et Communication de l'Information (laboratoire) , TSI/STA : Statistiques et Applications (equipe de recherche) et de Télécom ParisTech (établissement de préparation de la thèse) depuis le 01-08-2015 .


  • Résumé

    L'achat et la vente d'espaces publicitaires en ligne ont été révolutionnés par l'avènement des Ad-Exchange. Ces plateformes permettent aux acheteurs et aux vendeurs, à l'image d'une place boursière, de passer des ordres d'achats et de ventes en temps réel. Les vendeurs mettent en vente leurs audiences sur la plateforme sur laquelle les acheteurs peuvent enchérir; l'enchère est remportée selon le principe dit “d'enchère au second prix”. Ceci est réalisé via le Real Time Bidding (RTB) qui est une technologie permettant d'allouer des espaces publicitaires en temps réel (i.e. de l'ordre de 100 ms) via un système d'enchères entre les acheteurs. Le RTB vise à automatiser les procédures d'achats et de ventes afin de fluidifier le marché de la publicité en ligne et le rendre plus efficient, ceci dans l'optique de générer une meilleure rentabilité des investissements publicitaires pour les acheteurs et une meilleure monétisation des inventaires pour les vendeurs. Adomik travaille principalement avec App-Nexus qui est un Ad-Exchange fortement implanté en Europe. Cependant, la stratégie de l'entreprise vise à diversifier ses services sur d'autres Ad-Exchange (Smart, Rubi- con, . . .). Cela entrainera une modification de la quantité d'informations disponibles pour Adomik. L'objectif d'Adomik est d'optimiser les revenus des éditeurs. Durant ce doctorat conjointement mené entre Adomik et Telecom ParisTech, nous nous intéresserons aux deux problèmes suivants : 1. la construction de leviers pour le vendeur afin d'agir sur les enchères. Le prix auquel se conclut la vente dépend des offres des acheteurs, d'un prix de réserve (dit hard floor en anglais) émis par l'éditeur et pour certains Ad-Exchange d'un prix dit soft floor émis aussi par l'éditeur et qui permet de transformer l'enchère en une enchère de type “au premier prix” augmentant ainsi le gain de l'éditeur. Un premier axe de recherche visera à définir des procédures de calcul de cette paire hard floor/soft floor. 2. l'étude des accords possibles entre les acheteurs et les vendeurs. Afin de minimiser la non-efficience du RTB, d'autres modalités de transaction entre les acheteurs et les vendeurs d'espaces peuvent être envisagées. Les éditeurs peuvent identifier, pour chaque type de transactions, un ensemble d'acheteurs privilégiés à qui ils s'adresseront avant d'envisager une vente par RTB. Il s'agit donc pour l'éditeur d'identifier ces partenaires privilégiés et de définir un contrat avec eux spécifiant par exemple un prix de réserve propre à chacun. Ainsi, un second axe de recherche visera à identifier (a) les opportunités d'accord, liées à l'intérêt apparu ou suppposé d'un acheteur pour un type d'enchères; (b) les prix fixes à appliquer à chaque accord; (c) le volume d'enchères qui sera acheté par l'acheteur dans le cadre de cet accord, pour prévoir les revenus. 1 Pour définir sa stratégie, l'éditeur dispose d'un certain nombre d'informations. Chaque impression est caractérisée par plusieurs critères tels que la taille de la page web, le site web, les placements sur la page web, les indications de lieu et de temps relatifs à l'internaute, la fréquence d'apparition de l'internaute, . . . : l'éditeur définit donc sa stratégie de vente sur la base de quelques dizaines de critères de type différent (critères à valeur catégorielle, à valeur discrète, à valeur continue) mais avec un grand nombre de modalités possibles pour les critères à valeur catégorielle et à valeur discrète. L'éditeur dispose aussi de données de logs pour construire et mettre à jour la stratégie de vente étant donnée une impression. Ces logs sont transmis par le Ad-Exchange tous les 6h ; ils comportent, pour chaque transaction passée, la liste des enchérisseurs et le montant de leurs enchères. Les techniques d'apprentissage actuellement utilisées par les éditeurs n'exploitent qu'une partie de ces données. Le sujet de recherche de ce doctorat est motivé par le constat d'une quasi-absence d'ingénierie mathématique côté éditeur pour le moment alors que beaucoup de techniques et d'analyses ont été faites chez les acheteurs d'espaces [19]. Une compréhension fine des variables qui ont un impact sur les transactions vues du point de vue éditeur est donc nécessaire. Ces variables peuvent se diviser en variables liées à la demande (les id des buyers, des brands, des category de brands); variables liées à l'inventaire (les id des publishers, groupe de placement, format, browser, le type d'appareil utilisé par l'internaute, la localisation géographique de l'internaute, le type de l'enchère (interne ou externe) etc...); variables liées à l'internaute (le cookie, la fréquence des cookies, la date de connexion ...); variables liées aux enchères : acheteurs potentiels et prix d'achat proposés. Les verrous technologiques pour le traitement de ces données sont principalement liés (i) au grand nombre de variables disponibles et à leurs nombreuses modalités, (ii) aux différents types de variables (variables à valeur catégorielle, valeur discrète, valeur continue), (iii) à la non-homogénéité temporelle de certaines données du fait de l'évolution des stratégies d'achat au fil des transactions et (iv) à l'apprentissage en ligne du fait d'un flot continu de données. Afin de répondre aux deux problèmes mentionnés ci-dessus, une approche par modèles à données cachées combinés à des modèles de régression sera tout d'abord envisagée. L'introduction d'un modèle à données cachées permettra de rendre compte (i) de la non-homogénéité temporelle de la règle liant les différentes variables et la quantité d'intérêt (par exemple, pour le premier problème, la quantité d'intérêt est la paire hard floor/soft floor), et (ii) de l'asymétrie des informations entre éditeurs et acheteurs. Les modèles de régression captureront le lien entre la quantité d'intérêt et les différentes variables connues par l'éditeur au moment de définir sa stratégie de vente. Pour définir ces modèles, une approche non paramétrique est pressentie. Les approches paramétriques ont le défaut de devoir pré-spécifier les caractéristiques du modèle aussi se révèlent-elles souvent trop rigides et incapables de tirer profit du nombre croissant de données. Les méthodes non paramétriques sont en revanche agnostiques aux données [7, 8, 11, 10]. Selon le problème considéré, on exploitera ces modèles dans une optique de prédiction, afin de déterminer la stratégie de l'éditeur en fonction des caractéristiques de l'impression courante; et aussi dans une optique de clustering. Cet apprentissage du système d'enchères est donc moins coûteux que les approches qui consistent à déterminer le comportement des acheteurs en estimant par exemple une loi de probabilité décrivant leur comportement (voir e.g. [16, 17] et les références citées, dans un modèle d'enchères simplifié). On s'intéressera à des mécanismes de calibration basés sur la maximisation du revenu cumulé de l'éditeur [18, Figure 6] [12] [13]; avec un processus de calibration mis à jour “en ligne” du fait de l'arrivée continue des informations de logs (voir par exemple la modélisation simplifiée des enchères proposée par [3]). Cette thèse sera co-encadrée à Telecom ParisTech par Gersende Fort (Directrice de Recherche CNRS) et Florence d'Alché-Buc (Professeur Telecom ParisTech). Le déroulement de cette thèse bénéficiera de l'expertise de Florence d'Alché-Buc et Gersende Fort en apprentissage en ligne dans les modèles à variables cachées [9], en statistique computationnelle (approximation stochastique, optimisation stochastique en ligne, méthodes de Monte Carlo) [4, 6], en apprentissage de réseaux bayésiens dynamiques [14, 15], en régression pénalisée [5, 1, 11, 10] et en prédiction de liens [1, 2]. 2 Côté Adomik, cette thèse sera encadrée par Olaf Kouamo (PhD, ingénieur de recherche). Ce dernier ap- portera principalement sa connaissance métier dans le domaine de la publicité en ligne. Il apportera égale- ment son expertise business pour l'adaptation des algorithmes developpés, afin que ces derniers prennent en compte les contraintes business édictées par le marché du RTB. References [1] C. Brouard, F. d'Alché-Buc, and M. Szafranski. Semi-supervised penalized output kernel regression for link prediction. In Proceedings of the 28th International Conference on Machine Learning, 2011. [2] C. Brouard, C. Vrain, J. Dubois, D. Castel, M.-A. Debily, and F. d'Alché Buc. Learning a markov logic network for supervised gene regulatory network inference. BMC Bioinformatics, 273(14), 2013. [3] N. Cesa-Bianchi, C. Gentile, and Y. Mansour. Regret minimization for reserve prices in second-price auctions. IEEE Trans. on Information Theory, 61(1):549–565, 2015. [4] G. Fort. Central Limit Theorems for Stochastic Approximation with Controlled Markov Chain Dynam- ics. ESAIM PS, 2014. Accepted for publication. [5] G. Fort and S. Lambert-Lacroix. Classification using partial least squares with penalized logistic regres- sion. Bioinformatics, 21(7):1104–1111, 2005. [6] G. Fort, E. Moulines, and P. Priouret. Convergence of adaptive and interacting Markov chain Monte Carlo algorithms. Ann. Statist. 39(6), 2012. Ann. Statist., 39(6):3262–3289, 2012. [7] Emily B Fox. Bayesian nonparametric learning of complex dynamical phenomena. PhD thesis, Mas- sachusetts Institute of Technology, 2009. [8] Nils Lid Hjort, Chris Holmes, Peter Müller, and Stephen G Walker. Bayesian nonparametrics, volume 28. Cambridge University Press, 2010. [9] S. Le Corff and G. Fort. Online Expectation Maximization-based algorithms for inference in Hidden Markov Models. Electronic Journal of Statistics, pages 763–792, 2013. [10] N. Lim, F. d'Alché-Buc, C. Auliac, and G. Michailidis. Operator-valued kernel-based vector autoregres- sive models for network inference. Machine Learning Journal, pages 1–25, november 2014. [11] N. Lim, Y. Senbabaoglu, F. d'Alché-Buc, C. Auliac, and G. Michailidis. Okvar-boost: a novel boosting algorithm to infer nonlinear dynamics and interactions in gene regulatory networks. Bioinformatics, 11(29):1416–1423, 2013. [12] Mehryar Mohri and Andres Munoz Medina. Learning theory and algorithms for revenue optimization in second-price auctions with reserve. arXiv preprint arXiv:1310.5665, 2013. [13] Mehryar Mohri and Andres Munoz. Optimal regret minimization in posted-price auctions with strategic buyers. In Advances in Neural Information Processing Systems, pages 1871–1879, 2014. 3 [14] M. Quach, N. Brunel, and F. d'Alché Buc. Estimating parameters and hidden variables in non-linear state-space models based on odes for biological networks inference. Bioinformatics, 23(23):3209–3216, 2007. [15] L. Ralaivola and F. d'Alché Buc. Dynamical modeling with kernels for nonlinear time series prediction. In NIPS, pages 123–136, 2003. [16] W.E. Walsh, D.C. Parkes, T. Sandholm, and C. Boutilier. Computing Reserve Prices and Identifying the Value Distributi on in Real-world Auctions with Market Disruptions. In Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence, pages 1499–1502, 2008. [17] S. Yuan, J. Wang, B. Chen, P. Mason, and S. Seljan. An Empirical Study of Reserve Price Optimisation in Real-Time Bidding. In KDD'14, 2014. [18] S. Yuan, J. Wang, and X. Zhao. Real-Time Bidding for Online Advertising: Measurement and Analysis. Technical report, arXiv1306.6542, 2013. [19] Weinan Zhang, Shuai Yuan, and Jun Wang. Optimal real-time bidding for display advertising. In Pro- ceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 1077–1086. ACM, 2014.

  • Titre traduit

    Statistical learning on hybrid and high dimensional data. Application to real time bidding in online advertising.


  • Résumé

    The purchase and sale of online advertising space have been revolutionised by the advent of Ad-Exchanges. These platforms allow buyers and sellers, like a stock exchange, to place orders for purchases and sales in real time. Vendors offer for sale their inventory on the platform on which buyers can bid; the auction is won according to the principle of "second-price auction." This is achieved via real-time bidding (RTB) is a technology for allocating advertising space in real time (ie in the order of 100 ms) via an auction system between buyers. The RTB is designed to automate the procedures for purchases and sales to thin the online advertising market and make it more efficient, this with a view to generating a better return on advertising investment for buyers and better monetization inventories for sellers. Adomik mainly works with App-Nexus is an Ad-strong European Exchange. However, the company's strategy is to diversify its services to other Ad-Exchange (Smart, Rubicon con,...). This will cause a change in the amount of information available to Adomik. The objective is to optimize Adomik publishers revenue. During this PhD conducted jointly between Adomik and Telecom ParisTech, we will focus on two problems: 1. Construction of levers for the seller to act on the results. The price at which ends the sale depends on offers from buyers, with a reserve price (called hard floor in English) issued by the publisher and for some Ad-Exchange price of a soft floor also tells issued by the publisher and that turns into a bidding auction type "first-price" thus increasing the gain of the publisher. A first line of research will aim to define calculation procedures of this pair floor hard / soft floor. 2. the study of possible agreements between buyers and sellers. To minimize non-efficiency of RTB, other trading arrangements between buyers and sellers of the spaces may be considered. Publishers can identify, for each type of transaction, a group of privileged buyers to whom they will speak before considering a sale of RTB. So this is for the editor to identify these key partners and define a contract with them specifying such a clean reserve price for each. So a second research-direction will identify (a) the opportunities for such agreements, i.e. the guessed interested buyers for the concerned inventory; (b) Define the optimal fixed prices applied to each agreement; (c) the volume of auction that will be purchased by the buyer as part of the agreement, to forecast revenues. 1 To define its strategy, the editor has a certain amount of information. Each print is characterized by several criteria such as the size of the web page, website, investments on the web page, indications of place and time related to the user, the frequency of occurrence of the Internet, . . . : So the editor defines its sales strategy on the basis of a few dozen different types of criteria (criteria value categorical, discrete value of continuing value) but with a large number of possible methods for categorical value criteria discrete value. The publisher has also log data to build and update the sales strategy given an impression. These logs are transmitted by the Ad Exchange several times during the day, or even in real time in some cases. They include, for each transaction passed, the list of bidders and the amounts of their bids. Learning techniques currently used by publishers exploit some of this data. The subject of this doctoral research is motivated by the lack of literature regarding revenue optimzation for publishers, when many techniques and analysis were conducted among buyers of spaces [19]. A detailed understanding of the variables that have an impact on the views of the transactions editor perspective is necessary. These variables can be divided into demand-related variables (id of buyers, the brands, the category of brands); variables related to the inventory (the id of publishers, investment group, format, browser, the type of device used by the user, the geographic location of the user, the type of auction (internal or external) etc ...); Variables related to the user (the cookie, the frequency of cookies, connection time ...) Auction-related variables: potential buyers and offered purchase price. Technological barriers for the treatment of this data is primarily related to (i) number of available variables and their many modalities, (ii) to different types of variables (variables value categorical, discrete value, continuous value), (iii ) to the temporal inhomogeneity of certain data due to changing purchasing strategies over the transactions and (iv) learning due to a continuous flow of data. To solve the two problems mentioned above, an approach hidden data models combined with regression models will be first considered. The introduction of a hidden data model will overcome (i) the temporal non-uniformity of the rule linking the different variables and the quantity of interest (for example, for the first problem, the amount of interest is the pair floor hard / soft floor), and (ii) the asymmetry of information between vendors and buyers. Regression models will capture the link between the amount of interest and the different variables known by the publisher in defining its sales strategy. To define these models, a nonparametric approach preferred. Parametric approaches the downside of having to pre-specify the characteristics of the model as they often prove to be too rigid and unable to take advantage of the growing number of data. Nonparametric methods are however agnostic to data [7, 8, 11, 10]. According to the considered problem, we will tackle the problem with a regression approach, in order to define the best strategy for the editor to maximize its revenue. We will also have a clustering approach as for the second problem. This learning of the auction system is less costly than approaches that are to determine buyer behaviour, for example by estimating a probability distribution describing their behaviour (see eg [16, 17] and references cited therein, in a model simplified auctions). It will focus on calibration mechanisms based on maximizing the combined income of the publisher [18, Figure 6] [12] [13]; with a calibration process updated "online" because of the continuous arrival of log information (eg the simplified modeling of auction proposed by [3]). This thesis will be co-supervised by Telecom ParisTech Gersende Fort (CNRS Research Director) and Florence of Alche-Buc (Professor Telecom ParisTech). The course of this thesis will benefit from the expertise of Florence Alche-Buc and Gersende Fort in online learning models in the hidden variables [9] in computational statistics (stochastic approximation, stochastic optimization online, methods Monte Carlo ) [4, 6], by learning dynamic Bayesian networks [14, 15], in penalized regression [5, 1, 11, 10] and in prediction of links [1, 2]. 2 Adomik side, this thesis will be supervised by Olaf Kouamo (PhD, research engineer). This ap- mainly focus its business knowledge in the field of online advertising. It also will provide business expertise to the adaptation of developped algorithms, so that they take into account the constraints of business issued by the RTB market. References [1] C. Brouard, F. d'Alché-Buc, and M. Szafranski. Semi-supervised penalized output kernel regression for link prediction. In Proceedings of the 28th International Conference on Machine Learning, 2011. [2] C. Brouard, C. Vrain, J. Dubois, D. Castel, M.-A. Debily, and F. d'Alché Buc. Learning a markov logic network for supervised gene regulatory network inference. BMC Bioinformatics, 273(14), 2013. [3] N. Cesa-Bianchi, C. Gentile, and Y. Mansour. Regret minimization for reserve prices in second-price auctions. IEEE Trans. on Information Theory, 61(1):549–565, 2015. [4] G. Fort. Central Limit Theorems for Stochastic Approximation with Controlled Markov Chain Dynam- ics. ESAIM PS, 2014. Accepted for publication. [5] G. Fort and S. Lambert-Lacroix. Classification using partial least squares with penalized logistic regres- sion. Bioinformatics, 21(7):1104–1111, 2005. [6] G. Fort, E. Moulines, and P. Priouret. Convergence of adaptive and interacting Markov chain Monte Carlo algorithms. Ann. Statist. 39(6), 2012. Ann. Statist., 39(6):3262–3289, 2012. [7] Emily B Fox. Bayesian nonparametric learning of complex dynamical phenomena. PhD thesis, Mas- sachusetts Institute of Technology, 2009. [8] Nils Lid Hjort, Chris Holmes, Peter Müller, and Stephen G Walker. Bayesian nonparametrics, volume 28. Cambridge University Press, 2010. [9] S. Le Corff and G. Fort. Online Expectation Maximization-based algorithms for inference in Hidden Markov Models. Electronic Journal of Statistics, pages 763–792, 2013. [10] N. Lim, F. d'Alché-Buc, C. Auliac, and G. Michailidis. Operator-valued kernel-based vector autoregres- sive models for network inference. Machine Learning Journal, pages 1–25, november 2014. [11] N. Lim, Y. Senbabaoglu, F. d'Alché-Buc, C. Auliac, and G. Michailidis. Okvar-boost: a novel boosting algorithm to infer nonlinear dynamics and interactions in gene regulatory networks. Bioinformatics, 11(29):1416–1423, 2013. [12] Mehryar Mohri and Andres Munoz Medina. Learning theory and algorithms for revenue optimization in second-price auctions with reserve. arXiv preprint arXiv:1310.5665, 2013. [13] Mehryar Mohri and Andres Munoz. Optimal regret minimization in posted-price auctions with strategic buyers. In Advances in Neural Information Processing Systems, pages 1871–1879, 2014. 3 [14] M. Quach, N. Brunel, and F. d'Alché Buc. Estimating parameters and hidden variables in non-linear state-space models based on odes for biological networks inference. Bioinformatics, 23(23):3209–3216, 2007. [15] L. Ralaivola and F. d'Alché Buc. Dynamical modeling with kernels for nonlinear time series prediction. In NIPS, pages 123–136, 2003. [16] W.E. Walsh, D.C. Parkes, T. Sandholm, and C. Boutilier. Computing Reserve Prices and Identifying the Value Distributi on in Real-world Auctions with Market Disruptions. In Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence, pages 1499–1502, 2008. [17] S. Yuan, J. Wang, B. Chen, P. Mason, and S. Seljan. An Empirical Study of Reserve Price Optimisation in Real-Time Bidding. In KDD'14, 2014. [18] S. Yuan, J. Wang, and X. Zhao. Real-Time Bidding for Online Advertising: Measurement and Analysis. Technical report, arXiv1306.6542, 2013. [19] Weinan Zhang, Shuai Yuan, and Jun Wang. Optimal real-time bidding for display advertising. In Pro- ceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 1077–1086. ACM, 2014.