A semantic framework for social search

par Johann Stan

Thèse de doctorat en Informatique

Sous la direction de Pierre Maret.

Le président du jury était Alain Mille.

Le jury était composé de Bruno Aidan, Olivier Boissier, Fabien Gandon, Catherine Garbay, Dominik Heckmann, Myriam Ribière.

  • Titre traduit

    Un cadre de développement sémantique pour la recherche sociale


  • Résumé

    Cette thèse présente un système permettant d’extraire les interactions partagées dans les réseaux sociaux et de construire un profil dynamique d’expertise pour chaque membre dudit réseau social. La difficulté principale dans cette partie est l’analyse de ces interactions, souvent très courtes et avec peu de structure grammaticale et linguistique. L’approche que nous avons mis en place propose de relier les termes importants de ces messages à des concepts dans une base de connaissance sémantique, type Linked Data. Cette connexion permet en effet d’enrichir le champ sémantique des messages en exploitant le voisinage sémantique du concept dans la base de connaissances. Notre première contribution dans ce contexte est un algorithme qui permet d'effectuer cette liaison avec une précision plus augmentée par rapport à l’état de l’art, en considérant le profil de l’utilisateur ainsi que les messages partagés dans la communauté dont il est membre comme source supplémentaire de contexte. La deuxième étape de l’analyse consiste à effectuer l’expansion sémantique du concept en exploitant les liens dans la base de connaissance. Notre algorithme utilise une heuristique basant sur le calcul de similarité entre les descriptions des concepts pour ne garder que ceux les plus pertinents par rapport au profil de l’utilisateur. Les deux algorithmes mentionnés précédemment permettent d’avoir un ensemble de concepts qui illustrent les centres d'expertise de l’utilisateur. Afin de mesurer le degré d'expertise de l’utilisateur qui s’applique sur chaque concept dans son profil, nous appliquons la méthode-standard vectoriel et associons à chaque concept une mesure composée de trois éléments : (i) le tf-idf, (ii) le sentiment moyen que l’utilisateur exprime par rapport au dit concept et (iii) l’entropie moyen des messages partagés contenant ledit concept. L’ensemble des trois mesures combinées permet d’avoir un poids unique associé à chaque concept du profil. Ce modèle de profil vectoriel permet de trouver les « top-k » profils les plus pertinents par rapport à une requête. Afin de propager ces poids sur les concepts dans l’expansion sémantique, nous avons appliqué un algorithme de type propagation sous contrainte (Constrained Spreading Activation), spécialement adapté à la structure d'un graphe sémantique. L’application réalisée pour prouver l’efficacité de notre approche, ainsi que d’illustrer la stratégie de recommandation est un système disponible en ligne, nommé « The Tagging Beak » (http://www.tbeak.com). Nous avons en effet développé une stratégie de recommandation type Q&A (question - réponse), où les utilisateurs peuvent poser des questions en langage naturel et le système recommande des personnes à contacter ou à qui se connecter pour être notifié de nouveaux messages pertinents par rapport au sujet de la question


  • Résumé

    In recent years, online collaborative environments, e.g. social content sites (such as Twitter or Facebook) have significantly changed the way people share information and interact with peers. These platforms have become the primary common environment for people to communicate about their activity and their information needs and to maintain and create social ties. Status updates or microposts emerged as a convenient way for people to share content frequently without a long investment of time. Some social platforms even limit the length of a “post”. A post generally consists of a single sentence (e.g. news, a question), it can include a picture, a hyperlink, tags or other descriptive data (metadata). Contrarily to traditional documents, posts are informal (with no controlled vocabulary) and don't have a well established structure. Social platforms can become so popular (huge number of users and posts), that it becomes difficult to find relevant information in the flow of notifications. Therefore, organizing this huge quantity of social information is one of the major challenges of such collaborative environments. Traditional information retrieval techniques are not well suited for querying such corpus, because of the short size of the share content, the uncontrolled vocabulary used by author and because these techniques don't take in consideration the ties in-between people. Also, such techniques tend to find the documents that best match a query, which may not be sufficient in the context of social platform where the creation of new connections in the platform has a motivating impact and where the platform tries to keep on-going participation. A new information retrieval paradigm, social search has been introduced as a potential solution to this problem. This solution consists of different strategies to leverage user generated content for information seeking, such as the recommendation of people. However, existing strategies have limitations in the user profile construction process and in the routing of queries to the right people identified as experts. More concretely, the majority of user profiles in such systems are keyword-based, which is not suited for the small size and the informal aspect of the posts. Secondly, expertise is measured only based on statistical scoring mechanisms, which do not take into account the fact that people on social platforms will not precisely consume the results of the query, but will aim to engage into a conversation with the expert. Also a particular focus needs to be done on privacy management, where still traditional methods initially designed for databases are used without taking into account the social ties between people. In this thesis we propose and evaluate an original framework for the organization and retrieval of information in social platforms. Instead of retrieving content that best matches a user query, we retrieve people who have expertise and are most motivated to engage in conversations on its topics. We propose to build dynamically profiles for users based on their interactions in the social platform. The construction of such profiles requires the capture of interactions (microposts), their analysis and the extraction and understanding of their topics. In order to build a more meaningful profile, we leverage Semantic Web Technologies and more specifically, Linked Data, for the transformation of microposts topics into semantic concepts. Our thesis contributes to several fields related to the organization, management and retrieval of information in collaborative environments and to the fields of social computing and human-computer interaction


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Jean Monnet. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.