Web mining methods for the detection of authoritative sources

par Dalibor Fiala

Thèse de doctorat en Informatique

Sous la direction de François Rousselot et de Karel Jez̆ek.

Soutenue en 2007

à l'Université Louis Pasteur (Strasbourg) en cotutelle avec Pilsen - République Tchèque .

  • Titre traduit

    ˜Les œméthodes de la fouille du web pour la détection des sources faisant autorité


  • Résumé

    La partie innovante de cette thèse porte sur les définitions, les explications et teste des modifications de la formule standard de PageRank adaptée aux réseaux bibliographiques. Les nouvelles versions de PageRank tiennent compte non seulement du graphe de citations mais aussi du graphe de collaboration. On vérifie l’applicabilité des nouveaux algorithmes en traitant des données issues de la bibliothèque numérique DBLP et en comparant les rangs des lauréats du prix « ACM SIGMOD E. F. Codd Innovations Award ». Les classements reposant sur les informations concernant à la fois les citations et les collaborations s’avèrent meilleurs que les classements générés par PageRank standard. Dans un autre chapitre de la thèse, on présente une méthodologie et deux études de cas concernant la recherche des chercheurs faisant autorité en analysant des sites Web académiques.


  • Résumé

    The innovative portion of this doctoral thesis deals with the definitions, explanations and testing of modifications of the standard PageRank formula adapted for bibliographic networks. The new versions of PageRank take into account not only the citation but also the co-authorship graph. We verify the viability of the new algorithms by applying them to the data from the DBLP digital library and by comparing the resulting ranks of the winners of the ACM SIGMOD E. F. Codd Innovations Award. The rankings based on both the citation and co-authorship information turn out to be better than the standard PageRank ranking. In another part of the disseration, we present a methodology and two case studies for finding authoritative researchers by analyzing academic Web sites


  • Résumé

    Rozvoj informační společnosti v posledních desetiletích umožňuje shromažďovat, filtrovat a ukládat obrovská množství dat. Abychom z nich získali cenné informace a znalosti, musejí se tato data dále zpracovávat. Vědecký obor zabývající se získáváním informací a znalostí z dat se překotně vyvíjí, aby zachytil vysoké tempo nárůstu zdrojů informací, jejichž počet se po vzniku celosvětové pavučiny (webu) zvyšuje geometrickou řadou. Všechny tradiční přístupy z oblasti získávání informací, dobývání znalostí a dolování z dat se musejí přizpůsobit dynamickým, heterogenním a nestrukturovaným datům z webu. Dolování z webu (web mining) se stal plnohodnotnou vědeckou disciplínou. Web má mnoho speciálních vlastností. Tou nejvýznačnější je jeho struktura odkazů mezi stránkami. Web je dynamickou, propojenou sítí. Webové stránky obsahují odkazy na jiné stránky s podobným obsahem nebo na zajímavé či jinak spřízněné dokumenty. Velmi brzy se zjistilo, že webová struktura odkazů je ohromným zdrojem informací a že představuje rozsáhlé pole aplikací z oboru sociálních sítí a matematické teorie grafů. Brin a Page podrobili propojení webu intenzivnímu výzkumu a v roce 1998 vydali dnes už slavný článek „The anatomy of a large-scale hypertextual Web search engine“, v němž světu představili Google – webový vyhledávač pro každého. Úspěch Googlu spočívá především v algoritmu pro hodnocení webových stránek nazvaném PageRank. Ten využívá struktury webu k tomu, aby v něm rekurzivní metodou nalezl populární, důležité, významné a autoritativní zdroje. Technický popis PageRanku byl publikován a měl za následek doslova příval dalších odborných článků o metodách založených na propojení uzlů sítě, které nakonec daly vzniknout úplně nové skupině algoritmů – hodnoticím (ranking) algoritmům. Každá metoda má své zvláštnosti a umí se vypořádat s určitými problémy. Ačkoliv byly hodnoticí algoritmy původně vymyšleny pro web, jsou použitelné v každém prostředí, které lze modelovat grafem. Inovativní část této doktorské práce se zabývá definicemi, vysvětlením a testováním modifikací standardního vzorce PageRanku uzpůsobeného pro bibliografické sítě. Takto vzniklé nové verze PageRanku berou v úvahu nejen citační graf, ale i graf spoluautorství. Použitelnost nových algoritmů ověřujeme jejich aplikací na data z digitální knihovny DBLP. Získané žebříčky významných autorů porovnáváme s držiteli ocenění ACM SIGMOD E. F. Codd Innovations Award. Ukazujeme, že hodnocení založené jak na citacích, tak na spolupracích dává lepší výsledky než standardní PageRank. V jiné části disertace představujeme metodologii a dvě případové studie vyhledávání autoritativních vědců analyzováním univerzitních webů. První studie se zaměřuje na množinu webových stránek českých kateder informatiky. Zkoumáme zde propojení mezi jednotlivými katedrami a několika běžnými hodnoticími metodami označujeme ty nejdůležitější. Poté analyzujeme obsah odborných publikací nalezených na daných stránkách a určujeme nejvýznačnější české autory. V druhé případové studii provádíme ten samý postup s francouzskými univerzitními weby pro nalezení nejvýznamnějších francouzských výzkumníků v oboru informatiky. Rovněž se zmiňujeme o slabých stránkách našeho přístupu a navrhujeme několik budoucích vylepšení. Na základě našich znalostí konstatujeme, že výše uvedené studie jsou jediným dosud publikovaným pokusem o vyhledávání autoritativních vědců z obou zemí přímým dolováním z webových dat.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (117 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 100-107

Où se trouve cette thèse ?

  • Bibliothèque : Université de Strasbourg. Service commun de la documentation. Bibliothèque Blaise Pascal.
  • Disponible pour le PEB
  • Cote : Th.Strbg.Sc.2007;5561
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.