WikiGames : une plateforme de jeux dédiée à la validation d’une base de connaissances produite à partir de techniques d’extraction d’information ouverte


Thèse ou mémoire / Thesis or Dissertation

Date de publication

Autrices et auteurs

Identifiant ORCID de l’auteur

Contributrices et contributeurs

Direction de recherche

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Maîtrise / Master's

Programme

Affiliation

Mots-clés

  • Base de connaissances
  • Traitement automatique des langues naturelles
  • Apprentissage automatique
  • Jeux
  • Natural language processing
  • Knowledge base
  • Machine learning
  • Games with a purpose

Organisme subventionnaire

Résumé

L’extraction d’information ouverte permet la création de larges collections de triplets relationnels à partir de corpus de textes non structurés. Ces larges collections de triplets extraits contiennent souvent une grande quantité de triplets bruités n’apportant aucune information utile. Ces collections peuvent atteindre des tailles rendant la validation manuelle trop longue pour être réalisées par un petit groupe de personnes en un temps convenable et il serait dans bien des cas trop dispendieux pour ces équipes d’engager le personnel nécessaire pour cette tâche. L’utilisation de jeux à des fins de production participative a permis, lors de tâches similaires, de recueillir un grand ensemble de bénévoles. Nous nous sommes donc intéressés à inférer, à partir d’une de ces collections de triplets bruités qui fut précédemment générée à partir de techniques d’extraction d’information ouverte, un ensemble de connaissances potentiellement utiles et pertinentes et avons ensuite amorcé la validation de cette base de connaissances par l’intermédiaire d’une plateforme de jeux.


Open information extraction techniques can generate a large amount of relation triplets from unstructured corpus of texts. These large collections of triplets often contain a good portion of noisy triplets that brings little to no usable information. These collections of triplets can become too large to be manually validated by most small teams in a reasonable amount of time and hiring the number of validators required for such task would be too costly for most teams. The use of games as a crowdsourcing tool has shown great success in acquiring a large pool of volunteer for the realization of similar tasks. We have therefore looked into the extraction of a set of useful knowledge from a rather large and noisy relation triplets collection that was previously extracted using an open information extraction tool. We have then started the process of validating the resulting knowledge base with the help of a games with a purpose platform.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Licence

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.