WikiGames : une plateforme de jeux dédiée à la validation d’une base de connaissances produite à partir de techniques d’extraction d’information ouverte
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Programme
Affiliation
Mots-clés
- Base de connaissances
- Traitement automatique des langues naturelles
- Apprentissage automatique
- Jeux
- Natural language processing
- Knowledge base
- Machine learning
- Games with a purpose
Organisme subventionnaire
Résumé
L’extraction d’information ouverte permet la création de larges collections de triplets relationnels à partir de corpus de textes non structurés. Ces larges collections de triplets extraits contiennent souvent une grande quantité de triplets bruités n’apportant aucune information utile. Ces collections peuvent atteindre des tailles rendant la validation manuelle trop longue pour être réalisées par un petit groupe de personnes en un temps convenable et il serait dans bien des cas trop dispendieux pour ces équipes d’engager le personnel nécessaire pour cette tâche. L’utilisation de jeux à des fins de production participative a permis, lors de tâches similaires, de recueillir un grand ensemble de bénévoles. Nous nous sommes donc intéressés à inférer, à partir d’une de ces collections de triplets bruités qui fut précédemment générée à partir de techniques d’extraction d’information ouverte, un ensemble de connaissances potentiellement utiles et pertinentes et avons ensuite amorcé la validation de cette base de connaissances par l’intermédiaire d’une plateforme de jeux.
Open information extraction techniques can generate a large amount of relation triplets from unstructured corpus of texts. These large collections of triplets often contain a good portion of noisy triplets that brings little to no usable information. These collections of triplets can become too large to be manually validated by most small teams in a reasonable amount of time and hiring the number of validators required for such task would be too costly for most teams. The use of games as a crowdsourcing tool has shown great success in acquiring a large pool of volunteer for the realization of similar tasks. We have therefore looked into the extraction of a set of useful knowledge from a rather large and noisy relation triplets collection that was previously extracted using an open information extraction tool. We have then started the process of validating the resulting knowledge base with the help of a games with a purpose platform.