Tutoriaux

La conférence propose deux ateliers :

Les tutoriaux se dérouleront le mardi 28 janvier 2014, en parallèle des ateliers.

 

Liage de données pour le Web de données

Résumé

Est ce que le Musée des Arts Premiers près du Trocadéro et le Musée du quai Branly, Paris 7ème, réfèrent bien au même musée du monde réel ? Depuis les années 60, le problème de liage de données a été beaucoup étudié sous différentes appellations (i.e. entity resolution, record linkage, coreference, reference reconcilation, …) et ceci dans le cadre de nombreux domaines d’application comme la génétique, la démographie, les publications scientifiques où encore la géographie.

Aujourd’hui, le Web de documents évolue vers un Web de données où des données structurées (e.g., RDF, RDFa, MicroFormat) sont accessibles via le Web. Une initiative telle que « Linked Open Data cloud (LOD) », consistant à publier des données RDF et à les lier les unes aux autres, est aujourd’hui un phénomène mondial qui fait émerger de nombreuses applications innovantes. Le LOD contenait plus de 31 milliards de triplets RDF en 2011 et 503 millions de liens entre les données décrites par ces triplets. Etablir des liens exprimant la relation d’identité (owl:sameAs) entre données est essentiel pour exploiter au mieux toute la richesse du Web de données.

Dans ce tutoriel, nous commencerons par une introduction au problème du liage de données. Nous présenterons ensuite différents types d’approches de liage en les classant suivant différents critères : supervisée/non-supervisée, locale/globale, informée/non informée et mono-ontologie/multi-ontologies. Nous présenterons ensuite une application dans le domaine des données géographiques en montrant une chaîne de traitement des données de leur état brut (e.g., données dans le format Shape), à leur liage puis à leur publication sur le Web de données. Un outil de visualisation des liens permettra de montrer le résultat du liage sur des fonds cartographiques issues de OpenStreetMap et de Géportail. Nous terminerons en présentant certains challenges de ce domaine de recherche.

Intervenants

Nathalie Pernelle est maître de conférence au Laboratoire de Recherche en Informatique (LRI) de l’Université Paris Sud depuis 2001. Ses recherches portent sur l’intégration d’information, en particulier dans le cadre du web sémantique. Elle travaille sur les approches de liage de données guidées par la sémantique des ontologies, et sur les approches d’annotation sémantique de documents HTML issus du Web. Concernant les problèmes de liage de données, elle a collaboré avec différents partenaires industriels ou institutions tels que Orange-Labs, Thales, l'INA (Institut National de l'Audiovisuel) ou l'ABES (Agence Bibliographique de l'Enseignement Supérieur).

Fatiha Saïs est actuellement Maître de Conférence en Informatique au Laboratoire de Recherche en Informatique (LRI) de l'Université Paris Sud. Ses travaux de recherche portent sur le liage et la fusion de données, sur la gestion sémantique d'informations personnelles et sur la composition de services sensibles aux contextes. Ses travaux se sont inscrits dans plusieurs projets nationaux, industriels et européens. Elle est actuellement le responsable pour le LRI du projet ANR Qualinca. Fatiha Saïs a servi de membre pour différents comités de programmes et de relectures de plusieurs conférences, journaux et ateliers nationaux et internationaux. Elle a également co-organisé les éditions de l'atelier EvalECD'2009, 2010 et 2011 et de l'atelier SOS-DLWD'2012 et 2013.

Fayçal Hamdi est Maître de Conférences au laboratoire CEDRIC du CNAM (EA 4629). Il mène depuis quelques années des travaux dans le domaine du Web Sémantique dans le cadre de plusieurs projets (WebContent, GeOnto, Datalift). Ces travaux l’ont conduit à participer entre 2008 et 2010 à la compétition internationale d'évaluation des outils d'alignement OAEI (Ontology Alignment Evaluation Initiative campaign) en obtenant de bons résultats. Actuellement il travaille dans le cadre du projet ANR Datalift sur la publication et l'interconnexion des données dans le web. En 2012 il a été l'acteur principal dans l'ouverture du portail des données public de l'IGN (L’Institut national de l’information géographique et forestière) "data.ign.fr".

Analyse exploratoire de tableaux multiples quantitatifs et/ou qualitatifs. Application de l'Analyse Factorielle Multiple Hiérarchique à des données sensorielles recueillies par la méthode du napping® catégorisé

Résumé

Notre cadre est l'analyse exploratoire d'un tableau individu-variables par une méthode factorielle (analyse en composantes principales lorsque les variables sont quantitatives, analyse des correspondances multiples lorsque les variables sont qualitatives).

En pratique, les variables sont très souvent structurées en groupe, l'exemple type étant celui d'une enquête dont les questions (i.e. les variables) sont structurées en thèmes. Prendre en compte une telle structure en groupe de variables dans une analyse factorielle pose le problème technique de l'équilibre entre ces groupes mais aussi induit des questions spécifiques qui enrichissent les résultats. A cette complexité de structure (en groupes de variables), s'ajoute une complexité de nature, les variables pouvant être quantitatives et/ou qualitatives. Il est donc nécessaire de disposer d'une méthodologie d'analyse de tableaux individus × variables, dans lesquels les variables sont structurées en groupes quantitatifs, qualitatifs ou mixtes. Tel est précisément le champ d'application de l'Analyse Factorielle Multiple (AFM).

De plus en plus souvent, on doit analyser des tableaux dans lesquels les variables ne sont pas structurées seulement en groupe (i.e. selon une partition) mais selon une hiérarchie ou, si l'on préfère, une suite de partitions emboîtées. Un exemple typique de ces données est fourni par les enquêtes dont le questionnaire est structuré en thèmes et en sous-thèmes. L'Analyse Factorielle Multiple Hiérarchique (AFMH) traite précisément des tableaux dans lesquels les variables, quantitatives et/ou qualitatives, sont structurées selon une hiérarchie.

Dans un premier temps, nous présenterons, à partir d'exemples, les points méthodologiques clés soit :

  • Que veut dire prendre en compte une structure des variables en groupes ;
  • Comment analyser simultanément des variables quantitatives et qualitatives.

Dans un second temps, nous décrirons la mise en œuvre des méthodes présentées à l'aide du package R FactoMineR. Pour illustrer cette mise en œuvre, nous utiliserons des données issues de la méthode du napping® catégorisé. Dans cette méthode on demande à des sujets (e.g. des consommateurs) d'évaluer un ensemble de stimuli (e.g. des produits alimentaires) de la façon suivante.

  1. Chaque sujet place, selon ses propres critères, l'ensemble les stimuli sur une nappe de façon telle que deux stimuli se trouvent d'autant plus proches qu'ils se ressemblent.
  2. Une fois les stimuli placés, le sujet effectue des regroupements (i.e. une partition des stimuli) et associe à chacun des groupes de stimuli ainsi créés un ou plusieurs termes qui lui semble bien le caractériser.

Finalement pour chaque sujet on dispose de données quantitatives (les coordonnées des stimuli sur la nappe), qualitatives (une partition) et textuelles (les termes décrivant les groupes de stimuli). On souhaite visualiser ces données en équilibrant les données de types différents au sein d'un même sujet et en équilibrant les sujets entre eux. L'AFMH est adaptée au traitement de telles données.

Un exemple réel de telles données sera présenté et analysé. A cette occasion, on présentera un logiciel d'acquisition des données (selon la procédure du napping® catégorisé) sur tablette.

Intervenants

Jérôme Pagès est professeur de statistique à Agrocampus (Rennes) où il dirige le laboratoire de Mathématiques appliquées. Il a travaillé durant de nombreuses années sur l’analyse factorielle de tableaux multiples. Il est auteur ou co-auteur de plusieurs ouvrages sur l’analyse des données.

Sébastien Lê est enseignant chercheur à Agrocampus (Rennes). Ses recherches portent sur l’analyse de tableaux multiples, en particulier l’analyse factorielle multiple hiérarchique. Ses principaux domaines d’application sont l’analyse sensorielle et la génomique.

Références

  • Pagès Jérôme (2013) Analyse factorielle multiple avec R. 253 p. EDP sciences, Paris.
  • Francois Husson, Julie Josse, Sebastien Le and Jeremy Mazet (2013). FactoMineR: Multivariate Exploratory Data Analysis and Data Mining with R. R package version 1.25. http://CRAN.R-project.org/package=FactoMineR