Invités

Présidents d'honneur

Jim Hendler

Jim Hendler

Jim Hendler is the Tetherless World Professor of Computer and Cognitive Science, and the Director of the Institute for Data Exploration and Applications at Rensselaer Polytechnic Institute. He is also a faculty affiliate of the Experimental Multimedia Performing Arts Center (EMPAC), serves as a Director of the UK’s charitable Web Science Trust and is a visiting Professor at DeMontfort University in Leicester, UK. Hendler, a fellow of IEEE, AAAI, BCS and AAAS, is the first computer scientist to serve on the Board of Reviewing Editors for Science. He was named one of the 20 most innovative professors in America by Playboy magazine and was selected as an “Internet Web Expert” by the US government.

Broad Data: What happens when the Web of Data becomes real?

"Big Data" is used to refer to the very large datasets generated by scientists, to the many petabytes of data held by companies like Facebook and Google, and to analyzing real-time data assets like the stream of twitter messages emerging from events around the world. Key areas of interest include technologies to manage much larger datasets (cf. NoSQL), technologies for the visualization and analysis of databases, cloud-based data management and datamining algorithms.

Recently, however, we have begun to see the emergence of another, and equally compelling data challenge - that of the "Broad data" that emerges from millions and millions of raw datasets available on the World Wide Web. For broad data the new challenges that emerge include Web-scale data search and discovery, rapid and potentially ad hoc integration of datasets, visualization and analysis of only-partially modeled datasets, and issues relating to the policies for data use, reuse and combination. In this talk, we present the broad data challenge and discuss potential starting points for solutions. We illustrate these approaches using data from a "meta-catalog" of over 1,000,000 open datasets that have been collected from about two hundred governments from around the world.

 

Conférenciers invités

(cliquer pour plus de détails)

Didier Dubois - Les nouvelles théories de l'incertain

Didier Dubois

IRIT-CNRS, Université de Toulouse
webpage

Didier Dubois, né en 1952, est Directeur de Recherche au CNRS et travaille à l'Institut de Recherche en Informatique de Toulouse, Université Paul Sabatier depuis 1984. Ses premières recherches ont concerné la théorie des ensembles flous et des possibilités sur lesquelles il a publié deux monographies en 1980 et 1988 avec Henri Prade. Il a travaillé à l’ONERA sur la gestion de la production entre 1980 et 1984, puis s’est tourné vers l'intelligence artificielle (notamment le raisonnement dans l’incertain, avec la logique possibiliste) et la théorie de la décision qualitative. Ses thèmes de recherche dans les dix dernières années concernent la modélisation de l'imprécis et de l'incertain dans divers domaines tels que l’analyse de risque et la fusion d'informations dans le cadre de la théorie des possibilités, des fonctions de croyance et des probabilités imprécises. Dans les dernières années, il a aussi travaillé sur les liens entre théories de l’incertain et logique (multivaluée, modale).
Didier Dubois est co-rédacteur en chef de la revue Fuzzy sets and Systems depuis 1999, et a été président de la Conférence Européenne d’Intelligence Artificielle en 2012. Il a coordonné de nombreux ouvrages et numéros spéciaux de revue, dont le Handbook of Fuzzy Sets (2000, Kluwer) avec Henri Prade, et Decision-Making Process avec Denis Bouyssou, et Marc Pirlot (ISTE-Wiley 2009).

Les nouvelles théories de l'incertain

La notion d'incertitude a été longtemps un sujet de controverses. En particulier la prééminence de la théorie des probabilités dans les sciences tend à gommer les différences présentes dans les premières tentatives de formalisation, remontant au 17ème siècle, entre l'incertitude due à la variabilité des phénomènes répétables et l'incertitude due au manque d'information (dite épistémique). L'école Bayésienne affirme que quelle que soit l'origine de l'incertitude, celle-ci peut être modélisée par une distribution de probabilité unique. Cette affirmation a été beaucoup remise en cause dans les trente dernières années. En effet l'emploi systématique d'une distribution unique en cas d'information partielle mène à des utilisations paradoxales de la théorie des probabilités. Dans de nombreux domaines, il est crucial de distinguer entre l'incertitude due à la variabilité d'observations et l'incertitude due à l'ignorance partielle. Cette dernière peut être réduite par l'obtention de nouvelles informations, mais pas la première, dont on ne se prémunit que par des actions concrètes. Dans le cas des bases de données, il est souvent supposé qu'elles sont précises, et l'incertitude correspondante est souvent négligée. Quant elle est abordée on reste souvent dans une approche probabiliste orthodoxe. Néanmoins, les statisticiens ont développé des outils qui ne relèvent pas de la théorie de Kolmogorov pour pallier au manque de données (intervalles de confiance, principe de maximum de vraisemblance...). De nouvelles théories de l'incertain ont émergé, qui offrent la possibilité de représenter les incertitudes épistémiques et aléatoires de façon distincte, notamment l'incertitude épistémique, en remplaçant la distribution de probabilité unique par une famille de distributions possibles, cette famille étant d'autant plus grande que l'information est absente. Cette représentation complexe possède des cas particuliers plus simples à utiliser en pratique, comme les ensembles aléatoires (théorie des fonctions de croyance), les distributions de possibilité (représentant des ensembles flous de valeurs possibles) et les p-boxes, notamment. Le but de cet exposé est de susciter l'intérêt pour ces nouvelles théories de l'incertain, d'en donner les bases formelles, d'en discuter la philosophie sous-jacente, de faire le lien avec certaines notions en statistique, et de les illustrer sur des exemples.

Références :

  • S. Destercke D.Dubois, E. Chojnacki, Unifying practical uncertainty representations - Part I: Generalized p-boxes. International Journal of Approximate Reasoning, 49, Issue 3, 2008, 649-663; Part II: Clouds. International Journal of Approximate Reasoning, 49, 2008, 664-677.
  • D. Dubois Possibility theory and statistical reasoning Computational Statistics & Data Analysis, 51, 47-69, 2006
  • D. Dubois, D. Guyonnet. Risk-informed decision-making in the presence of epistemic uncertainty. International Journal of General Systems, Vol. 40 N. 2, p. 145-167, 2011.
  • D. Dubois, H. Prade. Formal representations of uncertainty. Decision-making Process- Concepts and Methods. Denis Bouyssou, Didier Dubois, Marc Pirlot, Henri Prade (Eds.), ISTE London & Wiley, Chap. 3, p. 85-156, 2009.

Thomas Lebarbé - Des humanités au numérique : interdisciplinarité et réciprocité

Thomas Lebarbé

Université Stendhal - Grenoble 3
webpage

Thomas Lebarbé est maître de conférences en informatique et sciences du langage à l'Université Stendhal - Grenoble 3. Depuis sept ans, ill consacre ses recherches aux humanités numériques autour de fonds patrimoniaux (notamment les Manuscrits de Stendhal) sans perdre de vue la dimension linguistique des matériaux sur lesquels il travaille. Il a soutenu une habilitation à diriger des recherches promouvant l'interdisciplinarité intrinsèque et extrinsèque du traitement automatique des langues. Dans ses différentes fonctions, enseignant d'informatique dans une université de lettres, directeur adjoint de la Maison des Sciences de l'Homme - Alpes et Chargé de Projet Humanités Numériques à l'université Stendhal, il revendique le décloisonnement disciplinaire comme un vecteur de sérendipité et un moyen de questionner les méthodes, outils et matériaux. Il est par ailleurs consultant pour la société de conseil en gestion de l'innovation TKM, assurant ainsi le lien entre lettres, langues, numérique et industries.

Des humanités au numérique : interdisciplinarité et réciprocité

Les Humanités Numériques, aussi contestable et critiquable que soit le terme, font maintenant partie du paysage de la recherche en sciences humaines, institutionnalisées par la Très Grande Infrastructure de Recherche Huma-Num du CNRS. Elles sont généralement définies comme la convergence de disciplines autour d'un matériau numérique, matériau inévitablement accompagné d'un outillage tout aussi numérique. Ce matériau, suivant la discipline qui l'observe pourra être considéré comme un objet éditorial, un objet analysable ou un objet calculable. Nous tenterons de montrer que ce matériau peut aussi être perçu, voire construit, comme un dépôt voir un entrepôt de connaissances.

Notre présentation s'appuiera sur divers projets de recherche en humanités numériques auxquels nous contribuons afin de mettre en exergue le lien qui peut être fait entre extraction et gestion de connaissances d'une part et humanités numériques d'autre part : le premier peut trouver un terrain expérimental dans le second tandis que le second peut tirer profit des méthodes et outils développés par le premier. Nous égrainerons par ailleurs d'autres problématiques inhérentes aux Humanités numériques : de la constitution à l'analyse du corpus en passant par la formalisation et la normalisation des données. Enfin, nous tenterons de montrer par l'exemple que les questions posées par les humanités numériques ne sont pas sans rappeler celles des industries de la connaissances.

Tova Milo - Mining the Crowd

Tova Milo

Tel-Aviv university
webpage

Tova Milo received her Ph.D. degree in Computer Science from the Hebrew University, Jerusalem, in 1992. After graduating she worked at the INRIA research institute in Paris and at University of Toronto and returned to Israel in 1995, joining the School of Computer Science at Tel Aviv university, where she is now a full Professor and the Head of the Department.
Her research focuses on advanced database applications such as data
integration, XML and semi-structured information, Data-centered Business Processes and Crowd-sourcing, studying both theoretical and practical aspects. Tova served as the Program Chair of several international conferences, including PODS, ICDT, VLDB, XSym, and WebDB. She is a member of the VLDB Endowment and the ICDT executive board and is an editor of TODS, the VLDB Journal and the Logical Methods in Computer Science Journal. She has received grants
from the Israel Science Foundation, the US-Israel Binational Science Foundation, the Israeli and French Ministry of Science and the European Union. She is an ACM Fellow and a recipient of the 2010 ACM PODS Alberto O. Mendelzon Test-of-Time Award and of the prestigious EU ERC Advanced Investigators grant.

Mining the Crowd

Harnessing a crowd of Web users for data collection has recently become a wide-spread phenomenon. A key challenge is that the human knowledge forms an open world and it is thus difficult to know what kind of information we should be looking for. Classic databases have addressed this problem by data mining techniques that identify interesting data patterns. These techniques, however, are not suitable for the crowd. This is mainly due to properties of the human memory, such as the tendency to remember simple trends and summaries rather than exact details. Following these observations, we develop here a novel model for crowd mining. We will consider in the talk the logical, algorithmic, and methodological foundations needed for such a mining process, as well as the applications that can benefit from the knowledge mined from crowd.

Fabian Suchanek - The Hitchhiker's Guide to Ontology

Fabian Suchanek

Telecom ParisTech
webpage

Fabian M. Suchanek is a Maître de Conférences (comparable to an associate professor) at the Telecom ParisTech institute in Paris. He obtained his PhD at the Max-Planck Institute for Informatics under the supervision of Gerhard Weikum. In his thesis, Fabian developed inter alia the YAGO-Ontology, one of the largest public ontologies, which earned him a honorable mention of the SIGMOD dissertation award. Fabian was a postdoc at Microsoft Research in Silicon Valley (reporting to Rakesh Agrawal) and at INRIA Saclay/France (reporting to Serge Abiteboul). He continued as the leader of the Otto Hahn Research Group "Ontologies" at the Max-Planck Institute for Informatics in Germany. Fabian taught classes on the Semantic Web, Information Extraction and Knowledge Representation in France, in Germany, and in Senegal. With his students, he works on information extraction, rule mining, ontology matching, and other topics related to large knowledge bases. He has published around 40 scientific articles, among others at ISWC, VLDB, SIGMOD, WWW, CIKM, ICDE, and SIGIR, and his work has been cited more than 2700 times.

The Hitchhiker's Guide to Ontology

Artificial Intelligence has long had the dream of making computers smarter. For quite some time, this vision has remained just that: a dream. With the development of large knowledge bases, though, we now have large amounts of semantic information at our hands. This changes the game of AI. Computers have indeed become smarter. In this talk, we present the latest developments in the field: The construction of general purpose knowledge bases (including YAGO and DBpedia, as well as NELL and TextRunner), and their applications to tasks that were previously out of scope: The extraction of fine-grained information from natural language texts, semantic query answering, and the interpretation of newspaper texts at large scale.