Toujours plus sophistiqués, les moteurs de recherche parviennent à répondre à des requêtes de plus en plus complexes.
Alors que les moteurs de recherche (Google, Bing…) permettent toujours d’obtenir un certain type de réponses (des liens identifiant les sites où se trouve peut-être l’info que l’on recherche), les initiatives se sont multipliées récemment pour améliorer leur pertinence et leurs champs de réponses.
{"type":"Pave-Haut2-Desktop"}
Google, qui ne cesse de chercher à perfectionner son algorithme – récemment en intégrant des résultats de son réseau social Google+ -, est en train de lancer Knowledge Graph. Via ce système, en plus de donner des liens renvoyant vers des sites, Google donnera instantanément des informations puisées dans diverses bases de données (dont celles de Wikipedia et du CIA World Factbook). Par exemple, pour une requête sur une personnalité, il fournira ses dates de naissance et de décès, ses domaines d’activité, le nom de ses parents, une liste de ses réalisations, des photos. Il proposera également des informations complémentaires et contextualisées, comme des liens sur les peintres de la Renaissance quand on recherche Léonard de Vinci.
Microsoft fait lui aussi évoluer Bing. La colonne de résultats – uniquement aux Etats-Unis pour l’instant – est maintenant accompagnée d’une colonne Snapshot, qui propose des informations aux requêtes de consommation (casting et bande-annonce quand on recherche un film, adresses et heures d’ouverture quand on recherche un restaurant…), et d’une troisième, « sociale », qui affiche des résultats provenant des réseaux sociaux (Twitter, Facebook…).
Constituer des bases de données
Mais les moteurs de recherche restent inadaptés pour obtenir des réponses précises ou croiser des statistiques – quels sont les acteurs français morts entre 1952 et 1982, quel est le taux de chômage des villes françaises de plus de 100 000 habitants… Pourtant, souvent, les informations que l’on recherche sont des éléments factuels (chiffres, dates, noms…), « rangeables » dans des bases de données facilement interrogeables.
Certains projets visent ainsi à constituer ces énormes bases de données. A travers Wikidata, Wikipedia entend créer une base qui pourra être lue et éditée par les internautes, mais aussi par les machines. Elle devrait permettre à terme de trouver les réponses à des recherches du type « liste de pays anglophones de moins de 150 000 kilomètres carrés ». Ce projet ambitieux devrait mener à une petite révolution au sein de l’encyclopédie en ligne. Matthew Roth, directeur de la communication de Wikimedia, explique :
« Wikidata fournira aux 280 éditions en langues différentes de Wikipedia une source commune de données structurées qui pourront être utilisées dans tous les articles de l’encyclopédie gratuite. Wikidata devrait apporter une plus grande homogénéité et une meilleure qualité à l’intérieur même des articles de Wikipedia, et davantage d’informations disponibles pour les éditions dans les langues les moins courantes. En même temps, Wikidata diminuera l’effort de maintenance des 90 000 volontaires qui éditent Wikipedia. »
Wikidata permettra ainsi par exemple l’automatisation de mises à jour de certaines données (faits avérés, chiffres, localisations…) sur chacune de ses éditions.
Informations complexes
Une fois les bases de données constituées, il faut que n’importe qui, et pas seulement les spécialistes de requêtes informatiques, puissent les interroger. Le projet Swipe (Searching Wikipedia by Example) permettra d’interroger depuis Wikipedia une base de données (DBpedia) qui tire ses informations des tableaux présents à droite sur chaque page Wikipedia. Les deux chercheurs à l’origine de Swipe, Maurizio Atzori et Carlo Zaniolo expliquent qu’« en utilisant Swipe, les utilisateurs naïfs n’ayant aucune connaissance en RDF triples et Sparql (systèmes de classement et de recherche pour base de données – ndlr) », pourront facilement interroger DBpedia avec des questions puissantes comme : « Qui sont les présidents des Etats-Unis ayant accédé au pouvoir à l’âge de 55 ans ou moins durant les soixante dernières années ? », ou encore « Trouver la ville californienne de moins de 10 000 habitants ».
Le moteur de recherche Wolfram/Alpha, construit à partir du logiciel de calcul Mathematica et lancé en 2009, répond déjà directement à des questions factuelles posées en anglais, tirant ses informations de sa gigantesque base de données structurées – si on lui demande « What is the GDP of France vs the GDP of United Kingdom? » (Quel est le PIB de la France comparé à celui du Royaume-Uni), il affiche directement les deux PIB, ainsi qu’un tableau de leur évolution comparée, des valeurs annexes…
{"type":"Banniere-Basse"}