Le blog d’une agence Web. Tout pour le Web : Design, idées, conseils, tutoriels.
14 mai 2009
Catégories : Design Web, Programmation, Technologie

Qu’est-ce que le Web sémantique : Une introduction

web-semantic-02

Selon le dictionnaire en ligne Médiadico, la définition de l’adjectif sémantique serait : »  > sémantique; Qui a rapport à la signification, au sens.»  … Le Web sémantique se veut donc un Web à valeur ajoutée où les contenus numériques pourront être traités automatiquement selon leurs significations. Il n’est pas question ici d’intelligence artificielle, les serveurs Web ne vont pas se mettre à réfléchir sur le sens des mots ou le sens de la vie. Il s’agit plutôt de créer des liens descriptifs (sémantiques) entre les documents à l’aide d’étiquettes virtuelles (métadonnées) et de références (définitions, concepts).

La prochaine révolution de l’internet : Le Web sémantique ?

Au moment où j’écris ces lignes, le WWW est déjà composé de milliards de pages, reliées entre elles par l’hypertexte. Une telle quantité d’information disponible librement, c’est merveilleux; mais les interactions avec celle-ci sont encore limitées. Le Web sémantique propose donc de relier significativement les contenus et de mettre à contribution les ordinateurs, afin de faciliter la recherche et l’organisation de connaissances sur le réseau … Un peu comme si nous voulions faire du Web une immense bibliothèque publique bien organisée !

Comme dirait lui-même Tim Berners-Lee, l’initiateur du Web sémantique : »  [...] Le Web a été conçu comme un espace informationnel, avec pour but d’être utile non seulement à la communication entre humains, mais aussi pour que des machines puissent y participer et aider « . Car pour l’instant, seuls les humains peuvent retirer, comprendre et traiter l’information qui se trouvent sur le Web. Bien sûr, ils sont aidés par de puissants moteurs de recherche, mais ceux-ci sont limités parce qu’ils ne comprennent pas le langage naturel (français, anglais, chinois, espagnol). Les engins de recherche ne peuvent que comparer des mots, des phrases et en mesurer la densité et la popularité. Ils ne peuvent pas analyser une information dans un contexte précis comme un humain pourrait le faire.

Par exemple, si dans Google je formule la requête suivante : »  Quel est le meilleur restaurant végétarien de Rosemont/Petite-Patrie »  … Je sais pas si vous avez tenté l’expérience, mais dans mon cas, ça n’a pas été très concluant. Pas désastreux, mais je n’ai cependant pas trouvé ce que je cherchais en quelques clics. Le premier résultat n’était pas mauvais, puisque c’était un répertoire des restaurants montréalais, mais il n’y avait aucun resto végétarien sur la page qu’on me proposait … En outre, le 5e résultat était une annonce d’appartement à louer. Pourquoi un si piètre résultat ? Tout simplement parce que les ordinateurs ne connaissent pas la signification des mots ! Dans la page d’un site Internet, si on parle de « disque» , parle-t-on de disque dans le sens de support musical ou de pièce d’automobile ? L’ordinateur est incapable de créer des liens entre les mots d’une phrase pour donner un sens à celle-ci et affiner la recherche. C’est pour cela que dans les résultats de ma requête d’un restaurant végétarien de Rosemont/Petite-Patrie, Google me propose des résultats qui ne sont pas du tout en rapport avec mon sujet de recherche.

Requête d'un resto végétarien dans google.

Requête d'un resto végétarien dans google.

Concrètement, le Web sémantique ça ressemble à quoi ?

Il suffit de décrire la nature des informations d’un document, donc créer des données à propos de données. En informatique, nous appelons ça des métadonnées. D’ailleurs, les bibliothèques, les archives et les musées les utilisent beaucoup dans leurs systèmes de classement.

À titre d’exemple, voici une courte présentation d’un restaurant composé d’un titre et d’un paragraphe :

Chez Billy

Situé dans le quartier Rosemont/Petite-Patrie, le restaurant Chez Billy vous offre une cuisine méditerranéenne traditionnelle dans une atmosphère familiale et détendue. Reconnu autant pour ses innombrables déjeuners que pour ses spécialités méditerranéennes tel que ses grillades, Chez Billy, on sert une variété de salades, de brochettes, de côtelettes d'agneau, de steaks, de saumons frais, ainsi que de succulentes pâtes toujours fraîches.

Soulevons le capot et regardons le code HTML :

<div>
  <h3>Chez Billy</h3>

  <p>Situé dans le quartier Rosemont/Petite-Patrie, le restaurant Chez Billy vous offre une cuisine méditerranéenne traditionnelle dans une atmosphère familiale et détendue. Reconnu autant pour ses innombrables déjeuners que pour ses spécialités méditerranéennes tel que ses grillades, Chez Billy, on y sert une variété de salades, de brochettes, de côtelettes d'agneau, de steaks, de saumons frais, ainsi que de succulentes pâtes toujours fraîches.</p>
</div>

Donc, un titre de niveau 3 (balise <h3>), puis un paragraphe (balise <p>); le tout enveloppé par un bloc (balise <div>). C’est simple et clair. Une personne n’aura aucune difficulté à comprendre de quoi il s’agit. Cependant, rien dans ce code n’aidera le moteur de recherche à traiter ce contenu comme une description de restaurant … encore moins comme une description de restaurant de cuisine méditerranéenne traditionnelle. Il pourra certes détecter les mots restaurant, cuisine méditerranéenne traditionnelle et tout autre mot formulé dans la requête, mais pour lui, ce n’est pas explicite qu’il s’agit d’une description de restaurant. Cela pourrait être l’extrait d’un roman contenant les mêmes expressions clés.

Pour améliorer la recherche et la présentation des contenus concernant la restauration, nous pourrions inventer des métadonnées pour décrire les concepts et les vocabulaires de ce domaine. Puis les moteurs de recherche tels que Google, Yahoo et Live search pourraient les intégrer dans leurs algorithmes. Alors l’utilisateur trouverait plus facilement ce qu’il cherche sans trop avoir besoin de trier l’information, car l’ordinateur le ferait pour lui.

Voyons un peu à quoi cela pourrait ressembler dans le code :

<div rel="restaurant">
  <h3 property="nom">Chez Billy</h3>

  <p property="sommaire">Situé dans le quartier Rosemont/Petite-Patrie, le restaurant Chez Billy vous offre une cuisine méditerranéenne traditionnelle dans une atmosphère familiale et détendue. Reconnu autant pour ses innombrables déjeuners que pour ses spécialités méditerranéennes tel que ses grillades, Chez Billy, on y sert une variété de salades, de brochettes, de côtelettes d'agneau, de steaks, de saumons frais, ainsi que de succulentes pâtes toujours fraîches.</p>
</div>

Vous voyez, j’ai simplement ajouté une couche d’information au code à l’aide d’attributs, ceux-ci définissent les propriétés du contenu : le bloc <div rel="restaurant"> nous indique que tout ce qu’il contient est relatif à un restaurant. Le titre <h3 property="nom"> est présenté comme un nom, tandis que le paragraphe <p property="sommaire"> est le sommaire.

Bien sûr, cette syntaxe est fictive, mais elle n’est pas très différente de ce qui existe déjà dans le domaine du Web sémantique, comme chez les Microformats ou RDFa.

Mon but ici n’était pas d’entrer trop dans les détails, mais plutôt de présenter les grandes lignes.

Dans le prochain billet, nous verrons plus en détail comment mettre en œuvre des sites intégrant ces technologies.

Bookmark and Share

Laisser un commentaire

Security Code: