Le thésaurus W et le Web de données

Accueil | Présentation du thésaurus W | Le thésaurus W et le Web de données

Sommaire

Le thésaurus W dans le Web de données

A la suite des normes internationales de description développées par le Conseil international des archives pour décrire les documents d’archives, leurs producteurs, leurs détenteurs et les fonctions des producteurs d’archives (ISAD(G), ISAAR(CPF), ISDIAH et ISDF), les archives se sont dotées, avec les formats XML EAD (Description archivistique encodée) et EAC-CPF (Contexte archivistique encodé – Collectivités, personnes, familles), d'outils permettant d'envisager l'interopérabilité des instruments de recherche archivistiques et des notices d’autorité décrivant les producteurs d’archives. Loin de remettre en cause ce travail fondamental, les technologies du Web sémantique et les principes du Web de données ouvrent de nouvelles perspectives. En effet, il ne s'agit plus simplement de mettre en place un cadre d'interopérabilité entre les données archivistiques, mais bien de l'envisager avec les autres données culturelles et patrimoniales (bibliothèques, musées, archéologie...). De ce point de vue, le travail effectué dans le cadre d'Europeana est tout à fait symbolique. En effet, ce projet vise à offrir dans une même interface l'accès à l'ensemble du patrimoine numérisé européen quel que soit sa provenance. Pour ce faire, Europeana a mis au point un modèle qui s'appuie sur les principes du Web de données.

De plus, même si les bibliothèques semblent avoir pris le tournant du Web sémantique comme le prouve l'existence du groupe de travail du W3C « Library Linked Data Incubator Group » dont une des vocations est d'engager des relations avec les autres domaines du patrimoine, les archives ne sont pas en reste, il existe déjà quelques initiatives dans le domaine, par exemple :

La mise à disposition du thésaurus W dans le Web de données participe donc d'un mouvement naissant qui pourrait ouvrir de nouvelles perspectives dans la manipulation des données archivistiques sur le Web.

Un vocabulaire pour décrire des thesauri : SKOS

Standardisé au sein du W3C, SKOS (Simple Knowledge Organization System) est une ontologie OWL pour décrire des vocabulaires contrôlés et des thesauri en RDF. Il est volontairement simple pour permettre une appropriation aisée par les communautés issues de l'indexation.

La sémantique principale offerte par SKOS peut être classés en six parties :

Par exemple, soit la notice « Economic cooperation » issu du thésaurus UKAT :

Term: Economic cooperation

Used For:
    Economic co-operation

Broader terms:
    Economic policy

Narrower terms:
    Economic integration
    European economic cooperation
    European industrial cooperation
    Industrial cooperation

Related terms:
    Interdependence

Scope Note: Includes cooperative measures in banking, trade, industry etc., between 
and among countries.

Et son équivalent en RDF décrit avec l'ontologie SKOS

Pour prendre un autre exemple, soit la notice « Métadonnées » du vocabulaire Rameau maintenu par la BnF :

Métadonnées 

Ensemble structuré de données créées pour fournir des informations sur des ressources électroniques

<Employé pour : 
Balises meta
Données sur les données

<<Terme(s) générique(s) : 
Sites Web -- Référencement 

>><<Terme(s) associé(s) : 
Information électronique 

>>Terme(s) spécifique(s) : 
Dublin Core 

Source(s) : Vocabulaire de la documentation / INTD-ER, 2004

Equiv. LCSH : Metadata 

Sa conversion en RDF (écrite ici avec la syntaxe RDF/XML) avec l'ontologie SKOS donne :

<?xml version="1.0" encoding="utf-8"?>
<rdf:RDF
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
  xmlns:owl="http://www.w3.org/2002/07/owl#"
  xmlns:dc="http://purl.org/dc/terms/"
  xmlns:skos="http://www.w3.org/2004/02/skos/core#">
	
	<skos:Concept rdf:about="ark:/12148/cb150598844">
		<skos:prefLabel>Métadonnées</skos:prefLabel>
		<skos:definition>Ensemble structuré de données créées pour fournir 
			         des informations sur des ressources électroniques</skos:definition>
		<skos:altLabel>Données sur les données</skos:altLabel>
		<skos:broader rdf:resource="ark:/12148/cb135999437"/>
		<skos:narrower rdf:resource="ark:/12148/cb150600185"/>
		<skos:related rdf:resource="ark:/12148/cb12520543c"/>
		<skos:exactMatch rdf:resource="http://lcsh.info/sh96000740#concept"/>
		<skos:editorialNote>Vocabulaire de la documentation / INTD ER, 2004</skos:editorialNote>
	</skos:Concept>

</rdf:RDF>

Il est à signaler que, dans cet exemple, en lieu et place des URI, nous avons utilisé les identifiants ARK, système d'URI déployé à la BnF, gage de pérennité mais qui présente le désavantage de ne pas être déréférençable.

Utilisation de SKOS pour le thésaurus W

Le thésaurus pour la description et l'indexation des archives locales, anciennes, modernes et contemporaines dit thésaurus W est composé de trois listes d'autorités (Typologie documentaire, Actions, contexte historique) et un thésaurus matières. Chaque vocabulaire est composé d'un certain nombre de concepts à plat pour les listes d'autorités ou organisés hiérarchiquement pour le thésaurus matières. La structure adoptée dans cette version correspond à celle adoptée lors de leur première mise à disposition en juin 2009. En revanche, les URI ont été revues pour être déréférencées suivant les principes du Web de données, les étiquettes ont été systématiquement placées en minuscule et les concepts ont été reliés avec deux autres ensembles de données (Rameau et Dbpedia) quand cela était possible. De plus, quelques corrections mineures ont été apportées suite à différentes remarques faites après la mise à disposition de la première version.

Structure des vocabulaires

Chaque vocabulaire est indépendant les uns des autres. Par conséquent, il donne lieu à une ressource de type skos:ConceptScheme, par exemple :

<?xml version="1.0" encoding="utf-8"?> 
<rdf:RDF 
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
  xmlns:skos="http://www.w3.org/2004/02/skos/core#" 
  xmlns:foaf="http://xmlns.com/foaf/0.1/"
  xmlns:dc="http://purl.org/dc/elements/1.1/"> 

	<skos:ConceptScheme rdf:about="http://$base/resource/Matiere">
		<dc:title>Thésaurus-Matières</dc:title>
	</skos:ConceptScheme>

</rdf:RDF>

Cette ressource est par ailleurs complétée par des métadonnées exprimées avec le vocabulaire Dublin Core :

<?xml version="1.0" encoding="utf-8"?> 
<rdf:RDF 
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
  xmlns:skos="http://www.w3.org/2004/02/skos/core#" 
  xmlns:foaf="http://xmlns.com/foaf/0.1/"
  xmlns:dc="http://purl.org/dc/elements/1.1/"

xmlns:dct="http://purl.org/dc/terms/"> <skos:ConceptScheme rdf:about="http://$base/resource/Matiere"> <dc:title>Thésaurus-Matières</dc:title> <dc:creator>Service interministériel des Archives de France</dc:creator> <dc:description>Description du vocabulaire</dc:description> <dct:modified>2010-04-25</dct:modified> </skos:ConceptScheme> </rdf:RDF>

Enfin, cette ressource est reliée à tous les concepts de premier niveau contenu dans le vocabulaire, c'est-à-dire tous les termes du vocabulaire dans le cas des listes d'autorités « Actions » et « Typologie documentaire », les périodes historiques dans le cas de la liste d'autorité « Contexte historique » et des onze catégories dans le cas du thésaurus-matières.

<?xml version="1.0" encoding="utf-8"?> 
<rdf:RDF 
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
  xmlns:skos="http://www.w3.org/2004/02/skos/core#" 
  xmlns:foaf="http://xmlns.com/foaf/0.1/"
  xmlns:dc="http://purl.org/dc/elements/1.1/"
  xmlns:dct="http://purl.org/dc/terms/">
	
	<skos:ConceptScheme rdf:about="http://$base/resource/Matiere">
		<dc:title>Thésaurus-Matières</dc:title>
		<dc:creator>Service interministériel des Archives de France</dc:creator>
		<dc:description>Description du vocabulaire</dc:description>
		<dct:modified>2010-04-25</dct:modified>
		<skos:hasTopConcept rdf:resource="http://$base/resource/T1-503"/>
		<skos:hasTopConcept rdf:resource="http://$base/resource/T1-543"/>
		<skos:hasTopConcept rdf:resource="http://$base/resource/T1-246"/>
		<skos:hasTopConcept rdf:resource="http://$base/resource/T1-1317"/>
		[...]
	</skos:ConceptScheme>

</rdf:RDF>

Chaque terme ou concept des vocabulaires donne lieu à une ressource de type skos:Concept dont l'URI est formé de la manière suivante : « http://$base/resource/ » suivi de la mention du vocabulaire sous la forme d'un code (T1 pour « Matières », T2 pour « Actions », T3 pour « Typologie documentaire » et T4 pour « Contexte) puis d'un nombre commençant à 1 pour chaque vocabulaire et précédé d'un tiret, par exemple, le terme « action sociale » du thésaurus-matières a pour URI adressable : « http://$base/resource/T1-200 ».

Les différentes relations définies pour le thésaurus W donne lieu à l'utilisation des propriétés suivantes :

Les éventuelles notes de bas de page ont été converties en une annotation avec la propriété skos:scopeNote. La relation avec la racine du vocabulaire est indiquée avec la propriété skos:inScheme. En guise d'exemple, soit le terme « TELEDIFFUSION » dans le thésaurus-matières.

3.1 MESSAGERIE
	TELEDIFFUSION
		EP chaîne de télévision
		EP télévision
		EP télévision câblée
		EP télévision numérique
	       TA REDEVANCE PARAFISCALE (1.4.)
		SOCIETE DE TELEDIFFUSION PRIVEE
			TA ENTREPRISE DE SPECTACLE (11.1.)

Une fois converti en RDF avec l'ontologie SKOS et sérialisé avec la syntaxe RDF/XML :

<?xml version="1.0" encoding="utf-8"?> 
<rdf:RDF 
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
  xmlns:skos="http://www.w3.org/2004/02/skos/core#" 
  xmlns:foaf="http://xmlns.com/foaf/0.1/"
  xmlns:dc="http://purl.org/dc/elements/1.1/"
  xmlns:dct="http://purl.org/dc/terms/">

	<skos:Concept rdf:about="http://$base/resource/T1-228">
		<skos:prefLabel xml:lang="fr">télédiffusion</skos:prefLabel>
		<skos:altLabel xml:lang="fr">télévision numérique</skos:altLabel>

<skos:altLabel xml:lang="fr">télévision câblée</skos:altLabel> <skos:altLabel xml:lang="fr">télévision</skos:altLabel> <skos:altLabel xml:lang="fr">chaîne de télévision</skos:altLabel> <skos:broader rdf:resource="http://$base/resource/T1-915"/> <skos:narrower rdf:resource="http://$base/resource/T1-219"/> <skos:related rdf:resource="http://$base/resource/T1-1350"/> <skos:inScheme rdf:resource="http://$base/resource/Matiere"/> </skos:Concept> <skos:Concept rdf:about="http://$base/resource/T1-219"> <skos:prefLabel xml:lang="fr">société de télédiffusion privée</skos:prefLabel> <skos:broader rdf:resource="http://$base/resource/T1-228"/> <skos:related rdf:resource="http://$base/resource/T1-1350"/> <skos:inScheme rdf:resource="http://$base/resource/Matiere"/> </skos:Concept> </rdf:RDF>

La même description avec la syntaxe N3 :

@prefix foaf: <http://xmlns.com/foaf/0.1/>
@prefix dct: <http://purl.org/dc/terms/>
@prefix dc: <http://purl.org/dc/elements/1.1/>
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
@prefix skos: <http://www.w3.org/2004/02/skos/core#>

<http://$base/resource/T1-228> rdf:type skos:Concept;
			skos:prefLabel "télédiffusion"@fr;
			skos:altLabel "télévision numérique"@fr ,
					"télévision câblée"@fr ,
					"télévision"@fr,
					"chaîne de télévision"@fr ;
			skos:broader <http://$base/resource/T1-915>;
			skos:narrower <http://$base/resource/T1-219>;
			skos:related <http://$base/resource/T1-1350>;
			skos:inScheme <http://$base/resource/Matiere>.
<http://$base/resource/T1-219> rdf:type skos:Concept;
			skos:prefLabel "société de télédiffusion privée"@fr;
			skos:broader <http://$base/resource/T1-228>;
			skos:related <http://$base/resource/T1-1350>;
			skos:inScheme <http://$base/resource/Matiere>.

Cette description correspond aux triplets suivants

Sujet Prédicat Objet
http://$base/resource/T1-228 http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://www.w3.org/2004/02/skos/core#Concept
http://$base/resource/T1-228 http://www.w3.org/2004/02/skos/core#prefLabel "télédiffusion"@fr
http://$base/resource/T1-228 http://www.w3.org/2004/02/skos/core#altLabel "télévision numérique"@fr
http://$base/resource/T1-228 http://www.w3.org/2004/02/skos/core#altLabel "télévision câblée"@fr
http://$base/resource/T1-228 http://www.w3.org/2004/02/skos/core#altLabel "télévision"@fr
http://$base/resource/T1-228 http://www.w3.org/2004/02/skos/core#altLabel "chaîne de télévision"@fr
http://$base/resource/T1-228 http://www.w3.org/2004/02/skos/core#broader http://$base/resource/T1-915
http://$base/resource/T1-228 http://www.w3.org/2004/02/skos/core#narrower http://$base/resource/T1-219
http://$base/resource/T1-228 http://www.w3.org/2004/02/skos/core#related http://$base/resource/T1-1350
http://$base/resource/T1-228 http://www.w3.org/2004/02/skos/core#inScheme http://$base/resource/Matiere
http://$base/resource/T1-219 http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://www.w3.org/2004/02/skos/core#Concept
http://$base/resource/T1-219 http://www.w3.org/2004/02/skos/core#prefLabel "société de télédiffusion privée"@fr
http://$base/resource/T1-219 http://www.w3.org/2004/02/skos/core#broader http://$base/resource/T1-228
http://$base/resource/T1-219 http://www.w3.org/2004/02/skos/core#related http://$base/resource/T1-1350
http://$base/resource/T1-219 http://www.w3.org/2004/02/skos/core#inScheme http://$base/resource/Matiere

Relation avec d'autres ensembles de données

Il nous a semblé intéressant de proposer, à titre exploratoire, des relations avec d'autres ensembles de données. En effet, elles ouvrent des voies de relations avec d'autres ensembles de données et, ainsi, permettent, par exemple, d'envisager des extensions de recherche depuis une description de fonds archivistiques vers des fonds bibliographiques qui seraient décrits avec Rameau ou vers des applications qui utiliseraient Dbpedia comme le site de signets partagés « Faviki ».

Lorsque cela été possible et pertinent, les ressources du thésaurus W ont été reliées à deux autres ensembles de données :

Les relations ont été effectuées après un traitement en deux temps : une comparaison morphologique des étiquette des ressources des différents ensembles puis une vérification manuelle de l'ensemble des résultats trouvés. Les propriétés utilisées pour relier les ensembles de données sont de différentes natures :

Avec l'augmentation du nombre de ressources disponibles dans le Web de données issues, en particulier, de la conversion de listes ou notices d'autorités, la question s'est posée de savoir comment relier cette ressource qui, très logiquement, est de type skos:Concept à la ressource qui fait référence à l'entité dans le monde réel, comme c'est le cas pour Dbpedia. Il n'est pas possible d'utiliser owl:sameAs qui traduit une identité stricte ce qui n'est pas réellement le cas, ni les propriétés d'alignement de skos dont le co-domaine est skos:Concept. Face à cette difficulté qui est particulièrement pregnante pour les autorités « personnes », la communauté gérant foaf propose d'utiliser la propriété foaf:focus. Cette ressource a vocation à relier une ressource de type skos:Concept à une ressource qui désigne l'entité équivalente dans le monde réel. Par exemple, si on reprend l'exemple pris précédemment, la ressource correspondant à la télédiffusion dans le thésaurus W est reliée à la ressource « Broadcasting » dans Dbpedia.

<?xml version="1.0" encoding="utf-8"?> 
<rdf:RDF 
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
  xmlns:skos="http://www.w3.org/2004/02/skos/core#" 
  xmlns:foaf="http://xmlns.com/foaf/0.1/"
  xmlns:dc="http://purl.org/dc/elements/1.1/"
  xmlns:dct="http://purl.org/dc/terms/">

	<skos:Concept rdf:about="http://$base/resource/T1-228">
		<skos:prefLabel xml:lang="fr">télédiffusion</skos:prefLabel>
		<skos:altLabel xml:lang="fr">télévision numérique</skos:altLabel>
		<skos:altLabel xml:lang="fr">télévision câblée</skos:altLabel>
		<skos:altLabel xml:lang="fr">télévision</skos:altLabel>
		<skos:altLabel xml:lang="fr">chaîne de télévision</skos:altLabel>
		<skos:broader rdf:resource="http://$base/resource/T1-915"/>
		<skos:narrower rdf:resource="http://$base/resource/T1-219"/>
		<skos:related rdf:resource="http://$base/resource/T1-1350"/>
		<skos:exactMatch rdf:resource="http://stitch.cs.vu.nl/vocabularies/rameau/ark:/12148/cb119344712"/>
		<foaf:focus rdf:resource="http://dbpedia.org/resource/Broadcasting"/>
		<skos:inScheme rdf:resource="http://$base/resource/Matiere"/>
	</skos:Concept>
	
	<skos:Concept rdf:about="http://$base/resource/T1-219">
		<skos:prefLabel xml:lang="fr">société de télédiffusion privée</skos:prefLabel>
		<skos:broader rdf:resource="http://$base/resource/T1-228"/>
		<skos:related rdf:resource="http://$base/resource/T1-1350"/>
		<skos:inScheme rdf:resource="http://$base/resource/Matiere"/>
	</skos:Concept>

</rdf:RDF>

Comment exploiter le thésaurus W ?

La mise à disposition du thésaurus W suivant les principes du Web de données, plusieurs méthodes sont disponibles pour récupérer les données :

Quelques requêtes SPARQL

Le Sparql endpoint offre une compatibilité complète avec les recommandations SPARQL émises par le W3C. Nous proposons donc ici quelques requêtes SPARQL en guise d'exemple :

Les URI, les vedettes en français et éventuellement l'URI équivalente dans Dbpedia de tous les concepts spécifiques de « 20e siècle »

PREFIX skos: <http://www.w3.org/2004/02/skos/core#>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

SELECT ?concept ?label ?focus WHERE {
  <http://$base/thesaurus/resource/T4-45> skos:narrower ?concept .
  ?concept skos:prefLabel ?label.
  OPTIONAL {?concept foaf:focus ?focus}
  FILTER (lang(?label)='fr')
}

Les URI et les vedettes en français de tous les concepts équivalents entre le thésaurus W et Rameau

PREFIX skos: <http://www.w3.org/2004/02/skos/core#>

SELECT ?conceptW ?labelW ?conceptRameau ?labelRameau WHERE {
  ?conceptW skos:exactMatch ?conceptRameau .
  ?conceptW skos:prefLabel ?labelW.
  ?conceptRameau skos:prefLabel ?labelRameau.
  FILTER (lang(?labelW)='fr')
  FILTER (lang(?labelRameau)='fr')
}

Tous les termes rejetés (ou étiquettes alternatives) du concept qui a pour étiquette en français « industrie du cuir »

PREFIX skos: <http://www.w3.org/2004/02/skos/core#>

SELECT ?altLabel WHERE {
  ?concept skos:prefLabel "industrie du cuir"@fr;
           skos:altLabel ?altLabel.
}

Les URI et les vedettes des concepts reliés à un concept spécifique du concept « Finances publiques »

PREFIX skos: <http://www.w3.org/2004/02/skos/core#>

SELECT ?conceptrelie ?labelrelie WHERE {
 	<http://localhost:8080/thesaurus/resource/T1-1222> skos:narrower ?concept.
	?concept skos:related ?conceptrelie.
	?conceptrelie skos:prefLabel ?labelrelie.
}

Quelques pistes pour exploiter des données en RDF

Il existe de nombreux logiciels et bibliothèques pour exploiter et manipuler des donnnées en RDF. Ils peuvent être classés dans deux catégories :