View on GitHub

artsdata-data-model

Overview of how data is modelled in Artsdata.ca.

[SCROLL DOWN FOR ENGLISH VERSION]

Modèle de données Artsdata v0.2

Un modèle de données simple pour les événements dans les arts de la scène ainsi que pour les lieux, les personnes et les organismes connexes.

Le modèle de données (ontologie) d’Artsdata est un sous-ensemble de Schema.org avec quelques vocabulaires contrôlés additionnels. Le modèle d’Artsdata.ca est représenté formellement avec le language SHACL ici.

Les classes et propriétés utilisées dans Artsdata sont similaires au modèle de Google Event Structured Data. En particulier, les propriétés obligatoires pour les événements dans la documentation de Google sont aussi des propriétés obligatoires dans Artsdata. La différence principale est qu’Artsdata enrichit les données structurées avec des URIs et relie les URIs vers Wikidata et d’autres sources LOD (Linked Open Data). Artsdata génère également des URI (identifiants globaux uniques et pérennes) pour les événements, personnes, lieux, organisations et aussi pour quelques vocabulaires contrôlés comme des types d’événements spécifiques aux arts de la scène. Ces URIs peuvent être utilisés en dehors d’Artsdata.

Voici les Classes utilisées dans Artsdata.

Image

[open drawing tool]

Classes

  1. EventAttendanceModeEnumeration
  2. EventStatusType
  3. Event
  4. Offer
  5. Organization
  6. Person
  7. Place
  8. PostalAddress
  9. VirtualLocation
  10. WebPage

Identifiants passerelles

En plus de l’identifiant Artsdata, le graphe de connaissance Artsdata s’appuie sur d’autres identifiants uniques pérennes, comme l’identifiant Wikidata et l’ISNI, afin de reconnaître et de réconcilier les entités nommées des classes Organization, Person et Place.

Recommandations à propos des identifiants pérennes dans les arts de la scène

Gabarits de données structurées

Gabarits pour les événements Gabarits pour les personnes

Rapports de validation SHACL

Les formes SHACL sont utilisées pour valider les données avant l’importation.

Ontologies et inférences

Artsdata.ca utilise un ensemble de bases d’implications RDFS et OWL afin de permettre une inférence simple, appelé OWL-Horst (optimized).

La principale ontologie utilisée dans Artsdata.ca est Schema.org. Artsdata.ca importe le schéma de base Schema.org et le schéma Schema.org en attente (pour inclure schema:EventSeries qui est une classe en attente).

Artsdata.ca a un grand nombre de mappages de classes et de propriétés entre Schema.org, Wikidata.org, DBpedia.org, FOAF and DOLCE+DnS Ultralite (Ontology Design Patterns) en utilisant owl:equivalentClass and owl:equivalentProperty. La majorité des mappages sont préconstruits à partir d’ontologies externes avec quelques mappages supplémentaires spécifiques à Artsdata.ca à Wikidata.

Les travaux en cours sur la prochaine version de l’ontologie Artsdata.ca sont influencés par les travaux de l’initiative Un avenir numérique lié de CAPACOA et impliquent l’alignement du modèle de données avec les modèles de données utilisés dans le patrimoine culturel, y compris, mais sans s’y limiter, CIDOC-CRM, FRBRoo, PROV et RDA. Les modèles de données seront en outre spécifiés par un vocabulaire spécifique au domaine qui sera publié dans les prochaines versions.

Ontologies chargées dans Artsdata

Provenance

Voir la section plus bas en anglais.

Architecture de flux de données

En principe, n’importe qui peut ajouter des données à Artsdata.ca pourvu que certaines exigences en matière de données soient respectées. Voici un diagramme sur la façon dont les données entrent et sortent d’Artsdata.ca.

Données ouvertes et liées, mise en cache

Artsdata.ca charge les données ouvertes et liées de Wikidata et DBpedia afin de les mettre en cache pour des raisons de performances. Les triplets sont obtenus en utilisant la négociation de contenu (au lieu de vidages de données) et sont mis en cache sans modification dans leurs graphes nommés respectifs.

Remarque: il existe une exception notable, la propriété Wikidata P31 (instance de) est transformée en rdf:type. Ce même résultat aurait pu être obtenu en utilisant owl:equivalentProperty mais il n’a pas été sélectionné pour des raisons de performances.

Conventions de nommage

Conventions sur la façon de nommer les choses en cas de doute.

Assistance ou contact

Contactez nous.

# #

Artsdata Data Model v0.2

Edit page |

A simple data model for Performing Arts Events and related Places, People and Organizations.

The Artsdata data model (ontology) is a sub-set of Schema.org along with a few controlled vocabularies specific to Artsdata. The data mode is formally represented using the language SHACL here.

The classes and properties used in Artsdata resemble Google Event Structured Data. The main difference is that Artsdata creates links between entities within Artsdata and interlinks URIs outside of Artsdata including links to Wikidata and other LOD (Linked Open Data) sources. Artsdata also generates unique global identifiers (IRIs also called URIs) for classes such as Events, Persons, Places, and Organizations.

Here are the main Classes used in Artsdata.

Image

[open drawing tool]

Classes

  1. EventAttendanceModeEnumeration
  2. EventStatusType
  3. Event
  4. Offer
  5. Organization
  6. Person
  7. Place
  8. PostalAddress
  9. VirtualLocation
  10. WebPage

Bridge Identifiers

In addition to Artsdata Identifiers, the Artsdata Knowledge Graph relies on other persistent and unique identifiers, like wikidata and ISNI, to recognize and reconcile entites of type Organization, Person and Place.

Recommendations on using persistent identifiers in the performing arts

Structured Data Templates

Event templates Person templates

SHACL Validation Reports

SHACL shapes are used to validate data before importing.

Ontologies & Inferencing

Artsdata.ca uses a basic set of RDFS and OWL entailments (or ruleset) to enable simple inferencing, called OWL-Horst (optimized).

The main ontology used in Artsdata.ca is Schema.org. Artsdata.ca imports the core Schema.org schema and the pending Schema.org schema (to include schema:EventSeries which is a pending class).

Artsdata.ca has a large number of class and property mappings between Schema.org, Wikidata.org, DBpedia.org, FOAF and DOLCE+DnS Ultralite (Ontology Design Patterns) using owl:equivalentClass and owl:equivalentProperty. The majority of mappings come prebuilt from external ontologies with some additional Artsdata.ca specific mappings to Wikidata.

Current work into the next version of the Artsdata.ca ontology is being influenced by the work at CAPACOA’s Linked Digital Future initiative and involves aligning the data model with data models used in cultural heritage including, but not limited to, CIDOC-CRM, FRBRoo, PROV and RDA. The data models will be futher specificed by a domain-specifc vocabulary to be released in the upcoming versions.

Exceptions handling schema.org in Artsdata

Artsdata converts all schema.org https URIs to http URIs, and also makes the following transformations:

  1. schema:eventStatus and schema:eventAttendanceMode objects are converted to URIs in Artsdata, whereas the schema.org @context sets them to Literals.
  2. schema:url objects are converted to Literals in Artsdata, whereas the schema.org @context sets them to URIs.
  3. datatype schema:DateTime is converted to xsd:dateTime to enable SPARQL to handle time.
  4. datatype schema:Date is converted to xsd:date to enable SPARQL to handle time.

Ontologies loaded into Artsdata

Provenance

Data is great, but it is not the ultimate truth, and without traceability it can lose our trust. For example, what if two web pages have different dates for the same performing arts event. Which source is more trust worthy? How can we follow the data back to the source to decide for ourselves?

To track provenance, Artsdata.ca uses metadata attached to named graphs. Each data source in Artsdata.ca is stored in a separate named graph. The graph’s URI is used as the subject of the provenance metadata. This technique to track provenance is generally called the Named Graphs approach. Each named graph URI is a prov:Entity and is linked to provenance metadata including the date when the data was loaded, the software used to collect it and the email of the contributing organization. Each time data is imported, whether from a web site, spreadsheet or existing triple store, the graphs provenance metadata is updated. In addition, when the data source is directly from a crawled web page, the schema:WebPage entity includes the date when the web page was crawled.

Minted entities in Artsdata.ca is master data and is therefore not from an external source. To track provenance metadata on minted entity master data, RDF-star is used to quote triples as provenance entities using the provenance ontology.

Data Flow Architecture

In principle, anyone can add data to Artsdata.ca as long as certain data requirements are met. Here is a diagram about how data flows in and out of Artsdata.ca.

Caching LOD

Artsdata.ca loads LOD from Wikidata and DBpedia in order to cache it for performance reasons. The triples are obtained using content negotiation (instead of data dumps) and are cached unmodified in their respective named graphs.

Note: there is one notable exception, the Wikidata property P31 (instance of) is transformed to rdf:type. This same result could have been accomplished using owl:equivalentProperty but it was not selected for performance reasons.

Naming Conventions

Conventions on how to name things when in doubt.

  1. LDF/ANL Recommended identifiers: spreadsheet with guidelines on using identifiers. This document may eventually be converted into an Artsdata official recommendation.

Support or Contact

Contact support and we’ll help you sort it out.