Folder, Files und FRBR – Datenmodellierung für Dokumente und Metadaten

Die Entwicklung des Frameworks für die Fachinformations- und
kommunikationsdienste von H-Soz-u-Kult, Clio-online und weiteren Partnern basiert
auf einem Datenmodell mit standardisierten Schnittstellen und Formaten. Daten
und Beiträge werden in einem JAVA-basierten Framework so aufbereitet, dass sie
in Linked Open Data–Strukturen für Wissenschaft und Öffentlichkeit zur Verfügung stehen werden. Die Implementierung des HFN-Frameworks stützt sich dabei auf ein Datenmodell, welches Aspekte der Bibliothekswelt, der elektronischen Fachinformation- und kommunikation sowie des elektronischen Publizierens vereinigt.

Das Datenmodell des HFN basiert auf fünf Entitätengruppen –
Beiträge, Artikel oder Dokumente (verschiedene Arten von Text-, Bild-,
Videodaten), bibliografische Datensätze, Personen- und Organisationsdaten sowie
Ereignisse. Aus diesen Grundentitäten lassen sich die bisherigen Beitragsformate
zusammensetzen und beliebig um neue Entitäten oder Dokumenttypen erweitern. Die
Implementierung des Datenmodells wurde zu Beginn des Projekts in verschiedenen Repositoriensystemen getestet. Hierbei haben sich Grenzen hinsichtlich Skalierbarkeit und Erweiterbarkeit in unterschiedlichen Systemen gezeigt. [1]

Die Wahl fiel letztlich auf das teils kommerziell vertriebene Open-Source-Dokumentenmanagement System Alfresco, welches auch in einer freien Community-Edition verfügbar ist und mittlerweile viele Content-Management-Funktionen sowie freie Erweiterungen enthält. Alfresco stellt gängige Schnittstellen für den Datenaustausch bereit, die auf eigene Dienste angewendet werden können, zugleich lassen sich sehr flexibel eigene Datenmodelle bzw. Datenstrukturen implementieren. Das Dokumentenmanagementsystem weist umfängliche Anreicherungsfunktionen mittels Metadaten auf, so dass sowohl klassische Dokumententypen aus Text- oder Bildverarbeitung verwaltet und publiziert, gleichermaßen aber auch eigene Typen implementiert werden können. Neben den klassischen  Dokumentenmanagementfunktionen können eigene Renderer für die Ausgabe in HTML, PDF u.a.m. implementiert oder Schnittstellen (REST, CMIS) angebracht bzw. genutzt werden.

Folder, Files und FRBR

Im Kern stellt Alfresco Folder und Files (Content-Typen) für das Dokumentenmanagement bereit, wie es aus der grundsätzlichen Organisation von Dateien
bekannt ist. Dieses Folder-Files-Modell wird vom HFN genutzt, in dem Folder als
Ablagemappen und Content-Typen als eigentliche Objekte für die Speicherung von
Beiträgen eingesetzt werden. Darauf setzt ein FRBR-isiertes Datenmodell [2] auf, in
dem über Vererbung und gemischte Datentypen die jeweiligen Entitäten definiert sind: Dies können bibliografische Einheiten (Beiträge, Publikationen bzw. reine Metadatensätze), Authorities (Personen, Organisationen) sowie Ereignisse
sein, die nicht nur abgebildet, sondern auch miteinander in Bezug gesetzt werden können.

image001

Personen, Organisationen und Werke werden als Folder und mittels verschiedener Ontologien und Vokabularien im Datenmodell abgebildet.

image002

Die Metadaten der Objekte (Types) werden in einer XML-Datei definiert; hierbei wird teilweise das Resource Description Framework RDA [3] genutzt.

image003

Gleichermaßen werden die eigentlichen Content-Objekte abgebildet, die wiederum über Vererbung in eine Objekthierarchie gebracht werden können (manifestation -> book; manifestation -> review). Jeder Beitrag wird ebenfalls als Dokument bzw. als ein Content-Type in der XML-Deklaration des Datenmodells notiert und mit Eigenschaften (Properties) mittels Alfresco-Datentypen (d:text) und weiteren optionalen Parametern von
Alfresco versehen (multiple für Mehrfachwerte).

image004

Als hilfreich erweist sich die Möglichkeit von Alfresco, beliebige Vokabulare für Datentypen gemischt nutzen zu können: So werden für die Modellierung eines Beitrags (Manifestation) unter anderem Teile von RDA sowie des MODS und BIBO-Vokabulars genutzt.

image005

Mittels sogenannter Aspects, die in Alfresco dynamisch zum Anbringen weiterer Eigenschaften an Objekte oder aber auch zur Herstellung von Relationen mittels Associations genutzt werden können, sind die Beziehungen zwischen den einzelnen Entitätentypen definiert – hier die Zugehörigkeit einer Rezension zum rezensierten Werk (reviewOf). Diese Relationen könnten auch direkt in den eigentlichen Datentypen in Alfresco angebracht werden, allerdings lassen sich die Relationen in Alfresco über die CMIS-Schnittstelle einfacher in JAVA ansprechen.

image006

Über das Folder-Files-Modell sowie die Anwendung von FRBR, RDA usw. lassen sich somit innerhalb eines Alfresco-Folder (=Work) unterschiedliche Versionen und Varianten einer Werksumsetzung als Content-Objekt (=Manifestation) umsetzen, mittels Aspects und Relationen entsprechende Beziehungen zwischen den Entitäten implementieren.

Nach diesem Grundmodell wurden alle Beitragsformate von Clio-online und H-Soz-u-Kult im Datenmodell abgebildet und so erweitert, dass beliebige Entitäten miteinander in Beziehung gesetzt werden können.

image007

image008

Für die Rezensionen, die über die Suchmaschine Historische Rezensionen Online (HRO) unter http://hro.clio-online.de recherchierbar sind, wurde das Datenmodell bereits prototypisch implementiert (ein Publikationsdatensatz – im Modell frbr:work/bibo:book – kann dabei jederzeit um weitere neue Rezensionen – rev:review/clio:review – erweitert werden; denkbar ist sogar die Erweiterung durch mehrere Versionen einer Rezension mittels weiterer clio:review-Typen in einem rev:review-Folder). Die Suchoberfläche von HRO besteht aus einem einfachen SOLR-Client [4], der auf einen separaten SOLR-Server des HFN (nicht den Alfresco-SOLR-Server!) zugreift. Die einfache php-Implementation dieses Clients lässt sich wiederum in gängige Content-Management-Systeme auf PHP-Basis integrieren.

Derzeit werden in JAVA verschiedene Module des HFN-Framework entwickelt, welche die Ein- und Ausgabe über die Alfresco-eigene CMIS-Schnittstelle implementieren. Ziel dieser Module ist die vollständige Kapselung der CMIS-Zugriffe bzw.  Schnittstellenkommunikation, so dass die nur noch über Model-View-Controller die Ein- und Ausgabe via Formulare und Webseiten bereitzustellen ist, ohne sich intern um die Kommunikation mit der Datenbank bzw. auf der CMIS-Schnittstellenebene befassen zu müssen. Durch die Entkopplung von Datenbank und Anwendung lässt sich das Modell neben projekteigenen Vorhaben zukünftig in weiteren Projekten mit externen Partnern zur Integration weiterer Datentypen und Anwendungen, so z.B. zur Integration von Forschungsprimärdaten, nutzen: Das Datenmodell muss nur noch in den Alfresco-eigenen XML-Deklarationen um neue Datentypen erweitert werden, in den JAVA-Modulen sind entsprechend die Datentypen zu kapseln. Besonders interessant dürften in diesem Zusammenhang neue Anwendungen werden, die vorhandene Publikationen aus dem Umfeld von Clio-online und H-Soz-u-Kult einerseits und weiteren, digitalen Quellensammlungen und Forschungsprimärdaten andererseits zusammenführen bzw.
verknüpfen.

Anmerkungen:

[1] Zum Vergleich verschiedener Repositorien und no-sql-Datenbanken siehe den zweiteiligen Blog-Beitrag unter <http://www2.hu-berlin.de/historisches-forschungsnetz/2012/03/jcr-repositorien-und-nosql-datenbanken/> (10.07.2013).

[2] Näheres zur FRBR-Spezifikation siehe die Seiten der International Federation of Library Associations and Institutions (IFLA) <http://www.ifla.org/publications/functional-requirements-for-bibliographic-records> (10.07.2013).

[3] Zur Umsetzung von RDA in Deutschland vgl. <http://www.dnb.de/DE/Standardisierung/International/rda.html> (10.07.2013).

[4] Das PHP-Solr-Framework Solarium ist zu finden unter <http://www.solarium-project.org/> (10.07.2013).

Dieser Beitrag wurde unter Uncategorized veröffentlicht. Setze ein Lesezeichen auf den Permalink.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.