Datenbanken und Repositorien Teil 2: Fedora Commons, Nuxeo und Alfresco

Thomas Meyer: Content Repositories und Relationale Datenbanken für das Historische Forschungnetz.

Bericht Teil 2: Fedora Commons, Nuxeo und Alfresco.

Fedora Commons

Nachdem in den Tests der JCR-Repositories sich Performanzprobleme bei mehreren tausend Dokumenten pro Ordnerebene einstellten, wurde die Verwendung von Fedora Commons geprüft. Fedora Commons hat im akademischen Umfeld in den USA, in Großbritannien und Deutschland derzeit eine relativ weite Verbreitung gefunden. In der Fedora-Umgebung stehen bisher einfache APIs und Werkzeuge für das Einfügen und Auslesen von Objekten zur Verfügung, die nach den Prinzipien von RESTful-Services arbeiten[i]. Mit den eSciDoc-Umgebungen der MPIs und des FIZ Karlsruhe stehen grundlegende Anwendungen für die Verwaltung bibliographischer Metadaten, Bilder und Volltexte zur Verfügung, allerdings werden keinerlei Workflowkomponenten oder übergreifende Schnittstellenstandards wie CMIS, die die Integration beliebiger CMS ermöglichen, angeboten.

Für den Test wurde der gleiche Datenbestand aus der Suchmaschine Historische Rezensionen Online für Fedora Commons aufbereitet: Die bisherigen Datenstrukturen wurden anhand des im ersten Projekthalbjahr entwickelten Datenmodells entsprechend in FOXML-Objekte umgewandelt und mit den Fedora Commons-eigenen Schnittstellen und Einfügewerkzeugen in ein Fedora-Repositorium eingespielt. Kleinere Datenmengen (bis ca. 20.000 Publikationsdatensätze sowie bis zu ca. 35.000 Rezensionsdatensätze) konnten ohne weitere Performanzverluste übernommen werden. Größere Datenmengen ab mehr als 50.000 Volltext-Objekten jedoch brachten auch bei Fedora Commons ähnliche Performanzprobleme zutage: Sowohl Einfügeoperationen, als auch Änderungen und Löschungen von Objekten in größerem Umfang führten zu auffälligen Performanzeinbußen. Auch die Adaption von Leistungsparametern (z.B. Einstellung von Speicherverfügbarkeit für die Programmumgebung / JAVA-OPTs) führten zu keiner signifikanten Verbesserung der Performanz.

Weitere Performanzverbesserungen sollten durch die Trennung von Datenbank und Anwendung erreicht werden: In einer weiteren Installation von Fedora Commons wurde die zugrundeliegende Datenbank in eine externe Postgresql-Datenbank ausgelagert. Die Einfügetests bzw. Migration der aufbereiteten Rezensionsdaten in diese Installationen erwiesen sich im Vergleich zu den vorangegangenen Tests (auf einer Fedora Commons-Standardinstallation mit integrierter Derby-Datenbank) als noch weniger performant: Von den insgesamt 80.000 Rezensionen incl. Publikationsdatensätzen waren nach 12 Stunden Testlauf gerade einmal 25% der Daten eingefügt. Die in den Tests des FIZ-Karlsruhe nachgewiesenen Performanzwerte konnten mit den Beitragsformaten von Clio-online und H-Soz-Kult und Fedora-eigenen Einfügetools leider nicht erreicht werden.[ii]

Aufgrund des nicht überschaubaren Risikos von Performanzproblemen wurden im Anschluss an die Tests von Fedora Commons die in die Auswahl einbezogenen Systeme Nuxeo und  Alfresco auf ihre Eigenschaften hinsichtlich der Projektanforderungen und teils auf ihre Performanz bei der Einfügung von Massendaten getestet.

Nuxeo

Das Dokumenten-Management-System Nuxeo stellt die als Voraussetzung für das Projektvorhaben gestellten Anforderungen bzw. Funktionalitäten zur Verfügung (siehe Tabelle im Anhang), insbesondere verfügt es über eine CMIS-Schnittstelle für die Vernetzung mit weiteren Datenspeichern und Umgebungen.[iii] Allerdings handelt es sich hierbei um ein System aus Frankreich, das fast ausschließlich dort und bisher kaum im deutschsprachigen Raum eingesetzt wird. Auch die internationale Verbreitung von Nuxeo ist stark auf die USA beschränkt. Wegen zu erwartender Supportprobleme (Dependancen ausschließlich in Frankreich und den USA) und einiger technischer Einschränkungen wurde vom Test bzw. Einsatz von Nuxeo abgesehen.

Alfresco

Bereits vor dem Projektstart wurden am Bereich Historische Fachinformatik in einer internen Evaluierung zwei der führenden CMS-Systeme, Sharepoint und Alfresco, hinsichtlich ihrer Einsatzmöglichkeiten in den Fachinformationsdiensten und darüber hinaus in den Institutsdiensten des IfG anhand einfacher Testinstallationen evaluiert. In internen Projekten wurde Sharepoint am Bereich Historische Fachinformatik bereits seit 2007 gelegentlich eingesetzt. Sharepoint ist als proprietäres Produkt von Microsoft allerdings eng an die Produkte und Technologien von Microsoft (Datenbankserver MS-SQL, Betriebssystem Windows Server) gebunden und somit nicht plattformübergreifend nutzbar. Alfresco dagegen wird als quelloffene, frei verfügbare Community-Edition vertrieben, die datenbank- und plattformunabhängig ein Repository für Metadaten und Inhalte bereitstellt, einschließlich generischer Funktionalitäten und standardisierter Schnittstellen (neben einer kostenpflichtigen Version).

Aufgrund der vielfältigen Performanzprobleme beim Massendatenimport und nachträglichen Änderungen von Daten in Jackrabbit, ModeShape, Fedora und den möglichen Risiken des Einsatzes von MongoDB und Nuxeo einerseits und der fortgeschrittenen Projektentwicklung andererseits wurden die Daten von Clio-online und H-Soz-Kult mit Hilfe der bereits entwickelten Programmbibliotheken in ein Alfresco-System migriert. Die damit verbundenen Tests des Massendatenimports waren erfolgreich, innerhalb von drei Stunden konnten z.B. mehr als 50.000 Rezensionen einschließlich der Publikationsdatensätze der Suchmaschine Historische Rezension Online übertragen werden. Diese Tests wurden zur Absicherung der Ergebnisse mehrfach wiederholt. In einem umfassenden Testlauf wurden nahezu sämtliche Daten der Projekte Clio-online und H-Soz-Kult in eine Alfresco-Standard-Installation migriert.

Zusätzlich wurden detaillierte Lasttests der im Alfresco-CMS bereits vorhandenen generischen Bearbeitungs- und Rechercheformulare und der integrierten Schnittstellen (interne Alfresco-API, CMIS-REST-API) durchgeführt, um die Performanz nicht nur der Datenimporte, sondern auch des Betriebs an sich zur untersuchen. Dazu wurden erste Workflows und Bearbeitungsfunktionalitäten für Redaktion und zukünftige Nutzer der Beitragen-Bereiche im System implementiert und ebenfalls in die Tests eingeschlossen. Diese Implementationen und Tests konnten so gestaltet werden, dass sowohl bereits entwickelte Datenmodelle, als auch bereits ausprogrammierte Schnittstellen und Programmbibliotheken integriert werden können.

Exkurs: Projekt Bamboo

Weitere internationale Projekte im Umfeld der „Virtuellen Forschungsumgebungen“ befassen sich mit den gleichen Fragen und Problemen, wie das vorliegende Projekt, insbesondere mit den Möglichkeiten der Vernetzung unterschiedlicher Repositories über Standardschnittstellen wie CMIS und die Integration von Fedora Commons als eines der zentralen Repositoriensysteme im akademischen Umfeld. So entwickelt das Project Bamboo[iv] seit mehreren Jahren Basisdienste und Werkzeuge für Virtuelle Forschungsumgebungen.

Während der ersten Projektphase stellte Bamboo Forschungsumgebungen auf Basis von Alfresco und HUBzero.[v] HUBzero ist eine Webplattform, über die Websites und Materialien aus/für Lehre und Forschung an amerikanischen Universitäten entwickelt und publiziert werden können.[vi] Des Weiteren wurden im Projekt Möglichkeiten diskutiert, wie Alfresco, Fedora Commons und die projekteigenen Entwicklungen miteinander vernetzt werden können. Die Entscheidung zur technologischen Unterstützung einer solchen Vernetzung wurde im vergangenen Jahr getroffen und wird derzeit umgesetzt: Auf Basis des CMIS-Protokolls werden Server- und Client-Komponenten für die Integration der genannten Systeme entwickelt. Im Rahmen dieser Entwicklung sind bereits Datenmodelle entstanden, die das Mapping von Objekten der genannten Content Repositories ermöglichen[vii]. Derzeit steht die Unterstützung von Authentifizierung und Autorisierung im Mittelpunkt der Programmentwicklung[viii]. Darüber hinaus entwickelt das Projekt „Social Communities“ bzw. kollaborative Arbeitsgruppenplattformen auf Basis von Open Social, die in die Gesamtumgebung des Projekts integriert werden.[ix]

Fazit

Der Vergleich der Systeme Jackrabbit, Fedora Commons, Alfresco sowie zweier weiterer derzeit am Markt befindliche Repository-basierter Content-Management-Systeme zeigte eklatante Unterschiede zwischen den Systemen beim Massendatenimport, darüber hinaus auch bei normalen Operationen wie Einfügen neuer oder Änderungen vorhandener Dokumente. Das System Alfresco konnte in einer Standardinstallation ohne weitere administrative Anpassungen mit den zu bewältigenden Datenmengen weitaus performanter umgehen, als Jackrabbit und Fedora Commons.

Das System Alfresco bietet neben seiner Performanz bereits die standardisierten Schnittstellen (REST, CMIS), über die z.B. externe Arbeitsgruppen und deren Redaktionsumgebungen angebunden werden können. Zudem verfügt Alfresco über die Anbindung gängiger Authentifizierungsmechanismen, über generische Bearbeitungs-, Veröffentlichungs- und Recherchefunktionen, die ad hoc auf den importierten Datenbeständen genutzt werden können. Die Programmierung eigener Funktionalitäten innerhalb Alfrescos ist in gängigen plattformunabhängigen Sprachen (JAVA, JavaScript) in modularen Architekturen (MVC, Spring Beans) möglich.


[iii] Why Nuxeo Dropped JCR: „Performance. There were also unresolved performance problems with nodes containing a huge number of children, inherent in Jackrabbit’s way of storing children information. I haven’t kept up with the latest Jackrabbit releases but at the time this was killing us, and there was no simple fix available.” http://blogs.nuxeo.com/fguillaume/2011/01/why-nuxeo-dropped-jcr.html (15.03.2012).

[vi] http://hubzero.org/ (01.03.2012).

Dieser Beitrag wurde unter Uncategorized veröffentlicht. Setze ein Lesezeichen auf den Permalink.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.