Vorlesung 8: Suchmaschinen und Discovery-Systeme

Die Vorlesung Nr. 8 startete wie die bisherigen mit einem kurzen Rückblick auf die vorherige Vorlesung und Kommentaren zu den Lerntagebüchern. Danach beendeten wir das Thema der letzten Vorlesung zur Metadatentransformation, deren Motivation und ein Vergleich mit anderen Tools. Anschliessend starteten wir mit dem eigentlichen Thema der Vorlesung: Suchmaschinen und Discovery-Systeme. Da wir sehr viele Themen behandelten, die ich interessant fand, wurde der heutige Beitrag etwas länger…

Motivation – die Datenübersetzerin

Das in den Unterlagen verlinkte Video von Kirsten Jeude gab einen sehr guten Überblick über die Tätigkeit einer Metadaten-Managerin. Sie arbeitet bei der deutschen Zentralbibliothek für Wirtschaftswissenschaften – Leibniz. Ihre Aufgabe ist es, die bibliografischen Nachweise aus verschiedenen Quellen korrekt in einer Datenbank zusammenzuführen. Hierfür übersetzt sie Daten in andere Standards, sodass diese integriert werden können.¹

JSON-APIs

Im Modul haben wir bisher hauptsächlich mit Daten im XML-Format gearbeitet (SRU oder OAI-PMH), da dieses Format noch weit verbreitet ist im BAIN-Umfeld. Eine API (Application Programming Interface) ist eine Programmierschnittstelle, also ein Zugangspunkt für eine andere Software. Die beiden Programme können über die API miteinander kommunizieren, Befehle übergeben und Daten austauschen. ²

Moderne APIs liefern zwischenzeitlich die Antworten im JSON-Format. JSON steht für Java Script Object Notation und ist ebenfalls ein strukturiertes Format aber einfacher gehalten. Da es syntaktisch ähnlich zu JavaScript ist, ist es leicht verständlich. JSON ist heutzutage auch sehr beliebt bei Webanwendungen. ³ lobid-gnd von der GND (gemeinsame Normdatei) der deutschen Nationalbibliothek ist z.B. eine JSON API.

Suchmaschinen und Discovery-Systeme

Als Vorbereitung für die heutige Vorlesung wurde VuFind installiert. VuFind ist ein Portal für Bibliotheksressourcen. Den Benutzern die Möglichkeit zu bieten, in allen Ressourcen der Bibliothek zu suchen ist das Ziel von VuFind. Dabei wurde der traditionelle OPAC durch verschiedene Elemente ersetzt, wie z.B. Katalogeinträge, lokal zwischengespeicherte Zeitschriften, institutionelle Repository oder Bibliografien. Auch VuFind ist eine Open-Source-Lösung.⁴

Solr

Zu den «Industriestandards» von Suchmaschinen gehört neben Elasicsearch auch Solr.⁵ Nach meinem Verständnis ist Solr der Kern der Suchmaschine, da sie die Grundlage für viele Such- und Navigationsfunktionen ist. Und VuFind ist in dieser Metapher dann die Hülle, welche den Kern umschliesst. Solr kann im Vergleich zu Elasticsearch gut mit grossen Datenmengen umgehen.

Solr in der Anwendung

Nach einem Theorie-Input schauten wir Solr in der Praxis an und verwendeten VuFind. Wir verglichen in einer Übung die Suchresultate aus VuFind mit jenen Resultaten aus Solr. Dabei betrachteten wir zum einen die Treffer für den Begriff «psychology», zum anderen verglichen wir aber auch die Logdatei von Solr im Terminal. Folgende Punkte wurden festgestellt:

Es wurden je 3 Treffer mit dem gleichen Titel und der gleichen Reihenfolge gefunden.
VuFind ist dabei die klassische OPAC-Ansicht (grafische Oberfläche), SOLAR die Metadaten-Ansicht in JSON
Entsprechend muss bei VuFind für die Detailangaben noch auf das Exemplar geklickt werden.
Das Terminal bei VuFind ergab keinen leserlichen Output
Die QueryTime ist unterschiedlich, VuFind benötigte 0.15 s, Solr 2 s

Solr-Ansicht

VuFind-Ansicht

Spannend ist auch, die Angaben im Terminal genauer zu betrachten. Bei «Params» werden die Suchparameter hinterlegt. «qf» steht für QueryFields, innerhalb dieser Felder soll gesucht werden (im Bild tw. Blau markiert). Es handelt sich bei den Feldbezeichnungen, anders als vermutet nicht um MARC-Felder. Die Kennzeichnung «hl» bedeutet Highlight und gibt die Markierung der Begriffe (s. Bild VuFind oben, gelbe Markierung psychology) mit. Die Übung veranschaulichte uns eindrücklich, wie die Software-Pakete miteinander kommunizieren. Die Webseite fragt bei Solr Anfragen über die Shell an und diese werden dann schön dargestellt.

Übung Datenintegration

Zum Abschluss wurden in einer Gruppenarbeit sämtliche bisher mit MarcEdit und OpenRefine konvertierten Daten aus Koha, ArchivesSpace, DSpace und DOAJ in VuFind importiert. Da war ich zuerst ein bisschen verloren. Denn ich hatte meine bisher erarbeiteten Daten relativ unstrukturiert irgendwo auf meine VM gepackt.

Da ich bei den KOHA-Daten die doi vergessen habe, bekam ich nur einen Treffer, wenn alles korrekt wäre, hätte ich 11 Treffer.

VuFind-Ansicht mit Koha-Daten

Es stellte sich dann heraus, dass die Daten aus ArchivesSpace und DSpace nicht importiert werden können. Auch einer meiner Koha-Datensätze ging nicht. Die Fehlermeldung im Terminal gibt an, dass die ID fehlt. Ohne ID kann kein Datensatz angezeigt werden. Diese könnte aber manuell ergänzt werden.

Anzahl Zeichen: 4’888

Quellen

https://www.youtube.com/watch?v=YwbRTDvt_sA , zuletzt abgerufen am 12.01.2022 ↩
https://www.ionos.de/digitalguide/websites/web-entwicklung/was-ist-eine-api/ , zuletzt aufgerufen am 12.01.22 ↩
https://www.w3schools.com/js/js_json_intro.asp , zuletzt aufgerufen am 12.01.22 ↩
https://vufind.org/vufind/, zuletzt aufgerufen am 12.01.22 ↩
https://bain.felixlohmeier.de/#/06_suchmaschinen-und-discovery-systeme , zuletzt aufgerufen 12.01.22 ↩