Das neue Sacherschließungskonzept der DNB in der FAZ

Im Mai veröffentlichte die DNB ein neues Sacherschließungskonzept unter dem Titel Grundzüge und erste Schritte der künftigen inhaltlichen Erschließung von Publikationen in der Deutschen Nationalbibliothek (vgl. außerdem die Mitteilung zu den Änderungen ab September 2017 auf der DNB-Website). Ich hatte bisher den Eindruck, dass die dort angekündigten, durchaus einschneidenden Änderungen in der bibliothekarischen Öffentlichkeit bisher kaum zur Kenntnis genommen worden sind.

Das neue Sacherschließungskonzept der DNB (Mai 2017)
Das neue Sacherschließungskonzept der DNB (Mai 2017)

Dies könnte sich nun jedoch ändern, denn vorgestern (31.07.2017) brachte es das Thema bis ins Feuilleton der Frankfurter Allgemeinen Zeitung - wann ist dies einer Frage aus der Erschließung zuletzt gelungen? Auf Seite 12 der Druckfassung setzt sich Klaus Ceynowa, der Generaldirektor der Bayerischen Staatsbibliothek, mit den aktuellen Entwicklungen auseinander. "In Frankfurt lesen jetzt zuerst Maschinen", titelte die FAZ. Der Artikel ist auch online verfügbar und bietet eine höchst interessante Lektüre. Im Folgenden werde ich einige Punkte aus diesem Artikel und dem DNB-Konzept näher kommentieren.

Der Beitrag von Klaus Ceynowa in der FAZ vom 31.07.2017
Der Beitrag von Klaus Ceynowa in der FAZ vom 31.07.2017

Ceynowa geht in dem Beitrag auch auf ein zweites, etwas jüngeres Papier der DNB ein ("Erschließung als zyklischer Prozess"). Dieses Dokument ist jedoch nicht öffentlich zugänglich, sondern wurde bisher nur dem Standardisierungsausschuss vorgelegt. Ich beschränke mich deshalb auf das Sacherschließungskonzept.

"Wenn es nach dem Willen der DNB geht, soll mit der intellektuellen Inhaltserschließung deutscher Publikationen nun Schluss gemacht werden", schreibt Ceynowa. In der Tat wird als neues Ziel formuliert, nur noch dann etwas intellektuell inhaltlich zu erschließen, "wenn maschinelle Verfahren entweder nicht zur Verfügung stehen, keine ausreichenden Ergebnisse liefern oder intellektuell erstellte Daten für die Weiterentwicklung der maschinellen Verfahren benötigt werden." Die automatische Erschließung an der DNB beschränkt sich dabei nicht mehr auf Online-Publikationen, sondern bezieht auch gedruckte Publikationen mit ein. Bereits zum 1. September 2017 werden die Reihen B und H komplett auf automatische Erschließung mit DDC-Sachgruppen und GND-Schlagwörtern umgestellt. Diese Informationen stehen im Konzept unter der Überschrift "Erste Schritte", sodass der Einbezug der Reihe A nur eine Frage der Zeit sein dürfte. Ebenfalls zum 1. September 2017 wird außerdem die Erschließung mit vollständigen DDC-Notationen aufgegeben (für alle Reihen der Deutschen Nationalbibliografie; auch dort, wo derzeit noch intellektuell erschlossen wird). Diese sollen durch maschinell ermittelte "DDC-Kurznotationen" ersetzt werden, "die derzeit von der DNB entwickelt werden". Näheres wurde dazu bisher noch nicht mitgeteilt.

Nachtrag (02.08.2017, 14:55): Ich werde gerade darauf hingewiesen, dass ich hier etwas missverstanden hatte: Die DDC-Tiefenerschließung wird zunächst nur für Reihen B und H aufgegeben. Ansonsten wird offenbar erst zu Beginn des nächsten Jahres auf Kurznotationen umgestellt, welche u.U. aber durchaus noch intellektuell gemacht werden. Ich hoffe, jetzt stimmt das so.

Qualität der maschinellen Schlagwortvergabe

Ein zentraler Punkt in Ceynowas Beitrag bildet die Qualität der maschinellen Schlagwortvergabe, für die die DNB eine Software von Averbis einsetzt:

"Die Resultate einer automatischen Inhaltserschließung (...) sind, wie Untersuchungen der DNB selbst zeigen, vergleichsweise ernüchternd. Die Qualität der algorithmisch generierten Schlagwörter schwankt deutlich. Bei Wissenschaftsfächern mit eindeutigem Fachvokabular ist sie besser, bei anderen schlechter. Über alle Fächer verteilt erweisen sich nur 50 Prozent als "nützlich" oder "sehr nützlich", 50 Prozent sind "wenig nützlich" oder schlicht falsch. Zwei Beispiele: Der Titel "Die Macht der Bilder: A. Lorenzetti – P. Picasso – E. Kienholz, 1338-1968" erhält die maschinell ermittelten Schlagwörter "Kiefernholz; Bildmaterial; Macht; Lorenzetti, Ambrogio", das Buch "Jüdisches Leben in Biebesheim" die Schlagwortfolge "Biebesheim am Rhein; Leben"."

Diesen Aussagen dürfte Sandro Uhlmanns Studie von 2013 (Dialog mit Bibliotheken 24, Nr. 2, S. 26-36) zugrunde liegen. Damals ergaben sich für die Precision (also die Nützlichkeit der ermittelten Schlagwörter) Werte zwischen 0,38 in der Informatik und 0,62 in der Wirtschaft (wobei 1,0 für "sehr nützlich" und 0,0 für "falsch" steht); zumeist lagen die Werte zwischen 0,45 und 0,55. In dieser Studie wurde das Ergebnis der maschinellen Indexierung übrigens auch auf seine Vollständigkeit hin geprüft - also daraufhin, ob alle für das Dokument relevanten Schlagwörter gefunden wurden (dies würde einen Recall von 1,0 bedeuten). Hier ergaben sich für die meisten Sachgruppen Werte zwischen 0,65 und 0,75. Überträgt man die Ergebnisse auf ein Dokument mit vier maschinell generierten Schlagwörtern, so bedeutet dies, dass nur zwei davon als sehr nützlich oder nützlich einzuordnen wären und ein bis zwei wichtige Schlagwörter fehlen würden. Dass das System von Averbis natürlich weder Schlagwortfolgen bilden noch den wohldurchdachten Verwendungsregeln folgen kann, die für die RSWK entwickelt wurden, versteht sich dabei von selbst.

Aktuellere Zahlen scheinen nicht veröffentlicht zu sein, aber dem Hörensagen nach liegen die Werte heute in ähnlichen Bereichen wie vor vier Jahren. Auf dem Workshop zur computerunterstützten Inhaltserschließung an der UB Stuttgart, der am 8./9. Mai - kurz vor der Bekanntmachung des neuen Konzepts - stattfand, stellte Elisabeth Mödden die Aktivitäten der DNB vor (Vortragsfolien). Sie erläuterte auch, dass regelmäßig Stichproben unterschiedlicher Art durchgeführt werden. In der Präsentation wurde beispielhaft ein Screenshot eines aktuellen Analyseprotokolls gezeigt (Folie 21). Wenn ich diesen richtig interpretiere, wurden bei der Prüfung von acht Dokumenten acht Fehler (unterschiedlichen Typs) gefunden. Eine Online-Dissertation mit dem Titel "Die Ordnung der Dinge durch die Malerei : Jan van Kessels Münchner Erdteile-Zyklus" etwa bekam das Sachschlagwort "Kessel" zugeteilt und ein Werk mit dem Titel "Die Tennis Bibel" das Schlagwort "Bibel". Trotz der Erfahrungen der letzten Jahre, die sicher vielfach zu Anpassungen z.B. bei den Wörterbuch-Routinen geführt haben, macht die Software also weiterhin recht dramatische Fehler.

Sollten die maschinell erstellten Indexate auch künftig nur stichprobenhaft geprüft werden, ist also damit zu rechnen, dass ab September eine erhebliche Zahl völlig unpassender Schlagwörter über die Datendienste der DNB ausgeliefert und in die Kataloge der Bibliotheken kommen werden. Diese werden nicht nur die Recherche beeinträchtigen, sondern stören auch in der Anzeige (wo die Sacherschließung ja die Funktion hat, die Nutzer rasch und konzise über den Inhalt zu informieren). Nimmt man das neue Erschließungskonzept ernst, müsste man eigentlich zu dem Ergebnis kommen, dass die maschinellen Verfahren "keine ausreichenden Ergebnisse liefern" und folglich zur intellektuellen Erschließung zurückkehren. Die Entscheidungsträger an der DNB werden dies aber gewiss anders sehen. Nötig wäre, so meine ich, eine breite Diskussion darüber, welche Fehlerraten akzeptabel sind. Hätte man dafür eine klare Vorgabe, könnte man regelmäßig prüfen, ob die eingesetzten Verfahren die vorgegebenen Werte schaffen oder eben nicht. Auf dem Bibliothekartag in Frankfurt gab es einen einschlägigen Workshop dazu ("Erschließung per Knopfdruck? Ein Spagat zwischen Quantität und Qualität?"), den ich aber leider nicht besuchen konnte. Vielleicht kann jemand, der dabei war, etwas darüber berichten (bitte Kommentarfunktion verwenden).

Motivation für das neue Erschließungskonzept

Im DNB-Konzept heißt es:

"Durch das enorme Anwachsen des digitalen Zugangs wird der Anteil intellektuell erschlossener Publikationen in Relation zu maschinell erstellten Daten immer geringer. Damit geht das Problem einher, dass die Heterogenität zunimmt und der thematische Zugriff auf Daten und damit Publikationen erschwert wird. Diesem Umstand will die Deutsche Nationalbibliothek durch den Umstieg auf automatische Inhaltserschließungsverfahren für alle Medienwerke entgegentreten."

Ceynowa nennt dies eine "eigentümliche Argumentation" und schlussfolgert: "Der Umstieg auf automatische Verfahren stellt Homogenität (...) durch den Rückzug auf den kleinsten gemeinsamen Nenner her: In der deutschen Nationalbibliographie werden künftig im Regelfall alle Publikationen gleichmäßig auf niedrigem Niveau erschlossen."

Ich persönlich kann zwar das an der DNB herrschende Unbehagen darüber schon verstehen, dass einerseits die gedruckten Materialien grundsätzlich qualitativ hochwertig intellektuell erschlossen wurden und andererseits alle online vorliegende grundsätzlich nur maschinell. Dies führt in der Tat zu einer Unausgewogenheit und besagt implizit, Gedrucktes sei prinzipiell wertvoller und wichtiger als online Vorliegendes. Genau wie Ceynowa halte ich es aber für keine Lösung, wenn man das Ungleichgewicht dadurch auszugleichen versucht, dass künftig sozusagen "alles gleich schlecht" erschlossen wird. Auch im Digitalzeitalter könnte man doch gewiss einen Kernbestand identifizieren, für den eine hochwertige intellektuelle Sacherschließung sinnvoll ist - egal, ob die Dokumente analog oder digital vorliegen. Dafür müssten geeignete Kriterien entwickelt werden, und dieser Herausforderung sollte sich die DNB stellen. Auch hier würde ich eine breite Diskussion für angemessen halten, in die nicht nur die deutschen Bibliotheken als "Kunden" der DNB, sondern auch Verlage und Endnutzer einzubeziehen wären.

Noch eine Passage aus dem FAZ-Artikel:

"Was mag die DNB zu diesem Schritt bewogen haben? Die ansteigende Zahl von Netzpublikationen (von rund 150.000 im Jahr 2012 auf 280.000 im Jahr 2016) kann es jedenfalls nicht sein, denn diese werden ohnehin nur maschinell erschlossen. Im Regelfall pflegt die DNB hier schlicht vom Lieferanten selbst erstellte oder anderweitig maschinell erzeugte Metadaten in ihren Katalog ein. Schaut man hingegen auf das gedruckte Publikationsaufkommen des Verlagsbuchhandels, so ist eine leichte Abwärtstendenz erkennbar: von 112000 Neuerscheinungen in 2012 auf 104000 in 2016. Es ist also nicht so, dass infolge eines signifikanten Anstiegs der Menge gedruckter Titel die DNB nicht mehr in der Lage wäre, die intellektuelle Inhaltserschließung in der bisherigen Form weiterzuführen."

Fakt ist allerdings auch, dass die Personalstellen in den Erschließungsabteilungen der DNB in den vergangenen Jahren merklich reduziert wurden - wobei ich allerdings nicht weiß, ob es sich dabei um echten Personalabbau oder um Personalverschiebungen innerhalb der DNB handelt. Zudem hat RDA nicht nur in der Vorbereitungs- und Einführungsphase erhebliche Ressourcen beansprucht, sondern auch im Echtbetrieb nicht die wohl vom Management erhofften Entlastungen gebracht. Insofern steht hinter den jüngsten Weichenstellungen bei der DNB sicher eine echte "Not", die man nicht ignorieren kann. Auch an anderen Nationalbibliotheken hat übrigens der Druck auf die Erschließung zugenommen. So hört man immer wieder Klagen darüber, wie sehr sich die Qualität der LC-Aufnahmen in den letzten Jahren verschlechtert habe (auch dies wohl als Folge von Personalabbau), und bei der British Library wird offenbar ein großer Teil der Erschließungstätigkeiten nach Indien "outgesourct".

Ist das Vorgehen "alternativlos"?

In einer gewiss nicht einfachen Situation setzt die DNB, wie es scheint, ausschließlich auf vollautomatische Verfahren. Dies ist fraglos der radikalste Weg: Er lässt die höchsten Personaleinsparungen erhoffen, birgt aber auch die größten Risiken für die Datenqualität. Sollten deshalb nicht zuvor alle anderen, maßvolleren Möglichkeiten zur Rationalisierung ausgeschöpft werden?

Hier ist zum einen an eine maschinell unterstützte Erschließung zu denken, die mit Werkzeugen wie dem Digitalen Assistenten (DA) realisiert werden kann. Wer dieses geniale Tool noch nicht kennt, sei auf einen Aufsatz von 2016 verwiesen. In Heft 3/2017 von o-bib wird außerdem ein Tagungsbericht von Imma Hinrichs und mir über den bereits genannten Workshop zur computerunterstützen Inhaltserschließung erscheinen, auf dem der DA eine zentrale Rolle spielte. Ich persönlich halte eine maschinell unterstützte Erschließung derzeit für den "Königsweg", weil er das Beste aus beiden Welten vereinigt: die Qualität der intellektuellen Erschließung und den möglichst rationellen Einsatz der Ressource Mensch. Eigentlich hat sich auch die DNB für diesen Weg ausgesprochen. In dem im vergangenen Jahr erschienen Strategischen Kompass ist jedenfalls zu lesen (S. 5): 

"Daneben [d.h. neben den vollautomatischen Verfahren, H.W.] investieren wir in eine bessere maschinelle Unterstützung der intellektuellen Arbeit bei der Erschließung von gedruckten Materialien. Wir arbeiten an der Entwicklung von Prozessen, welche die unterschiedlichen Stärken von Mensch und Maschine berücksichtigen und ergänzend zusammenführen."

Ich tue mir allerdings schwer damit, diesen Anspruch im neuen Sacherschließungskonzept in irgendeiner Weise wiederzufinden - vielleicht bezieht sich dies nur auf die Formalerschließung.

Außerdem könnte die DNB von verstärkter Kooperation mit anderen Bibliotheken profitieren. Eine von mir hochgeschätzte DNB-Kollegin sagte einmal lachend: "Also, Fremddaten - das können wir nicht!" In der Tat werden an der DNB zwar intensiv die von den Produzenten gelieferten Metadaten genutzt, jedoch scheinbar nicht die weitaus besseren Daten, die sie aus den Verbünden bekommen könnten. Ich wage die These aufzustellen, dass die regionalen Pflichtexemplarbibliotheken oftmals schneller sind als die DNB. Ähnliches dürfte im Bereich der Hochschulschriften gelten. Sehr häufig wird also schon ein Katalogisat einer deutschen Bibliothek vorhanden sein, wenn die MitarbeiterInnen an der DNB sich an die Erschließung machen. Wieviel Arbeit könnte hier eingespart werden, wenn in einem solchen Fall einfach das bestehende Katalogisat nachgenutzt werden würde! Neidisch blicke ich nach Österreich, wo die Nationalbibliothek keine "Insel" ist, sondern Teil des Bibliotheksverbunds.

Auswirkungen auf die Bibliotheken

Zu Recht lenkt Ceynowa den Blick auf die Bibliotheken, die - nach einer Vorlaufzeit von nicht einmal vier Monaten - mit den Konsequenzen des neuen Erschließungskonzepts leben müssen. Nicht zum ersten Mal habe ich den Eindruck, dass die Verantwortlichen an der DNB gar nicht so richtig realisieren, wie wichtig die von ihnen gelieferten Daten für die abnehmenden Bibliotheken sind. Aber dies ist tatsächlich so: Die Erschließungsleistung der DNB ist in den Häusern fest eingeplant. Gerade in der Sacherschließung geht man bei einem großen Teil der deutschen Publikationen davon aus, dass die Schlagwörter dafür von der DNB kommen werden. Die FachreferentInnen bekommen solche Publikationen in der Regel gar nicht mehr auf den Tisch. Schon 2014 gab es nicht unerhebliche Einschränkungen bei den von der DNB nach RSWK erschlossenen Bereichen, die damals auf großen Unmut stießen (die seither gültigen Regeln sind in diesem Papier nachzulesen; ich hoffe, es bleibt weiterhin zugänglich).

Wie soll nun mit der neuen Situation ab September 2017 umgegangen werden? Die einfachste Methode ist, nach dem Motto "Augen zu und durch" verfahren, d.h. die maschinell vergegebenen Schlagwörter unbesehen zu akzeptieren. In vielen Bibliotheken wird dies schon deshalb der einzig gangbare Weg sein, weil ansonsten zusätzliches Personal in die Sacherschließung gesteckt werden müsste. Welche Bibliothek kann sich dies leisten? Dort wo dennoch inakzeptable Schlagwörter auffallen (z.B. bei der Formalerschließung oder durch Hinweise von Nutzern), wird man dies - selbstverständlich intellektuell - in Ordnung bringen (entweder mit punktuellen Änderungen bei den vorhandenen Schlagwörtern oder mit einer RSWK-gerechten Erschließung).

Arbeit, die bisher bei der DNB geleistet wurde, wird dadurch auf die Bibliotheken verlagert. Ceynowa schreibt: "Alle Bibliotheken, denen auch künftig an einer qualitätsvollen Inhaltserschließung gelegen ist, dürfen nun künftig das nachbessern, was seitens der DNB unzureichend ausgeliefert wurde." Zu befürchten ist überdies, dass solche Korrekturen nicht nur in einem Verbund, sondern in mehreren erfolgen werden (womöglich in unterschiedlichen Ausprägungen). Denn die seit einigen Jahren vorhandenen Routinen zum Austausch von Sacherschließungsinformationen zwischen den Verbünden, die eigentlich Mehrfacharbeit verhindern sollen, funktionieren in der Praxis leider mehr schlecht als recht. Man muss also die Sorge haben, dass nicht nur die Datenqualität sinken, sondern auch das Gesamtsystem weniger effizient werden wird. Deshalb verwundert es schon, dass die Bibliotheken über das neue Erschließungskonzept nur informiert wurden. Wäre es nicht sinnvoll gewesen, sie im Vorfeld in die Diskussion mit einzubeziehen?

Erschließung als zyklischer Vorgang

Im neuen DNB-Konzept wird ein neues Verständnis von Erschließung formuliert: "Erschließung muss (...) nicht mehr als einmaliger abgeschlossener Vorgang, sondern kann als zyklisches Verfahren betrachtet werden, bei dem Erschließungsdaten immer wieder verändert und aktualisiert werden." Und im Strategischen Kompass liest man auf S. 5: "Zudem können die Verfahren optimiert und dann erneut für den gesamten digitalen Bestand angewendet werden, damit verbesserte Ergebnisse neu ausgeliefert werden können."

Erschließung als "continuous beta"? Das klingt modern und trendy, wäre jedoch ein deutlicher Bruch mit der herrschenden Praxis: Bisher wurde es stets abgelehnt, etwa bei einer Regelwerksänderung die vorhandenen Daten nachträglich an den neuen Stand zu passen - der Aufwand dafür wäre einfach zu hoch gewesen. Eine zyklische Bearbeitung (nach unterschiedlichen Standards oder mit unterschiedlichen Werkzeugen) ist m.E. überhaupt nur denkbar vor dem Hintergrund einer vollständig automatisierten Erschließung in Formal- und Sacherschließung. Aber selbst dann scheint es fraglich, ob die Mehrfachbehandlung nicht doch zu erheblichen Mehraufwänden führen würde: Müssen nicht auch bei jedem maschinellen Schritt im Metadatenmanagement Abläufe geplant, Algorithmen aufgestellt, Variablen festgelegt, Prüfgänge gefahren und Ergebnisse evaluiert werden - und zwar von Menschen? Die Kolleginnen und Kollegen an den Verbundzentralen, die schon jetzt immer wieder Daten auf die eine oder andere Weise "putzen" müssen, wissen ein Lied davon zu singen.

Auch fehlen bislang die technischen Rahmenbedingungen für ein solches Konzept. Zur Synchronisierung müssten ja regelmäßig gewaltige Datenmengen über die Schnittstellen von Verbund- und Lokalsystemen laufen - diese sind dafür aber nicht ausgerichtet. Auch müssten komplexe Regeln dafür erarbeitet werden, wer was wann überschreiben darf. Beispielsweise wäre es gewiss nicht erwünscht, dass maschinell vergebene DNB-Schlagwörter an einer Bibliothek intellektuell korrigiert werden - nur, um dann zwei Jahre später durch "verbesserte" maschinelle DNB-Schlagwörter ersetzt zu werden. Es müssten also erst einmal die konzeptionellen, technischen und organisatorischen Voraussetzungen für eine "Erschließung als zyklischen Vorgang" geschaffen werden, ehe man die vorhandenen Prozesse und Verfahren außer Kraft setzt.

Aufgabe der vollwertigen DDC-Erschließung

Im FAZ-Artikel nicht erwähnt wird die Aufgabe der 2006 eingeführten Erschließung mit vollwertiger DDC, die damals als großer Schritt nach vorne galt (vgl. den maßgeblichen Artikel von Magda Heiner-Freiling in Dialog mit Bibliotheken 17 (2005), Nr. 3, S. 4-13). Viele werden sich noch daran erinnern, wie skeptisch dies in der deutschen Bibliothekscommunity aufgenommen wurde.

Mittlerweile hat man jedoch die von der DNB gelieferte DDC-Erschließung an vielen wissenschaftlichen Bibliotheken zu schätzen gelernt. Denn dadurch ergibt sich in den Katalogen eine relativ hohe Abdeckung mit DDC: Bei internationaler Literatur (insbesondere aus dem englischen Sprachraum) werden vollständige DDC-Notationen mit den Fremddaten geliefert, für die deutschsprachige Literatur wurden sie von der DNB erstellt. Das Zusammenspiel ermöglicht nicht nur eine sprachübergreifende Recherche, sondern bietet auch große Chancen z.B. für Konkordanzen und Linked-Data-Projekte. Diese Einheitlichkeit wird nun - so ist zu befürchten - wieder verloren gehen

Fazit

Das neue Sacherschließungskonzept der DNB wirft viele Fragen auf, die bisher m.E. nicht in ausreichender Breite mit allen davon Betroffenen diskutiert worden sind. Klaus Ceynowa ist dafür zu danken, dass er mit seinem Artikel in der FAZ dem Thema die nötige Aufmerksamkeit verschafft hat. Natürlich kann eine so komplexe Materie in einem Zeitungsartikel nur schlaglichtartig beleuchtet werden. Deshalb sollte nun eine intensive fachliche Beschäftigung mit dem Thema folgen, wobei auch strategische Alternativen zu diskutieren sind.

Heidrun Wiesenmüller

Kommentar schreiben

Kommentare: 24
  • #1

    S. Janning (Mittwoch, 02 August 2017 13:26)

    Ich denke, die Sacherschließung ist doch hier nur der Anfang. Die gleichen Diskussionen über die unterschiedliche Erfassungstiefe und -genauigkeit wird längst auch bei der Formalerschließung geführt. E-Books wandern in die Kataloge/Portale mit den Metadaten, die man eben vom Anbieter bekommt ohne Verknüpfungen zu Normdaten etc. Beim Printbestand wird aufwändig nach RDA katalogisiert. Eigentlich war jedem Anwender auch schon vor Einführung der RDA klar, dass es durch dieses neue Regelwerk eher keine echten Synergien geben wird.
    Nun fängt die DNB an und "spart" bei der Sacherschließung ... Ich warte auf den Tag, wenn Vergleichbares bei der Formalerschließung kommen wird.
    Und ja: erste Fragen werden auch schon gestellt, ob und wie viel bibliothekarische Ausbildung noch benötigt wird in den Bibliotheken oder "Wissenspeichern" der Zukunft. Vielleicht ist der Zug längst abgefahren?

  • #2

    Anna Kasprzik (Mittwoch, 02 August 2017 14:31)

    Liebe Frau Wiesenmüller,
    vielen Dank für diesen gewohnt differenzierten Beitrag.
    Ich war eine der Vortragenden im von der DNB geleiteten Workshop "Erschließung per Knopfdruck? Ein Spagat zwischen Quantität und Qualität?" und habe dort als Informatikerin die Meinung vertreten, dass wir gut daran täten, das jahrzehntelange Strukturwissen der (intellektuellen) bibliothekarischen Sacherschließung nicht über Bord zu werfen, sondern es mit automatisierten Methoden zu verzahnen, also scharfe semantische Kerne von Domänenwissen zu pflegen und diese dann entsprechend mit semantischen Technologien hochzuskalieren -- und ich meinte auch wahrzunehmen, dass das in dem Workshop generellen Konsens fand, aber ich mag mich täuschen.
    Wenn die DNB das Konzept so durchzieht, wie Herr Ceynowa es skizziert, dann gibt es für mich zwei anstehende Aufgaben: Wie sich die Sacherschließung in Deutschland organisatorisch und personell sortiert, müssen die Verbünde und Bibliotheken unter sich klären. Für die Forschungs- und Entwicklungsabteilungen ist das jedoch eine Steilvorlage: Umso mehr brauchen wir dringend hochqualitative semantische Netze und entsprechende Technologien, um Daten und Entitäten zu verknüpfen und so den befürchteten Qualitätsabfall aufzufangen.
    Herzlich
    Anna Kasprzik

  • #3

    Heidrun Wiesenmüller (Mittwoch, 02 August 2017 14:55)

    Ich hatte im Bereich der DDC-Erschließung etwas missverstanden; bitte beachten Sie die entsprechende Korrektur (in blau).

  • #4

    anotherfami (Donnerstag, 03 August 2017 14:31)

    Ich bin immer noch voll stolz darauf sagen zu können, dass unser Beruf (auch) wichtig ist, weil wir bibliographische Daten organisieren und Verbindungen herstellen, die unseren Nutzern bei der Recherche weiterhelfen und verbindliche gute Ergebnisse liefern. Ich würde RDA auch als Schritt sehen das im Rahmen der "Technologien" weiter zu optimieren.

    Ich finde es z.B. schwierig, wenn Verlags-E-Book-Daten direkt unbearbeitet in den Katalog eingespeist werden. Es gibt jetzt schon genug Wildwuchs und inhomogene Daten. Die meisten E-Book-Aufnahmen sind mindestens doppelt in den Bibliotheksdatenbanken und nur ein Bruchteil wird überhaupt je angeschaut und erhält eine Autopsie. Vielleicht bin ich da naiv, aber so wie ich meinen Beruf verstehe sollte es unser Anspruch sein diese Probleme zu minimieren. Natürlich ist das teilweise bei der Menge an Daten ein Kampf gegen Windmühlen, aber das ändert für mich nichts an der Notwendigkeit bei diesem Thema hinterher zu sein.

    Ich glaube nicht daran, dass "Technologie" alle Probleme auffangen kann, die durch solche Automatisierungen (Fremddatenübernahme ohne Prüfung, maschinelle Sacherschließung, ...) entstehen und dass je mehr unvollständige/uneinheitliche Datensätze es gibt immer etwas unter den Tisch fallen wird. Das ist mir nicht egal und ich finde es ist auch nicht irrelevant, weil das zu verhindern eben ein wichtiger Teil unserer Arbeit ist.

    Es geht ja am Ende auch darum zu vermitteln, dass unsere Daten vertrauenswürdig sind. Egal, ob in der Formal- oder Sacherschließung. Mag sein, dass ich da indoktriniert bin, aber wenn ich sichergehen will, dass eine Angabe zu einem Buch stimmt, das ich nicht vorliegen habe, dann gucke ich das in einem Bibliothekskatalog nach. Zumindest eine Autopsie-Aufnahme stellt dann für mich die Verbindlichkeit her, die ich anderswo nicht erreichen kann. Es ist auch so schon schwer genug zu vermitteln was wir eigentlich machen und solche Initiativen zersetzen unser Bild meiner Meinung nach noch mehr.

    Eine Konsequenz aus dem zyklischen Vorgang der Erschließung wie die DNB ihn sich vorstellt wäre, dass die Bibliotheksverbünde nach der erstmaligen Übertragung der Daten aus der DNB in die eigenen Kataloge (die müsste sowieso wegfallen, wenn jemand schneller war als die DNB) keine nachträglichen Änderungen, der Schlagworte, des ganzen Datensatzes aus der DNB mehr zulassen, wenn es im eigenen Verbund eine Autopsie-Aufnahme gibt oder die Sacherschließung geändert wurde.

    Wenn man das im Blog-Beitrag so liest, dann ist es schon ziemlich erschreckend, dass die DNB "keine Fremddaten kann". Ganz besonders, weil innerhalb der Verbünde die Verbundkatalogisierung (ist das nicht sogar so ein zyklischer Vorgang wie der im DNB-Konzept?) ein enorm praktisches Mittel ist um Ressourcen zu sparen. Ich finde bei diesem Thema eine Verteilung auch von "unten" nach "oben" sehr vernünftig und ich kann nicht verstehen, warum Bibliotheken so sehr darauf stehen eine Insel zu sein. Das wird in der Bibliothekswelt sowieso viel zu gerne gelebt. Und so gesellschaftlich betrachtet hat die DNB eben nunmal eine gewisse Bedeutung als Institution des Bibliothekswesens (die sie sich noch nichtmal erkämpfen musste), die ihr aber scheinbar nicht bewusst ist.

    Das ist jetzt leider doch zu emotional geworden. Trotzdem kommt vielleicht rüber, dass ich eine Diskussion dieses Themas auch sehr wichtig finde. Und ich hoffe wirklich, dass sie irgendwo stattfinden wird.

  • #5

    Jakob Voß (Freitag, 04 August 2017 11:42)

    Danke für die ausführliche und ausgewogene Darstellung der Problematik.

    Ich kann den Wunsch nach automatischer Sacherschließung eher verstehen als deren völlige Ablehnung. Der richtige Weg wäre daher maschinell unterstützte Erschließung. Statt lediglich Stichproben vorzunehmen, sollten alle automatisch vergebenen Schlagworte intellektuell geprüft werden, das wäre noch immer effektiver als die rein intellektuelle Vergabe und qualitativ besser als eine rein automatische Erschließung.

    Wie sie ebenfalls andeuten, mangelt es dafür allerdings an grundsätzlichen Arbeitsabläufen zur Verschlagwortung. Eine systematische Qualitätskontrolle findet nicht statt und Korrekturen sind praktisch nicht möglich. Grund hierfür ist das Fehlen einer gemeinsamen Verbunddatenbank aller Bibliotheken, in der gemeinsam katalogisiert wird. Das nicht funktionierende Prinzip Fremdaten ist schon falsch, es sollte gemeinsame Daten geben.

    Angesichts der politischen, organisatorischen und technischen Widerständen, sehe ich allerdings eher dass Wikidata irgendwann die gesamte Katalogisierung übernimmt als dass sich Bibliotheken zu gemeinsamen, offenen Katalogen zusammenraufen. Ich habe dazu bereits letztes Jahr in LIBREAS geschrieben (http://libreas.eu/ausgabe29/02voss/), inzwischen hat das Projekt WikiCite auch einen Namen und wächst weiter.

  • #6

    Ines Heygster (Freitag, 04 August 2017 13:17)

    Vielen Dank, dass Sie das Thema hier verständlich und komprimiert darstellen und zur Diskussion bringen.
    Eine Frage: wie ist eigentlich das Zusammenspiel von GND und automatischer/maschineller Erschließung? Bislang haben von der DNB vergebene Schlagworte immer einen GND-Normsatz. Werden für maschinell erstellte Schlagworte, die noch nicht in der GND vorkommen, auch automatisch GND-Normsätze angelegt?

  • #7

    Heidrun Wiesenmüller (Freitag, 04 August 2017 13:22)

    Schon mal ganz herzlichen Dank an alle, die sich bereits an der Diskussion beteiligt haben!

    Zum Kommentar von Jakob Voß: Ich selbst trauere auch noch immer dem damals abgelehnten Konkurrenzantrag zum CIB-Projekt (welches man wohl als gescheitert betrachten muss?) nach, das unter dem Titel libOS eingereicht worden war (https://www.hbz-nrw.de/aktuelles/nachrichten/libOS-Antrag). WikiCite finde ich ebenfalls sehr interessant, obwohl ich jetzt nicht auf die Idee gekommen wäre, dass dies einmal unsere Bibliothekskataloge ablösen könnte... Im nächsten Heft von o-bib wird es einen Bericht zur WikiCite 2017 von Philipp Zumstein und Konrad Förstner geben.

    Hier übrigens noch ein schönes aktuelles Beispiel zur unterschiedlichen Qualität von maschinell und intellektuell erstellten Schlagwörtern. Vergleichen Sie mal die folgenden Datensätze bei der DNB und im SWB (letzteres von der SLUB Dresden gemacht):
    http://d-nb.info/1136451269
    http://swb.bsz-bw.de/DB=2.1/PPNSET?PPN=491059272&INDEXSET=1

    Es geht hier um die Sanierung von Hinterlassenschaften des sächsischen Uranerzbergbaus an früheren Standorten der Bergbaufirma Wismut AG durch deren Nachfolgeunternehmen Wismut GmbH. Die Averbis-Software hat aber keine Körperschaft erkannt, sondern stattdessen mit dem chemischen Element "Bismut" verschlagwortet. Das kann nur aus der Analyse des Titels kommen. Dummerweise bezieht sich das "Wismut" in "Wismut-Altstandorte" aber eben nicht auf das Element, sondern auf den Namen des verursachenden Bergbauunternehmens. Also ein typisches Disambiguierungsproblem, das für eine Maschine - anders als für Menschen - hier wohl unlösbar war. Es dürfte dann eine Default-Regel gegriffen haben, weshalb das Sachschlagwort vergeben wurde. In diesem Beispiel finden sich außerdem zwei weitere typische Effekte bei der maschinellen Bearbeitung: Sowohl die geografische als auch die zeitliche Dimension fehlen komplett. Und Schlagwörter wie "Gewässer" und "Industrie" sind so allgemein, dass ihr Nutzwert nahe null liegt.

    Man sieht zugleich, wie problematisch es ist, wenn sich die maschinelle Bearbeitung ausschließlich auf den Titel und das eingescannte Inhaltsverzeichnis stützen muss. Ich denke, dies wird oft auch dazu führen, dass zwar mehr oder weniger willkürlich Einzelaspekte berücksichtigt sind wie hier der "Grubenbau" (die im Inhaltsverzeichnis gleich gewichtete "Halde" merkwürdigerweise nicht), aber man das "große Ganze" in der Erschließung eigentlich nicht wiederfindet. Letzteres ist, denke ich, eine der besonderen Stärken der intellektuellen Erschließung nach einem Regelwerk wie RSWK.

  • #8

    Heidrun Wiesenmüller (Freitag, 04 August 2017 13:29)

    Zur Frage von Frau Heygster (#6):

    Liebe Frau Heygster,

    alle betonen den hohen Wert der GND - auch die DNB. Hier habe ich also relativ wenig Sorge. Die GND ist sozuagen das Wörterbuch, das die Averbis-Software für die Zuordnung der Schlagwörter verwendet. Derzeit ist es m.W. auch nicht angedacht, dass GND-Datensätze für die Sacherschließung maschinell erstellt werden sollen. Aber Frau Mödden berichtete auf dem Workshop in Stuttgart, dass an einem "Vorschlagstool" gearbeitet werde. Das hat man sich wohl so vorzustellen, dass die Software eine Meldung ausgibt, wenn sie im analysierten Text auf ein wichtig erscheinendes Konzept gestoßen ist, zu dem sie keine Übereinstimmung in der GND gefunden hat. Dann könnte sich dies ein menschlicher Bearbeiter ansehen und bei Bedarf ein neues Schlagwort anlegen (oder vielleicht auch nur eine zusätzliche Verweisung an einem bestehenden GND-Datensatz).

    Viele Grüße
    Heidrun Wiesenmüller

  • #9

    Gerald Langhanke (Freitag, 04 August 2017 14:14)

    Liebe Frau Wiesenmüller,

    liebe KollegInnen,

    das Problem ist m.E., dass derzeit immer noch viele (menschliche) Ressourcen mit Erschließung (formal und inhaltlich) beschäftigt sind und nun ein einzelner Akteur (die DNB) das isoliert ändern möchte und so nur auf eine Methode setze kann: Automatisierumg.
    Die Alternative wäre viel besser: 1 Mensch katalogisiert und sacherschließt 1 Werk 1 mal für alle und für immer in 1 Datenpool, ggf. unterstützt durch ein Vorschlagstool. Dies setzt Organisation und das Ende des Kirchturmdenkens voraus, ginge aber sogar komplett ohne DNB. Die Energie, die man für RDA aufgewandt hat, hätte locker gereicht das herbeizuführen. Es ist noch nicht zu spät das zu tun!

  • #10

    M. Lowisch (Montag, 07 August 2017 10:33)

    Was ich nicht ganz nachvollziehen kann, ist der Punkt Personaleinsparungen, mit dem immer wieder argumentiert wird. Der Haushalt der DNB ist von ca. 42,5 Mio. Euro im Jahre 2012 auf nunmehr fast 49 Mio. Euro in diesem Jahr gestiegen. Der gesamte Kulturetat des Bundes soll alleine im nächsten Jahr um über 300 Mio Euro ansteigen und somit höchstwahrscheinlich auch erneut der der DNB. Dass die Bibliothek bei solchen Rahmenbedingungen mittelfristig an das Ende der intellektuellen Erschließung denkt, mutet für den Außenstehenden da schon recht verwunderlich an.
    Aber gut, es gibt Gehaltssteigerungen und andere Ausgaben, deren Veränderungen der Laie von außen nicht bewerten kann. Die Frage lautet dann aber: Wieso kann die DNB bei solchen Steigerungen im Kulturhaushalt nicht mehr für sich abrufen? Weil es keinen Abgeordneten gibt, der sich mit mehr Geld für eine bundesdeutsche Nationalbibliothek zu Hause schmücken könnte, das X. neue/renovierte Mühlen- oder Heimatmuseum dagegen gute Berichte in der Lokalpresse bringt? Leider ist diese Entwicklung wohl auch eine Widerspiegelung des Stellenwerts, den das Bibliothekswesen in der Politik hat.

  • #11

    Markus Heine (Montag, 07 August 2017 11:38)

    @ Gerald Langhanke

    Ihre Idee ist richtig.
    Ihre Idee liegt auch den Verbundkatalogen zugrunde.

    Nur:
    Dann sollte auch der erste Bearbeiter das Dokument vollständig und vor allem richtig erschliessen!

    Ich arbeite im GBV in einer Institutsbibliothek mit Thema Wirtschaft, ein Bereich in dem für die deutsch- und angloamerikanische Literatur eigentlich immer Autopsie-Katalogisate vorliegen.

    Doch oft genug sind die Aufnahmen noch zu überarbeiten:
    - es fehlen (RDA-)Elemente.
    - es werden fehlerhafte Angaben aus Fremddaten (vor allem Umfangsangaben) nicht korrigiert.
    - es werden Vorauflagen kopiert und notwendige Korrekturen (ISBN, Umfang) vergessen.
    - es stehen Informationen in der Titelaufnahme, die nicht nachvollzogen werden können.

    Man kann eigentlich nie ungeprüft den eigenen Lokalsatz an der Titelaufnahme ergänzen!
    Und manchmal hat man gar das Gefühl, dass die Bibliothek, die für den Autopsie-Status verantwortlich ist, mit dessen Vergabe lediglich die Existenz des Buches bestätigt hat.

    Erst wenn in allen Bibliotheken Einvernehmen darüber herrscht, dass Daten vollständig und nachvollziehbar oder gar nicht bearbeitet werden, kann man zu dem von Ihnen gewünschten Szenario kommen.
    Und das hätte dann auch den gewünschten Personal-Einsparungs-Effekt.

  • #12

    Thomas Kees (Montag, 07 August 2017 23:37)

    Liebe Heidrun,

    auch von mir einen herzlichen Dank für einen überaus anregenden Beitrag, der selbst mich aus meiner Kommentier-Faulheit reißt und zu einer - vermutlich länglichen, nicht ganz emotionsfreien und aufgrund meines nun leider zu Ende gegangenen Urlaubs auch etwas späten - Stellungnahme verleitet.

    Seit ich bibliothekarisch tätig bin, ist die von meinen Ausbildern noch als Königsdisziplin bezeichnete Sacherschließung heftigem Gegenwind ausgesetzt. Früher begegnete einem noch eher der Vorwurf, höchst aufwändige Kopfstände zu vollführen, die kaum jemanden interessierten und zu toten Daten in OPACs führten (wurde übrigens liebevoll von F.K. Waechter illustriert, wobei kaum jemand weiß, dass es sich hier um eine Verbildlichung bibliothekarischer Sacherschließung handelte => https://url.kees.saarland/se).

    Dies hat sich nach meiner Wahrnehmung geändert. Wenn es ein einigermaßen gut eingerichtetes Discoverysystem den BenutzerInnen heute erlaubt, nach “Brücke” zu suchen, ohne dem System initial klarmachen zu müssen, ob man eher einen kunsthistorischen, architektonischen oder zahnmedizinischen Hintergrund hat, weil der relativ intuitiv ablaufende weitere Suchweg auch ohne vertiefte RSWK-Kenntnis mit zwei, drei Klicks zu scharfen Suchergebnissen führt, dann wird dies vermutlich auch von Sacherschließungs-Skeptikern als Positivum der Sacherschließung konzediert werden. Ich habe lange nicht mehr gefragt: “Wer kennt hier eigentlich den Unterschied zwischen einem Stich- und einem Schlagwort?” Die Sachfacetten sind die modernen Schweine, die natürlich auf unsere Daten gucken und Ergebnisse sinnvoll präsentieren können.

    Ich gehe also davon aus, dass es nicht mehr um das “ob”, sondern ausschließlich um das “wie” geht, wenn man sachgerecht über Sacherschließung diskutiert. Also außerhalb einer “Manchmal muss ‘gut genug’ auch mal ‘gut genug’-Haltung” vieler Bibliotheksstrategen, bei denen Effizienz weit vor Qualität rangiert.

    In meinen Literaturverwaltungsschulungen bin ich immer häufiger mit dieser gemeinen Frage konfrontiert, ob beim Datenimport Schlagwörter übernommen werden sollen (v.a. Citavi, Zotero). Ich halte dann meist einen Kurzvortrag über die Sinnhaftigkeit dieser Schlägwörter, denn unbeschadet ihrer “Verwurstung” in manchen Importroutinen stellen sie bislang natürlich einen deutlichen Mehrwert dar. Fast schon gewöhnt haben wir uns an den grausamen Recall für digitale Medien (s.o. “manchmal muss …”), aber die Präzision unserer Sacherschließung für “unsere” Papierwelt-Metadaten war bisher ganz ordentlich. Ich habe immer geurteilt: “Wenn sie vorhanden sind, sind sie gut, also nehmen Sie sie mit”.

    Präzisionswerte wie die von Dir geschilderten würden die Situation schlagartig ändern, denn von der Übernahme solcher Daten würde ich nicht nur Benutzern für deren eigene Sammlungen abraten, sondern beim derzeitigen Stand der Technik auch dafür plädieren, die vermutlich automatisch zu selektierenden maschinell erzeugten SE-Daten in unseren Lokalsystemen für Anzeige und Retrieval zu unterdrücken. Ich möchte nicht auf den Einzelbeispielen herumreiten, aber bei manchem gewinnt “Rage against the Machine” eine vollkommen neue Bedeutung.... (allerdings sind auch die Beispiele misslungener intellektueller Erschließung Legion).

    Mir geht es vornehmlich - und beinahe ausschließlich - um Qualität, und als technik-affinem Menschen sind mir Kommentare wie der von Anna Kasprzik natürlich äußerst willkommen, da ich genau diese Meinung teile. Wenn aber ein hochinnovativer, sach- und technikkundiger Kollege wie Jakob Voss, der das deutsche Bibliothekswesen seit über einem Jahrzehnt mit - häufig von “außen” kommenden - Impulsen bereichert, die Zukunft bibliographischer Daten eher außerhalb des Bibliothekswesens verortet, ist es Zeit, die Alarmlampen mindestens auf gelb zu stellen. Zumindest, wenn man die Erosion und Marginalisierung des Bibliothekswesens nicht ohnehin als unausweichlich ansieht, sondern im Gegenteil unser Metier als grundsätzlich potenten Mitspieler beim zukünftigen Management bibliographischer Daten betrachtet.

    Natürlich liegt die Zukunft der Sacherschließung in maschinellen Verfahren, aber nicht so. Nicht so schnell. Nicht so unabgestimmt. Nicht so unbefriedigend. Und - lieber - auch nicht so außerhalb.

    to be continued... (mehr als 5000 Zeichen gehen nicht)

  • #13

    Thomas Kees (Montag, 07 August 2017 23:38)

    Fortsetzung zu Thomas Kees ...

    Wie ist denn der Stand? Seit Jahren strafen wir im (deutschen) Bibliothekswesen den alten Heraklit Lügen. Hier fließt wenig, das meiste hakt. Auch der digitale Assistent ist Ausdruck davon. Beim derzeitigen Entwicklungsstand werden im Wesentlichen - bereits vorhandene! - Daten aus den Verbünden präsentiert, die mit einigen Mausklicks in den eigenen Verbund gehackt werden. Man sieht es schon als Vorteil, dass es sich um etwas weniger Mausklicks handelt. Mir scheint dies Ameisensoftware für Ameisenarbeit meist hoch bezahlter Sacherschließer, die allzu häufig Daten nur ein wenig anstoßen (müssen), damit sie fließen.
    Wenn es selbst mir schwer fällt einzusehen, dass die nach gleichem Regelwerk in ähnlichen Systemen in jahrzehntelanger akribischer Arbeit erstellten Daten nicht richtig miteinander arbeiten können, versteht dies ein Mensch ohne Déformation professionelle noch viel weniger.

    Mögen die Gründe in Bibliothekspolitik, Datenmodell usw. zu suchen sein: wir haben unglaublich viele Hausaufgaben zu machen, um überhaupt die Grundlagen für maschinelle Sach- und andere Erschließung zu schaffen. Und hier sehe ich KollegInnen wie die hier mit kommentierenden Anna Kasprzik und Jakob Voss als Mittler, die um die Qualität unserer Daten wissen und das technische Verständnis mitbringen, praktikable Lösungen zu entwickeln. Ich möchte gar nicht darüber spekulieren, wie viel Wissen aus Haussystematiken vergangener Jahrzehnte den Weg ins Hier-und-Jetzt nicht geschafft haben, weil es an technischen Möglichkeiten fehlte, diese Daten zu überführen. Vermutlich wurden die Inhalte bei der Migration noch in lokalen Feldern geparkt, um dann beim nächsten Update stillschweigend entsorgt zu werden. Da ist der Schweiß der Edlen umsonst vergossen worden, auch für unseren Saarbrücker Eppelsheimer. So gesehen ist die RSWK- und RVK-Erschließung, neben den Fachsystematiken, ein kümmerlicher Rest dessen, was das Bibliothekswesen über Generationen geschaffen hat. Um so sorgsamer muss man damit umgehen.

    Natürlich hatte der Schneider von Ulm Recht: die Menschheit kann fliegen (und wird auch maschinell Sacherschließung betreiben können). Aber auch dieser Visionär hätte weniger eigensinnig sein und lieber an dem Instrumentarium feilen sollen, bevor er “in Produktion” ging. Viele Abstürze können auch wir uns nicht erlauben, denn Datenqualität lässt sich nicht predigen, ohne sie zu gewährleisten. Manchmal ist das, was man vor der Zeit herbeizwingen will, eben nicht gut genug.

    Nach diesem - wie angekündigt - länglichem Kommentar möchte ich der Frage “Was will der eigentlich?” mit drei “Take-home-messages” begegnen (habe ich mir bei Klaus Tochtermann abgeguckt).

    1. Wir benötigen dringend einen einheitlichen Datenpool, der aus divergenten Systemen gespeist wird (nein, damit meine ich weder den WorldCat noch eine Alma Monokultur). Vielleicht führt die CIB-Bauchlandung zu einem Umdenken, aber es herrscht noch viel klein-klein.

    2. Wir, also das Bibliothekswesen, müssen massiv Entwicklung betreiben, diese Daten besser arbeiten zu lassen. Das bedeutet die Schaffung von Automatismen zu Generierung und Manipulierung dieser Daten, die dann auch ganz anders im Semantic Web präsent sein könnten.

    3. Wir dürfen auf keinen Fall vorschnell Qualität über Bord werfen und mit halbgaren Ergebnissen aufwarten. Selbst, wenn die aufwändige, teilweise Tool-gestützte intellektuelle Erschließung noch eine Zeitlang gängige Praxis bliebe. Ich will diesen Digitalen Assistenten und ähnliche verdienstvolle Werkzeuge ja gar nicht verteufeln, denn sie sind - momentan - schlicht ... zeitgemäß.

    Thomas Kees

  • #14

    Heidrun Wiesenmüller (Dienstag, 08 August 2017 07:40)

    Liebe Kolleginnen, liebe Kollegen,

    dieser Blogbeitrag scheint sich zu einem echten Rekordhalter zu entwickeln: Die Jimdo-Statistik zeigt mir dafür nunmehr 2.359 Besucher mit 2.927 Seitenaufrufen an (bis einschließlich gestern). Wow! Auch die Zahl der Kommentare ist beachtlich, und Thomas Kees hat hier nun auch noch einen Rekord für den längsten aufgestellt - davor hatten die 5.000 Zeichen immer gereicht... Lieber Thomas, vielen Dank für Deinen sehr lesens- und bedenkenswerten Beitrag! Man sieht jedenfalls, wieviel Diskussionsbedarf bei diesem Thema herrscht.

    Viele Grüße
    Heidrun Wiesenmüller

  • #15

    Jakob Voß (Dienstag, 08 August 2017 10:49)

    Vielen Dank für die Take-home-messages, denen ich mich anschließen kann.

    1. Einheitlicher Datenpool: Ja, allerdings sehe ich nicht das der mittelfristig aus dem Bibliothekswesen kommt. Der Gesamtkatalog von GBV + BSZ kommt ja grade erst und dann müssten noch die anderen Verbünde und die DNB mit ins Boot. Es sind ja nicht technische sondern "politische" Gründe, warum wir nicht schon längst einen deutschlandweiten Verbundkatalog haben. Deshalb tippe ich eher auf einen Datenpool von außerhalb des Bibliothekswesens. Oder es tut sich ja noch was bei WorldCat.

    2. Es hat sich ja schon viel in Richtung (Linked) Open Data aus Bibliotheken getan, die Entwicklung muss weiter vorangetrieben werden. Bislang stellen leider nicht alle Verbünde ihre Katalogdaten in einem einheitlichen Format als aktuelle Dumps zur Verfügung. Selbst wenn endlich alle Daten so verfügbar wären, dass sie algorithmisch ausgewertet und angereichert werden können, stellt sich die Frage wie Korrekturen und Ergänzungen zurückfließen (wieder Punkt 1).

    3. Tools zur halbautomatischen Erschließung sind der beste Weg. Ich kann den Einsatz vollautomatische Verfahren allerdings nachvollziehen. Was die Qualität betrifft fehlt es aus meiner Sicht an klaren Zielen, die mit der Sacherschließung eigentlich erreicht werden sollen. Die beste Precision ist sicher nur durch Autopsie erreichbar, dafür ist in einigen Discovery-Systemen aber der Recall mangels Erschließungsdaten so schlecht, dass die Sacherschließung überhaupt nicht mehr zum Retrieval genutzt werden kann.

  • #16

    Dr. Kai Multhaup (Dienstag, 08 August 2017 12:50)

    Was für'n Debakel. Die DNB schmeißt nach über zehn Jahren die DDC weg? Die Kurznotationen und DDC-Sachgruppen sind ja wohl kein ersnthafter Ersatz für die Tiefenerschließeung. Ich gehe doch davon aus, dass in den Kurznotationen die T2-Hilfstafel nicht mehr ordentlich zum Einsatz kommt. Dabei kann man doch gerade mit T2 und dem DDC-Search-Tool sehr schön hierarchisch nach Titeln mit Regionalbezug browsen.

    Homogenität durch breite Absenkung der Qualität — wie "unbibliothekarisch".

  • #17

    M. Lowisch (Dienstag, 08 August 2017 14:31)

    Danke, Herr Multhaup, ich kann Ihnen da nur zustimmen. Wozu wurde die DDC überhaupt erst mit viel Bohai eingeführt? Ich erinnere mich noch, wie stolz die DNB die gedruckte Ausgabe der eigens voll übersetzten DDC präsentierte (Arbeitszeit für die vollständige Übersetzung: drei Jahre). Oder wie siehts aus mit CrissCross , dem Projekt, gefördert von der DFG, das unsere Normdaten mit DDC-Notationen anreicherte (Arbeitszeit: vier Jahre)? Viel vergeudete Manpower.

  • #18

    Dr. Kai Multhaup (Dienstag, 08 August 2017 17:38)

    Ich kann nur hoffen, dass WebDewey Search so wie es ist erhalten bleibt — als Repositorium eines regelrechtenen Schatzes an Notationen und Klassenbenennungen sowie als Suchwerkzeug in anderen Datenbanken neben DNB (z.B. GBV), deren internationale Titel ja auch über DDC auffindbar sind.

  • #19

    Heidrun Wiesenmüller (Mittwoch, 09 August 2017 10:29)

    Noch ein Nachtrag: Herr Ceynowa hat auch ein Interview im Radio gegeben, das man hier anhören kann (Achtung, langer Link):

    <http://ondemand-mp3.dradio.de/file/dradio/2017/08/04/wenn_maschinen_buecher_lesen_klaus_ceynowa_bayerische_dlf_20170804_1740_e9f73315.mp3>

    Am Ende bezeichnet die Journalistin übrigens die BSB als "Bayerische Nationalbibliothek" und greift damit unwissentlich das "Wir alle sind Nationalbibliothek" von Herrn Ceynowa auf.

    Viele Grüße
    Heidrun Wiesenmüller

  • #20

    Margit Sandner (Mittwoch, 09 August 2017 16:19)

    Liebe SE-Community, der lange Link funktioniert leider (bei mir ) nicht, aber dieser hier geht (trotz des Schreibfehlers im Interview-Titel ;-) ganz gut auf:

    Wenn Maschinen Bücher lesen - Klaus Ceynowa, Bayerische Staastbibliothek, i.Ges.

    04.08.2017 | 7 Min. | Quelle: Deutschlandfunk
    Autor: Fischer, Karin Sendung: Kultur heute
    http://www.deutschlandfunk.de/kultur-heute.690.de.html
    Hören bis: 10.02.2018 16:40

    Herzliche Grüße aus Wien - Margit Sandner

  • #21

    Joachim Michel (Donnerstag, 10 August 2017 11:21)

    Vorbemerkung: Ich äußere hier eine Privatmeinung, die nicht notwendigerweise die Meinung meines Arbeitgebers ist.

    Liebe Frau Wiesenmüller,
    ich beziehe mich hier auf Ihren Kommentar #7 zu Ihrem eigenen Blogbeitrag.
    Auch ich habe schon so (witzige) maschinelle Ergebnis wie die Verwechslung des Unternehmens "Wismut" mit dem chemischen Element "Bismut" beobachtet. Wer zum Beispiel umfangreiche Arbeitspapierserien (working papers) maschinell beschlagwortet, der oder die muss sich nicht wundern, wenn bei ersten Testläufen das Ergebnis "Papierindustrie" herauskommt.
    Lösung:
    Meine persönliche Meinung ist, dass man bei maschineller terminologischer Indexierung zusätzlich intellektuell klassifizieren sollte. Im Fall der Firma "Wismut" muss ein Mensch der Maschine mitteilen, dass sie keine Begriffe aus der "Chemie" verwenden soll, sondern ausschließlich nur Begriffe aus dem Bereich "Wirtschaft" und "Umwelt" heranziehen soll. Ein Publikation intellektuell mit Kurznotationen zu versehen geht viel schneller als wenn der Mensch die Publikation komplett "allein" beschlagworten muss.
    Wenn allerdings sowohl die Notationen als auch die Begriffe maschinell indexiert werden, dann muss man sich nicht wundern wenn zukünftige Nutzerinnen ganz viel Treffer beim Schlagwort "Papierindustrie" finden ;-)

  • #22

    Heidrun Wiesenmüller (Donnerstag, 10 August 2017 21:26)

    Lieber Herr Michel,

    vielen Dank für Ihren Kommentar! Ja, für die maschinelle Indexierung wäre es in der Tat ein großer Vorteil, wenn das Fachgebiet des Dokuments bekannt wäre.

    Die DNB hat dafür, soweit ich weiß, auch eine Idee auf der Basis ihrer maschinellen Verfahren entwickelt, nämlich die Ermittlung eines sogenannten "Fingerprint" für jedes Dokument. In der Präsentation von Frau Mödden (http://tinyurl.com/yc25jdcw) sieht man das auf Folie 25-27. Wenn ich es recht verstanden habe, sollen aus den wichtigsten der maschinell vergebenen Schlagwörtern über die zugehörige GND-Systemstellen die wahrscheinliche(n) Sachgruppe(n) abgeleitet werden. So etwas könnte man dann vielleicht auch zum Ausfiltern unpassender Schlagwörter verwenden: Wenn z.B. beim Titel "Die Tennis-Bibel" nahezu alle maschinell generierten Schlagwörter aus dem Sportbereich kommen und nur eins aus der Theologie, dann spricht das dafür, dass da irgendwas nicht stimmt, und ein solches Schlagwört könnte unterdrückt werden. Allerdings ist dieses Verfahren in gewisser Weise zirkulär, weil ja die ermittelten Schlagwörter selbst die Basis darstellen (bei denen ja vielleicht nur die Hälfte einigermaßen passt).

    Auf eine andere Möglichkeit, wie man maschinell die Fachzugehörigkeit eines Dokuments ermitteln könnte, hat mich vor kurzem der Vortrag von Frau Klein über freie Zitationsdaten und das Projekt "Linked Open Citation Database" gebracht, vgl. dazu meinen Blog-Beitrag "Eindrücke vom Bibliothekartag in Frankfurt (Teil 2)" (https://www.basiswissen-rda.de/bibliothekartag2017-teil-2/). Wenn man das Literaturverzeichnis eines Dokuments auswertet und die dort aufgeführten Titel auf entsprechende Katalogisate mit (ordentlicher) Sacherschließung mappen könnte, dann müsste sich doch daraus eigentlich sehr deutlich das Fachgebiet abzeichnen, oder?

    Viele Grüße
    Heidrun Wiesenmüller

  • #23

    Margit Sandner (Freitag, 11 August 2017 12:20)

    Das "Zirkuläre" an der künftigen SE kommt mir ein wenig so vor, wie das Gesellschaftsspiel "Stille Post" oder das homöopathische Verdünnungsprinzip. Ob in unserem Fall auch mit dem niedrigsten messbaren Wirkstoffanteil (an intellektueller Erschließung ;-) das heilsamste Verfahren zu erzielen sein wird ?
    Werden es dann die erschlossenen Medien sein, die eine - bei solcher Medikation übliche - heftige Erstverschlimmerung durchmachen müssen, bevor ausreichend Selbstheilungskräfte aktiviert sind, um zu gesunden, oder die nach einem Thema recherchierenden Leserinnen und Leser, oder gar die wenigen verbleibenden bibliothekarischen Kopfarbeiter/-innen?

    Noch ein Aspekt, ein weniger launischer, aber eine Koinzidenz, auf die mich kürzlich ausgerechnet ein Pharmazeut (!) aufmerksam gemacht hat.
    In den Naturwissenschaften gehe man mehr und mehr davon ab, präzise Titel zu vergeben. Die Tendenz (von Verlagen) gehe hier neuerdings auch zu "attraktiveren" Formulierungen.
    Wenn dem so ist, treffen hier zum ungünstigsten Zeitpunkt zwei aufeinander wirkende Veränderungen zusammen!
    Do the right thing and do it to the right time ...

    Von meiner Seite ist das in den nächsten Tagen ein wenig Urlaub.
    Danke an Frau Wiesenmüller und an alle, die sich beim öffentlichen Mitdenken engagieren!
    Herzliche Grüße aus Wien - Margit Sandner

  • #24

    Heidrun Wiesenmüller (Montag, 14 August 2017 08:30)

    Ich bin gerade auf dieses schöne (oder eher: erschreckende) Beispiel hingewiesen worden, das ich Ihnen nicht vorenthalten möchte: Die Broschüre "Provenienzgeschichten : Gemäldegalerie Alte Meister Schloss Wilhelmshöhe".

    Es handelt es sich um eine besondere Art von Führer durch diese Kasseler Galerie mit einem Schwerpunkt auf der Provenienz der Bilder (vgl. http://museum-kassel.de/de/forschung-und-sammlungen/forschungsprojekte/provenienzgeschichten).

    Die DNB (http://d-nb.info/1136337318) hat maschinell vergeben:
    - Geschoss <Bauwesen>
    - Meister
    - Gemäldegalerie
    - Spanisch

    In HeBIS findet man auch eine Aufnahme (http://orsprod.rz.uni-frankfurt.de/DB=2.1/PPNSET?PPN=40455556X), die übrigens auch in der Formalerschließung besser als die der DNB ist, mit den folgenden Schlagwörtern:
    - Kassel
    - Gemäldegalerie Alte Meister Kassel
    - Provenienzforschung

    Sieht man sich die Verschlagwortung bei der DNB näher an, so muss man konstatieren:

    1. Die Averbis-Software scheitert an Routineaufgaben.

    Weder wurde aus dem Titelwort "Provenienzgeschichten" das Schlagwort "Provenienz" (bzw. dessen Ansetzungsform "Herkunft") extrahiert noch wurde die Körperschaft erkannt - und dies, obwohl die im Titel genannte Form "Gemäldegalerie Alte Meister Schloss Wilhelmshöhe" in der GND als Verweisungsform erfasst ist. Damit sind die beiden zentralen Aspekte des Inhalts nicht erkannt, und man kann nur sagen: Thema verfehlt!

    2. Von "künstlicher Intelligenz" ist nichts zu bemerken; die Maschine ist und bleibt "dumm".

    Ein Blick ins Inhaltsverzeichnis (http://d-nb.info/1136337318/04) macht klar, woher das Schlagwort "Geschoss <Bauwesen>" kommt: Das Heft ist nach den drei Etagen der Galerie angeordnet, weshalb das Wort "Etage" in den Kapitelüberschriften dreimal vorkommt. Ein Mensch versteht sofort, dass "Etage" hier nicht das Thema ist, sondern eine ganz andere Funktion hat - hingegen kann die Maschine dies nicht interpretieren. Menschen wissen auch, dass Formulierungen wie "Altdeutsche, Italienische, Französische und Spanische Meister" auf Gemälde hinweisen. Die Software kann dieser ihrer Wissensbasis (dem auf der GND beruhenden Wörterbuch) nicht entnehmen und extrahiert stattdessen die Sachschlagwörter "Meister" und "Spanisch".

    3. Eingescannte Inhaltsverzeichnisse sind keine ausreichende Basis, um darauf eine maschinelle Verschlagwortung aufzusetzen.

    Sicher sind nicht alle Inhaltsverzeichnisse so wenig aussagekräftig wie das aus dem vorliegenden Beispiel, aber vielfach werden ähnliche Probleme auftauchen. Sich alleine auf Inhaltsverzeichnisse stützen, halte ich deshalb für unverantwortlich. Es müssten zumindest noch etwaige Einleitungen sowie einige Beispielseiten aus dem Haupttext eingescannt werden.
    Es sei auch daran erinnert, dass die oben geschilderten Ergebnisse aus der Studie von 2013 sich auf digital vorliegende Ressourcen beziehen. Bei Printmaterialien, die auf der Basis von eingescannten Inhaltsverzeichnissen bearbeitet werden, ist mit einer deutlich schlechteren Qualität zu rechnen.