02. August 2017

Das neue Sacherschließungskonzept der DNB in der FAZ

Im Mai veröffentlichte die DNB ein neues Sacherschließungskonzept unter dem Titel Grundzüge und erste Schritte der künftigen inhaltlichen Erschließung von Publikationen in der Deutschen Nationalbibliothek (vgl. außerdem die Mitteilung zu den Änderungen ab September 2017 auf der DNB-Website). Ich hatte bisher den Eindruck, dass die dort angekündigten, durchaus einschneidenden Änderungen in der bibliothekarischen Öffentlichkeit bisher kaum zur Kenntnis genommen worden sind.

Das neue Sacherschließungskonzept der DNB (Mai 2017)

Dies könnte sich nun jedoch ändern, denn vorgestern (31.07.2017) brachte es das Thema bis ins Feuilleton der Frankfurter Allgemeinen Zeitung - wann ist dies einer Frage aus der Erschließung zuletzt gelungen? Auf Seite 12 der Druckfassung setzt sich Klaus Ceynowa, der Generaldirektor der Bayerischen Staatsbibliothek, mit den aktuellen Entwicklungen auseinander. "In Frankfurt lesen jetzt zuerst Maschinen", titelte die FAZ. Der Artikel ist auch online verfügbar und bietet eine höchst interessante Lektüre. Im Folgenden werde ich einige Punkte aus diesem Artikel und dem DNB-Konzept näher kommentieren.

Der Beitrag von Klaus Ceynowa in der FAZ vom 31.07.2017

Ceynowa geht in dem Beitrag auch auf ein zweites, etwas jüngeres Papier der DNB ein ("Erschließung als zyklischer Prozess"). Dieses Dokument ist jedoch nicht öffentlich zugänglich, sondern wurde bisher nur dem Standardisierungsausschuss vorgelegt. Ich beschränke mich deshalb auf das Sacherschließungskonzept.

"Wenn es nach dem Willen der DNB geht, soll mit der intellektuellen Inhaltserschließung deutscher Publikationen nun Schluss gemacht werden", schreibt Ceynowa. In der Tat wird als neues Ziel formuliert, nur noch dann etwas intellektuell inhaltlich zu erschließen, "wenn maschinelle Verfahren entweder nicht zur Verfügung stehen, keine ausreichenden Ergebnisse liefern oder intellektuell erstellte Daten für die Weiterentwicklung der maschinellen Verfahren benötigt werden." Die automatische Erschließung an der DNB beschränkt sich dabei nicht mehr auf Online-Publikationen, sondern bezieht auch gedruckte Publikationen mit ein. Bereits zum 1. September 2017 werden die Reihen B und H komplett auf automatische Erschließung mit DDC-Sachgruppen und GND-Schlagwörtern umgestellt. Diese Informationen stehen im Konzept unter der Überschrift "Erste Schritte", sodass der Einbezug der Reihe A nur eine Frage der Zeit sein dürfte. Ebenfalls zum 1. September 2017 wird außerdem die Erschließung mit vollständigen DDC-Notationen aufgegeben (für alle Reihen der Deutschen Nationalbibliografie; auch dort, wo derzeit noch intellektuell erschlossen wird). Diese sollen durch maschinell ermittelte "DDC-Kurznotationen" ersetzt werden, "die derzeit von der DNB entwickelt werden". Näheres wurde dazu bisher noch nicht mitgeteilt.

Nachtrag (02.08.2017, 14:55): Ich werde gerade darauf hingewiesen, dass ich hier etwas missverstanden hatte: Die DDC-Tiefenerschließung wird zunächst nur für Reihen B und H aufgegeben. Ansonsten wird offenbar erst zu Beginn des nächsten Jahres auf Kurznotationen umgestellt, welche u.U. aber durchaus noch intellektuell gemacht werden. Ich hoffe, jetzt stimmt das so.

Qualität der maschinellen Schlagwortvergabe

Ein zentraler Punkt in Ceynowas Beitrag bildet die Qualität der maschinellen Schlagwortvergabe, für die die DNB eine Software von Averbis einsetzt:

"Die Resultate einer automatischen Inhaltserschließung (...) sind, wie Untersuchungen der DNB selbst zeigen, vergleichsweise ernüchternd. Die Qualität der algorithmisch generierten Schlagwörter schwankt deutlich. Bei Wissenschaftsfächern mit eindeutigem Fachvokabular ist sie besser, bei anderen schlechter. Über alle Fächer verteilt erweisen sich nur 50 Prozent als "nützlich" oder "sehr nützlich", 50 Prozent sind "wenig nützlich" oder schlicht falsch. Zwei Beispiele: Der Titel "Die Macht der Bilder: A. Lorenzetti – P. Picasso – E. Kienholz, 1338-1968" erhält die maschinell ermittelten Schlagwörter "Kiefernholz; Bildmaterial; Macht; Lorenzetti, Ambrogio", das Buch "Jüdisches Leben in Biebesheim" die Schlagwortfolge "Biebesheim am Rhein; Leben"."

Diesen Aussagen dürfte Sandro Uhlmanns Studie von 2013 (Dialog mit Bibliotheken 24, Nr. 2, S. 26-36) zugrunde liegen. Damals ergaben sich für die Precision (also die Nützlichkeit der ermittelten Schlagwörter) Werte zwischen 0,38 in der Informatik und 0,62 in der Wirtschaft (wobei 1,0 für "sehr nützlich" und 0,0 für "falsch" steht); zumeist lagen die Werte zwischen 0,45 und 0,55. In dieser Studie wurde das Ergebnis der maschinellen Indexierung übrigens auch auf seine Vollständigkeit hin geprüft - also daraufhin, ob alle für das Dokument relevanten Schlagwörter gefunden wurden (dies würde einen Recall von 1,0 bedeuten). Hier ergaben sich für die meisten Sachgruppen Werte zwischen 0,65 und 0,75. Überträgt man die Ergebnisse auf ein Dokument mit vier maschinell generierten Schlagwörtern, so bedeutet dies, dass nur zwei davon als sehr nützlich oder nützlich einzuordnen wären und ein bis zwei wichtige Schlagwörter fehlen würden. Dass das System von Averbis natürlich weder Schlagwortfolgen bilden noch den wohldurchdachten Verwendungsregeln folgen kann, die für die RSWK entwickelt wurden, versteht sich dabei von selbst.

Aktuellere Zahlen scheinen nicht veröffentlicht zu sein, aber dem Hörensagen nach liegen die Werte heute in ähnlichen Bereichen wie vor vier Jahren. Auf dem Workshop zur computerunterstützten Inhaltserschließung an der UB Stuttgart, der am 8./9. Mai - kurz vor der Bekanntmachung des neuen Konzepts - stattfand, stellte Elisabeth Mödden die Aktivitäten der DNB vor (Vortragsfolien). Sie erläuterte auch, dass regelmäßig Stichproben unterschiedlicher Art durchgeführt werden. In der Präsentation wurde beispielhaft ein Screenshot eines aktuellen Analyseprotokolls gezeigt (Folie 21). Wenn ich diesen richtig interpretiere, wurden bei der Prüfung von acht Dokumenten acht Fehler (unterschiedlichen Typs) gefunden. Eine Online-Dissertation mit dem Titel "Die Ordnung der Dinge durch die Malerei : Jan van Kessels Münchner Erdteile-Zyklus" etwa bekam das Sachschlagwort "Kessel" zugeteilt und ein Werk mit dem Titel "Die Tennis Bibel" das Schlagwort "Bibel". Trotz der Erfahrungen der letzten Jahre, die sicher vielfach zu Anpassungen z.B. bei den Wörterbuch-Routinen geführt haben, macht die Software also weiterhin recht dramatische Fehler.

Sollten die maschinell erstellten Indexate auch künftig nur stichprobenhaft geprüft werden, ist also damit zu rechnen, dass ab September eine erhebliche Zahl völlig unpassender Schlagwörter über die Datendienste der DNB ausgeliefert und in die Kataloge der Bibliotheken kommen werden. Diese werden nicht nur die Recherche beeinträchtigen, sondern stören auch in der Anzeige (wo die Sacherschließung ja die Funktion hat, die Nutzer rasch und konzise über den Inhalt zu informieren). Nimmt man das neue Erschließungskonzept ernst, müsste man eigentlich zu dem Ergebnis kommen, dass die maschinellen Verfahren "keine ausreichenden Ergebnisse liefern" und folglich zur intellektuellen Erschließung zurückkehren. Die Entscheidungsträger an der DNB werden dies aber gewiss anders sehen. Nötig wäre, so meine ich, eine breite Diskussion darüber, welche Fehlerraten akzeptabel sind. Hätte man dafür eine klare Vorgabe, könnte man regelmäßig prüfen, ob die eingesetzten Verfahren die vorgegebenen Werte schaffen oder eben nicht. Auf dem Bibliothekartag in Frankfurt gab es einen einschlägigen Workshop dazu ("Erschließung per Knopfdruck? Ein Spagat zwischen Quantität und Qualität?"), den ich aber leider nicht besuchen konnte. Vielleicht kann jemand, der dabei war, etwas darüber berichten (bitte Kommentarfunktion verwenden).

Motivation für das neue Erschließungskonzept

Im DNB-Konzept heißt es:

"Durch das enorme Anwachsen des digitalen Zugangs wird der Anteil intellektuell erschlossener Publikationen in Relation zu maschinell erstellten Daten immer geringer. Damit geht das Problem einher, dass die Heterogenität zunimmt und der thematische Zugriff auf Daten und damit Publikationen erschwert wird. Diesem Umstand will die Deutsche Nationalbibliothek durch den Umstieg auf automatische Inhaltserschließungsverfahren für alle Medienwerke entgegentreten."

Ceynowa nennt dies eine "eigentümliche Argumentation" und schlussfolgert: "Der Umstieg auf automatische Verfahren stellt Homogenität (...) durch den Rückzug auf den kleinsten gemeinsamen Nenner her: In der deutschen Nationalbibliographie werden künftig im Regelfall alle Publikationen gleichmäßig auf niedrigem Niveau erschlossen."

Ich persönlich kann zwar das an der DNB herrschende Unbehagen darüber schon verstehen, dass einerseits die gedruckten Materialien grundsätzlich qualitativ hochwertig intellektuell erschlossen wurden und andererseits alle online vorliegende grundsätzlich nur maschinell. Dies führt in der Tat zu einer Unausgewogenheit und besagt implizit, Gedrucktes sei prinzipiell wertvoller und wichtiger als online Vorliegendes. Genau wie Ceynowa halte ich es aber für keine Lösung, wenn man das Ungleichgewicht dadurch auszugleichen versucht, dass künftig sozusagen "alles gleich schlecht" erschlossen wird. Auch im Digitalzeitalter könnte man doch gewiss einen Kernbestand identifizieren, für den eine hochwertige intellektuelle Sacherschließung sinnvoll ist - egal, ob die Dokumente analog oder digital vorliegen. Dafür müssten geeignete Kriterien entwickelt werden, und dieser Herausforderung sollte sich die DNB stellen. Auch hier würde ich eine breite Diskussion für angemessen halten, in die nicht nur die deutschen Bibliotheken als "Kunden" der DNB, sondern auch Verlage und Endnutzer einzubeziehen wären.

Noch eine Passage aus dem FAZ-Artikel:

"Was mag die DNB zu diesem Schritt bewogen haben? Die ansteigende Zahl von Netzpublikationen (von rund 150.000 im Jahr 2012 auf 280.000 im Jahr 2016) kann es jedenfalls nicht sein, denn diese werden ohnehin nur maschinell erschlossen. Im Regelfall pflegt die DNB hier schlicht vom Lieferanten selbst erstellte oder anderweitig maschinell erzeugte Metadaten in ihren Katalog ein. Schaut man hingegen auf das gedruckte Publikationsaufkommen des Verlagsbuchhandels, so ist eine leichte Abwärtstendenz erkennbar: von 112000 Neuerscheinungen in 2012 auf 104000 in 2016. Es ist also nicht so, dass infolge eines signifikanten Anstiegs der Menge gedruckter Titel die DNB nicht mehr in der Lage wäre, die intellektuelle Inhaltserschließung in der bisherigen Form weiterzuführen."

Fakt ist allerdings auch, dass die Personalstellen in den Erschließungsabteilungen der DNB in den vergangenen Jahren merklich reduziert wurden - wobei ich allerdings nicht weiß, ob es sich dabei um echten Personalabbau oder um Personalverschiebungen innerhalb der DNB handelt. Zudem hat RDA nicht nur in der Vorbereitungs- und Einführungsphase erhebliche Ressourcen beansprucht, sondern auch im Echtbetrieb nicht die wohl vom Management erhofften Entlastungen gebracht. Insofern steht hinter den jüngsten Weichenstellungen bei der DNB sicher eine echte "Not", die man nicht ignorieren kann. Auch an anderen Nationalbibliotheken hat übrigens der Druck auf die Erschließung zugenommen. So hört man immer wieder Klagen darüber, wie sehr sich die Qualität der LC-Aufnahmen in den letzten Jahren verschlechtert habe (auch dies wohl als Folge von Personalabbau), und bei der British Library wird offenbar ein großer Teil der Erschließungstätigkeiten nach Indien "outgesourct".

Ist das Vorgehen "alternativlos"?

In einer gewiss nicht einfachen Situation setzt die DNB, wie es scheint, ausschließlich auf vollautomatische Verfahren. Dies ist fraglos der radikalste Weg: Er lässt die höchsten Personaleinsparungen erhoffen, birgt aber auch die größten Risiken für die Datenqualität. Sollten deshalb nicht zuvor alle anderen, maßvolleren Möglichkeiten zur Rationalisierung ausgeschöpft werden?

Hier ist zum einen an eine maschinell unterstützte Erschließung zu denken, die mit Werkzeugen wie dem Digitalen Assistenten (DA) realisiert werden kann. Wer dieses geniale Tool noch nicht kennt, sei auf einen Aufsatz von 2016 verwiesen. In Heft 3/2017 von o-bib wird außerdem ein Tagungsbericht von Imma Hinrichs und mir über den bereits genannten Workshop zur computerunterstützen Inhaltserschließung erscheinen, auf dem der DA eine zentrale Rolle spielte. Ich persönlich halte eine maschinell unterstützte Erschließung derzeit für den "Königsweg", weil er das Beste aus beiden Welten vereinigt: die Qualität der intellektuellen Erschließung und den möglichst rationellen Einsatz der Ressource Mensch. Eigentlich hat sich auch die DNB für diesen Weg ausgesprochen. In dem im vergangenen Jahr erschienen Strategischen Kompass ist jedenfalls zu lesen (S. 5):

"Daneben [d.h. neben den vollautomatischen Verfahren, H.W.] investieren wir in eine bessere maschinelle Unterstützung der intellektuellen Arbeit bei der Erschließung von gedruckten Materialien. Wir arbeiten an der Entwicklung von Prozessen, welche die unterschiedlichen Stärken von Mensch und Maschine berücksichtigen und ergänzend zusammenführen."

Ich tue mir allerdings schwer damit, diesen Anspruch im neuen Sacherschließungskonzept in irgendeiner Weise wiederzufinden - vielleicht bezieht sich dies nur auf die Formalerschließung.

Außerdem könnte die DNB von verstärkter Kooperation mit anderen Bibliotheken profitieren. Eine von mir hochgeschätzte DNB-Kollegin sagte einmal lachend: "Also, Fremddaten - das können wir nicht!" In der Tat werden an der DNB zwar intensiv die von den Produzenten gelieferten Metadaten genutzt, jedoch scheinbar nicht die weitaus besseren Daten, die sie aus den Verbünden bekommen könnten. Ich wage die These aufzustellen, dass die regionalen Pflichtexemplarbibliotheken oftmals schneller sind als die DNB. Ähnliches dürfte im Bereich der Hochschulschriften gelten. Sehr häufig wird also schon ein Katalogisat einer deutschen Bibliothek vorhanden sein, wenn die MitarbeiterInnen an der DNB sich an die Erschließung machen. Wieviel Arbeit könnte hier eingespart werden, wenn in einem solchen Fall einfach das bestehende Katalogisat nachgenutzt werden würde! Neidisch blicke ich nach Österreich, wo die Nationalbibliothek keine "Insel" ist, sondern Teil des Bibliotheksverbunds.

Auswirkungen auf die Bibliotheken

Zu Recht lenkt Ceynowa den Blick auf die Bibliotheken, die - nach einer Vorlaufzeit von nicht einmal vier Monaten - mit den Konsequenzen des neuen Erschließungskonzepts leben müssen. Nicht zum ersten Mal habe ich den Eindruck, dass die Verantwortlichen an der DNB gar nicht so richtig realisieren, wie wichtig die von ihnen gelieferten Daten für die abnehmenden Bibliotheken sind. Aber dies ist tatsächlich so: Die Erschließungsleistung der DNB ist in den Häusern fest eingeplant. Gerade in der Sacherschließung geht man bei einem großen Teil der deutschen Publikationen davon aus, dass die Schlagwörter dafür von der DNB kommen werden. Die FachreferentInnen bekommen solche Publikationen in der Regel gar nicht mehr auf den Tisch. Schon 2014 gab es nicht unerhebliche Einschränkungen bei den von der DNB nach RSWK erschlossenen Bereichen, die damals auf großen Unmut stießen (die seither gültigen Regeln sind in diesem Papier nachzulesen; ich hoffe, es bleibt weiterhin zugänglich).

Wie soll nun mit der neuen Situation ab September 2017 umgegangen werden? Die einfachste Methode ist, nach dem Motto "Augen zu und durch" verfahren, d.h. die maschinell vergegebenen Schlagwörter unbesehen zu akzeptieren. In vielen Bibliotheken wird dies schon deshalb der einzig gangbare Weg sein, weil ansonsten zusätzliches Personal in die Sacherschließung gesteckt werden müsste. Welche Bibliothek kann sich dies leisten? Dort wo dennoch inakzeptable Schlagwörter auffallen (z.B. bei der Formalerschließung oder durch Hinweise von Nutzern), wird man dies - selbstverständlich intellektuell - in Ordnung bringen (entweder mit punktuellen Änderungen bei den vorhandenen Schlagwörtern oder mit einer RSWK-gerechten Erschließung).

Arbeit, die bisher bei der DNB geleistet wurde, wird dadurch auf die Bibliotheken verlagert. Ceynowa schreibt: "Alle Bibliotheken, denen auch künftig an einer qualitätsvollen Inhaltserschließung gelegen ist, dürfen nun künftig das nachbessern, was seitens der DNB unzureichend ausgeliefert wurde." Zu befürchten ist überdies, dass solche Korrekturen nicht nur in einem Verbund, sondern in mehreren erfolgen werden (womöglich in unterschiedlichen Ausprägungen). Denn die seit einigen Jahren vorhandenen Routinen zum Austausch von Sacherschließungsinformationen zwischen den Verbünden, die eigentlich Mehrfacharbeit verhindern sollen, funktionieren in der Praxis leider mehr schlecht als recht. Man muss also die Sorge haben, dass nicht nur die Datenqualität sinken, sondern auch das Gesamtsystem weniger effizient werden wird. Deshalb verwundert es schon, dass die Bibliotheken über das neue Erschließungskonzept nur informiert wurden. Wäre es nicht sinnvoll gewesen, sie im Vorfeld in die Diskussion mit einzubeziehen?

Erschließung als zyklischer Vorgang

Im neuen DNB-Konzept wird ein neues Verständnis von Erschließung formuliert: "Erschließung muss (...) nicht mehr als einmaliger abgeschlossener Vorgang, sondern kann als zyklisches Verfahren betrachtet werden, bei dem Erschließungsdaten immer wieder verändert und aktualisiert werden." Und im Strategischen Kompass liest man auf S. 5: "Zudem können die Verfahren optimiert und dann erneut für den gesamten digitalen Bestand angewendet werden, damit verbesserte Ergebnisse neu ausgeliefert werden können."

Erschließung als "continuous beta"? Das klingt modern und trendy, wäre jedoch ein deutlicher Bruch mit der herrschenden Praxis: Bisher wurde es stets abgelehnt, etwa bei einer Regelwerksänderung die vorhandenen Daten nachträglich an den neuen Stand zu passen - der Aufwand dafür wäre einfach zu hoch gewesen. Eine zyklische Bearbeitung (nach unterschiedlichen Standards oder mit unterschiedlichen Werkzeugen) ist m.E. überhaupt nur denkbar vor dem Hintergrund einer vollständig automatisierten Erschließung in Formal- und Sacherschließung. Aber selbst dann scheint es fraglich, ob die Mehrfachbehandlung nicht doch zu erheblichen Mehraufwänden führen würde: Müssen nicht auch bei jedem maschinellen Schritt im Metadatenmanagement Abläufe geplant, Algorithmen aufgestellt, Variablen festgelegt, Prüfgänge gefahren und Ergebnisse evaluiert werden - und zwar von Menschen? Die Kolleginnen und Kollegen an den Verbundzentralen, die schon jetzt immer wieder Daten auf die eine oder andere Weise "putzen" müssen, wissen ein Lied davon zu singen.

Auch fehlen bislang die technischen Rahmenbedingungen für ein solches Konzept. Zur Synchronisierung müssten ja regelmäßig gewaltige Datenmengen über die Schnittstellen von Verbund- und Lokalsystemen laufen - diese sind dafür aber nicht ausgerichtet. Auch müssten komplexe Regeln dafür erarbeitet werden, wer was wann überschreiben darf. Beispielsweise wäre es gewiss nicht erwünscht, dass maschinell vergebene DNB-Schlagwörter an einer Bibliothek intellektuell korrigiert werden - nur, um dann zwei Jahre später durch "verbesserte" maschinelle DNB-Schlagwörter ersetzt zu werden. Es müssten also erst einmal die konzeptionellen, technischen und organisatorischen Voraussetzungen für eine "Erschließung als zyklischen Vorgang" geschaffen werden, ehe man die vorhandenen Prozesse und Verfahren außer Kraft setzt.

Aufgabe der vollwertigen DDC-Erschließung

Im FAZ-Artikel nicht erwähnt wird die Aufgabe der 2006 eingeführten Erschließung mit vollwertiger DDC, die damals als großer Schritt nach vorne galt (vgl. den maßgeblichen Artikel von Magda Heiner-Freiling in Dialog mit Bibliotheken 17 (2005), Nr. 3, S. 4-13). Viele werden sich noch daran erinnern, wie skeptisch dies in der deutschen Bibliothekscommunity aufgenommen wurde.

Mittlerweile hat man jedoch die von der DNB gelieferte DDC-Erschließung an vielen wissenschaftlichen Bibliotheken zu schätzen gelernt. Denn dadurch ergibt sich in den Katalogen eine relativ hohe Abdeckung mit DDC: Bei internationaler Literatur (insbesondere aus dem englischen Sprachraum) werden vollständige DDC-Notationen mit den Fremddaten geliefert, für die deutschsprachige Literatur wurden sie von der DNB erstellt. Das Zusammenspiel ermöglicht nicht nur eine sprachübergreifende Recherche, sondern bietet auch große Chancen z.B. für Konkordanzen und Linked-Data-Projekte. Diese Einheitlichkeit wird nun - so ist zu befürchten - wieder verloren gehen

Fazit

Das neue Sacherschließungskonzept der DNB wirft viele Fragen auf, die bisher m.E. nicht in ausreichender Breite mit allen davon Betroffenen diskutiert worden sind. Klaus Ceynowa ist dafür zu danken, dass er mit seinem Artikel in der FAZ dem Thema die nötige Aufmerksamkeit verschafft hat. Natürlich kann eine so komplexe Materie in einem Zeitungsartikel nur schlaglichtartig beleuchtet werden. Deshalb sollte nun eine intensive fachliche Beschäftigung mit dem Thema folgen, wobei auch strategische Alternativen zu diskutieren sind.

Heidrun Wiesenmüller

Tags: publikationen, 2017, 2017-quartal-3, Sacherschließung

Kommentar schreiben

Kommentare: 37

#1
S. Janning (Mittwoch, 02 August 2017 13:26)

Ich denke, die Sacherschließung ist doch hier nur der Anfang. Die gleichen Diskussionen über die unterschiedliche Erfassungstiefe und -genauigkeit wird längst auch bei der Formalerschließung geführt. E-Books wandern in die Kataloge/Portale mit den Metadaten, die man eben vom Anbieter bekommt ohne Verknüpfungen zu Normdaten etc. Beim Printbestand wird aufwändig nach RDA katalogisiert. Eigentlich war jedem Anwender auch schon vor Einführung der RDA klar, dass es durch dieses neue Regelwerk eher keine echten Synergien geben wird.
Nun fängt die DNB an und "spart" bei der Sacherschließung ... Ich warte auf den Tag, wenn Vergleichbares bei der Formalerschließung kommen wird.
Und ja: erste Fragen werden auch schon gestellt, ob und wie viel bibliothekarische Ausbildung noch benötigt wird in den Bibliotheken oder "Wissenspeichern" der Zukunft. Vielleicht ist der Zug längst abgefahren?
#2
Anna Kasprzik (Mittwoch, 02 August 2017 14:31)

Liebe Frau Wiesenmüller,
vielen Dank für diesen gewohnt differenzierten Beitrag.
Ich war eine der Vortragenden im von der DNB geleiteten Workshop "Erschließung per Knopfdruck? Ein Spagat zwischen Quantität und Qualität?" und habe dort als Informatikerin die Meinung vertreten, dass wir gut daran täten, das jahrzehntelange Strukturwissen der (intellektuellen) bibliothekarischen Sacherschließung nicht über Bord zu werfen, sondern es mit automatisierten Methoden zu verzahnen, also scharfe semantische Kerne von Domänenwissen zu pflegen und diese dann entsprechend mit semantischen Technologien hochzuskalieren -- und ich meinte auch wahrzunehmen, dass das in dem Workshop generellen Konsens fand, aber ich mag mich täuschen.
Wenn die DNB das Konzept so durchzieht, wie Herr Ceynowa es skizziert, dann gibt es für mich zwei anstehende Aufgaben: Wie sich die Sacherschließung in Deutschland organisatorisch und personell sortiert, müssen die Verbünde und Bibliotheken unter sich klären. Für die Forschungs- und Entwicklungsabteilungen ist das jedoch eine Steilvorlage: Umso mehr brauchen wir dringend hochqualitative semantische Netze und entsprechende Technologien, um Daten und Entitäten zu verknüpfen und so den befürchteten Qualitätsabfall aufzufangen.
Herzlich
Anna Kasprzik
#3
Heidrun Wiesenmüller (Mittwoch, 02 August 2017 14:55)

Ich hatte im Bereich der DDC-Erschließung etwas missverstanden; bitte beachten Sie die entsprechende Korrektur (in blau).
#4
anotherfami (Donnerstag, 03 August 2017 14:31)

Ich bin immer noch voll stolz darauf sagen zu können, dass unser Beruf (auch) wichtig ist, weil wir bibliographische Daten organisieren und Verbindungen herstellen, die unseren Nutzern bei der Recherche weiterhelfen und verbindliche gute Ergebnisse liefern. Ich würde RDA auch als Schritt sehen das im Rahmen der "Technologien" weiter zu optimieren.

Ich finde es z.B. schwierig, wenn Verlags-E-Book-Daten direkt unbearbeitet in den Katalog eingespeist werden. Es gibt jetzt schon genug Wildwuchs und inhomogene Daten. Die meisten E-Book-Aufnahmen sind mindestens doppelt in den Bibliotheksdatenbanken und nur ein Bruchteil wird überhaupt je angeschaut und erhält eine Autopsie. Vielleicht bin ich da naiv, aber so wie ich meinen Beruf verstehe sollte es unser Anspruch sein diese Probleme zu minimieren. Natürlich ist das teilweise bei der Menge an Daten ein Kampf gegen Windmühlen, aber das ändert für mich nichts an der Notwendigkeit bei diesem Thema hinterher zu sein.

Ich glaube nicht daran, dass "Technologie" alle Probleme auffangen kann, die durch solche Automatisierungen (Fremddatenübernahme ohne Prüfung, maschinelle Sacherschließung, ...) entstehen und dass je mehr unvollständige/uneinheitliche Datensätze es gibt immer etwas unter den Tisch fallen wird. Das ist mir nicht egal und ich finde es ist auch nicht irrelevant, weil das zu verhindern eben ein wichtiger Teil unserer Arbeit ist.

Es geht ja am Ende auch darum zu vermitteln, dass unsere Daten vertrauenswürdig sind. Egal, ob in der Formal- oder Sacherschließung. Mag sein, dass ich da indoktriniert bin, aber wenn ich sichergehen will, dass eine Angabe zu einem Buch stimmt, das ich nicht vorliegen habe, dann gucke ich das in einem Bibliothekskatalog nach. Zumindest eine Autopsie-Aufnahme stellt dann für mich die Verbindlichkeit her, die ich anderswo nicht erreichen kann. Es ist auch so schon schwer genug zu vermitteln was wir eigentlich machen und solche Initiativen zersetzen unser Bild meiner Meinung nach noch mehr.

Eine Konsequenz aus dem zyklischen Vorgang der Erschließung wie die DNB ihn sich vorstellt wäre, dass die Bibliotheksverbünde nach der erstmaligen Übertragung der Daten aus der DNB in die eigenen Kataloge (die müsste sowieso wegfallen, wenn jemand schneller war als die DNB) keine nachträglichen Änderungen, der Schlagworte, des ganzen Datensatzes aus der DNB mehr zulassen, wenn es im eigenen Verbund eine Autopsie-Aufnahme gibt oder die Sacherschließung geändert wurde.

Wenn man das im Blog-Beitrag so liest, dann ist es schon ziemlich erschreckend, dass die DNB "keine Fremddaten kann". Ganz besonders, weil innerhalb der Verbünde die Verbundkatalogisierung (ist das nicht sogar so ein zyklischer Vorgang wie der im DNB-Konzept?) ein enorm praktisches Mittel ist um Ressourcen zu sparen. Ich finde bei diesem Thema eine Verteilung auch von "unten" nach "oben" sehr vernünftig und ich kann nicht verstehen, warum Bibliotheken so sehr darauf stehen eine Insel zu sein. Das wird in der Bibliothekswelt sowieso viel zu gerne gelebt. Und so gesellschaftlich betrachtet hat die DNB eben nunmal eine gewisse Bedeutung als Institution des Bibliothekswesens (die sie sich noch nichtmal erkämpfen musste), die ihr aber scheinbar nicht bewusst ist.

Das ist jetzt leider doch zu emotional geworden. Trotzdem kommt vielleicht rüber, dass ich eine Diskussion dieses Themas auch sehr wichtig finde. Und ich hoffe wirklich, dass sie irgendwo stattfinden wird.
#5
Jakob Voß (Freitag, 04 August 2017 11:42)

Danke für die ausführliche und ausgewogene Darstellung der Problematik.

Ich kann den Wunsch nach automatischer Sacherschließung eher verstehen als deren völlige Ablehnung. Der richtige Weg wäre daher maschinell unterstützte Erschließung. Statt lediglich Stichproben vorzunehmen, sollten alle automatisch vergebenen Schlagworte intellektuell geprüft werden, das wäre noch immer effektiver als die rein intellektuelle Vergabe und qualitativ besser als eine rein automatische Erschließung.

Wie sie ebenfalls andeuten, mangelt es dafür allerdings an grundsätzlichen Arbeitsabläufen zur Verschlagwortung. Eine systematische Qualitätskontrolle findet nicht statt und Korrekturen sind praktisch nicht möglich. Grund hierfür ist das Fehlen einer gemeinsamen Verbunddatenbank aller Bibliotheken, in der gemeinsam katalogisiert wird. Das nicht funktionierende Prinzip Fremdaten ist schon falsch, es sollte gemeinsame Daten geben.

Angesichts der politischen, organisatorischen und technischen Widerständen, sehe ich allerdings eher dass Wikidata irgendwann die gesamte Katalogisierung übernimmt als dass sich Bibliotheken zu gemeinsamen, offenen Katalogen zusammenraufen. Ich habe dazu bereits letztes Jahr in LIBREAS geschrieben (http://libreas.eu/ausgabe29/02voss/), inzwischen hat das Projekt WikiCite auch einen Namen und wächst weiter.
#6
Ines Heygster (Freitag, 04 August 2017 13:17)

Vielen Dank, dass Sie das Thema hier verständlich und komprimiert darstellen und zur Diskussion bringen.
Eine Frage: wie ist eigentlich das Zusammenspiel von GND und automatischer/maschineller Erschließung? Bislang haben von der DNB vergebene Schlagworte immer einen GND-Normsatz. Werden für maschinell erstellte Schlagworte, die noch nicht in der GND vorkommen, auch automatisch GND-Normsätze angelegt?
#7
Heidrun Wiesenmüller (Freitag, 04 August 2017 13:22)

Schon mal ganz herzlichen Dank an alle, die sich bereits an der Diskussion beteiligt haben!

Zum Kommentar von Jakob Voß: Ich selbst trauere auch noch immer dem damals abgelehnten Konkurrenzantrag zum CIB-Projekt (welches man wohl als gescheitert betrachten muss?) nach, das unter dem Titel libOS eingereicht worden war (https://www.hbz-nrw.de/aktuelles/nachrichten/libOS-Antrag). WikiCite finde ich ebenfalls sehr interessant, obwohl ich jetzt nicht auf die Idee gekommen wäre, dass dies einmal unsere Bibliothekskataloge ablösen könnte... Im nächsten Heft von o-bib wird es einen Bericht zur WikiCite 2017 von Philipp Zumstein und Konrad Förstner geben.

Hier übrigens noch ein schönes aktuelles Beispiel zur unterschiedlichen Qualität von maschinell und intellektuell erstellten Schlagwörtern. Vergleichen Sie mal die folgenden Datensätze bei der DNB und im SWB (letzteres von der SLUB Dresden gemacht):
http://d-nb.info/1136451269
http://swb.bsz-bw.de/DB=2.1/PPNSET?PPN=491059272&INDEXSET=1

Es geht hier um die Sanierung von Hinterlassenschaften des sächsischen Uranerzbergbaus an früheren Standorten der Bergbaufirma Wismut AG durch deren Nachfolgeunternehmen Wismut GmbH. Die Averbis-Software hat aber keine Körperschaft erkannt, sondern stattdessen mit dem chemischen Element "Bismut" verschlagwortet. Das kann nur aus der Analyse des Titels kommen. Dummerweise bezieht sich das "Wismut" in "Wismut-Altstandorte" aber eben nicht auf das Element, sondern auf den Namen des verursachenden Bergbauunternehmens. Also ein typisches Disambiguierungsproblem, das für eine Maschine - anders als für Menschen - hier wohl unlösbar war. Es dürfte dann eine Default-Regel gegriffen haben, weshalb das Sachschlagwort vergeben wurde. In diesem Beispiel finden sich außerdem zwei weitere typische Effekte bei der maschinellen Bearbeitung: Sowohl die geografische als auch die zeitliche Dimension fehlen komplett. Und Schlagwörter wie "Gewässer" und "Industrie" sind so allgemein, dass ihr Nutzwert nahe null liegt.

Man sieht zugleich, wie problematisch es ist, wenn sich die maschinelle Bearbeitung ausschließlich auf den Titel und das eingescannte Inhaltsverzeichnis stützen muss. Ich denke, dies wird oft auch dazu führen, dass zwar mehr oder weniger willkürlich Einzelaspekte berücksichtigt sind wie hier der "Grubenbau" (die im Inhaltsverzeichnis gleich gewichtete "Halde" merkwürdigerweise nicht), aber man das "große Ganze" in der Erschließung eigentlich nicht wiederfindet. Letzteres ist, denke ich, eine der besonderen Stärken der intellektuellen Erschließung nach einem Regelwerk wie RSWK.
#8
Heidrun Wiesenmüller (Freitag, 04 August 2017 13:29)

Zur Frage von Frau Heygster (#6):

Liebe Frau Heygster,

alle betonen den hohen Wert der GND - auch die DNB. Hier habe ich also relativ wenig Sorge. Die GND ist sozuagen das Wörterbuch, das die Averbis-Software für die Zuordnung der Schlagwörter verwendet. Derzeit ist es m.W. auch nicht angedacht, dass GND-Datensätze für die Sacherschließung maschinell erstellt werden sollen. Aber Frau Mödden berichtete auf dem Workshop in Stuttgart, dass an einem "Vorschlagstool" gearbeitet werde. Das hat man sich wohl so vorzustellen, dass die Software eine Meldung ausgibt, wenn sie im analysierten Text auf ein wichtig erscheinendes Konzept gestoßen ist, zu dem sie keine Übereinstimmung in der GND gefunden hat. Dann könnte sich dies ein menschlicher Bearbeiter ansehen und bei Bedarf ein neues Schlagwort anlegen (oder vielleicht auch nur eine zusätzliche Verweisung an einem bestehenden GND-Datensatz).

Viele Grüße
Heidrun Wiesenmüller
#9
Gerald Langhanke (Freitag, 04 August 2017 14:14)

Liebe Frau Wiesenmüller,

liebe KollegInnen,

das Problem ist m.E., dass derzeit immer noch viele (menschliche) Ressourcen mit Erschließung (formal und inhaltlich) beschäftigt sind und nun ein einzelner Akteur (die DNB) das isoliert ändern möchte und so nur auf eine Methode setze kann: Automatisierumg.
Die Alternative wäre viel besser: 1 Mensch katalogisiert und sacherschließt 1 Werk 1 mal für alle und für immer in 1 Datenpool, ggf. unterstützt durch ein Vorschlagstool. Dies setzt Organisation und das Ende des Kirchturmdenkens voraus, ginge aber sogar komplett ohne DNB. Die Energie, die man für RDA aufgewandt hat, hätte locker gereicht das herbeizuführen. Es ist noch nicht zu spät das zu tun!
#10
M. Lowisch (Montag, 07 August 2017 10:33)

Was ich nicht ganz nachvollziehen kann, ist der Punkt Personaleinsparungen, mit dem immer wieder argumentiert wird. Der Haushalt der DNB ist von ca. 42,5 Mio. Euro im Jahre 2012 auf nunmehr fast 49 Mio. Euro in diesem Jahr gestiegen. Der gesamte Kulturetat des Bundes soll alleine im nächsten Jahr um über 300 Mio Euro ansteigen und somit höchstwahrscheinlich auch erneut der der DNB. Dass die Bibliothek bei solchen Rahmenbedingungen mittelfristig an das Ende der intellektuellen Erschließung denkt, mutet für den Außenstehenden da schon recht verwunderlich an.
Aber gut, es gibt Gehaltssteigerungen und andere Ausgaben, deren Veränderungen der Laie von außen nicht bewerten kann. Die Frage lautet dann aber: Wieso kann die DNB bei solchen Steigerungen im Kulturhaushalt nicht mehr für sich abrufen? Weil es keinen Abgeordneten gibt, der sich mit mehr Geld für eine bundesdeutsche Nationalbibliothek zu Hause schmücken könnte, das X. neue/renovierte Mühlen- oder Heimatmuseum dagegen gute Berichte in der Lokalpresse bringt? Leider ist diese Entwicklung wohl auch eine Widerspiegelung des Stellenwerts, den das Bibliothekswesen in der Politik hat.
#11
Markus Heine (Montag, 07 August 2017 11:38)

@ Gerald Langhanke

Ihre Idee ist richtig.
Ihre Idee liegt auch den Verbundkatalogen zugrunde.

Nur:
Dann sollte auch der erste Bearbeiter das Dokument vollständig und vor allem richtig erschliessen!

Ich arbeite im GBV in einer Institutsbibliothek mit Thema Wirtschaft, ein Bereich in dem für die deutsch- und angloamerikanische Literatur eigentlich immer Autopsie-Katalogisate vorliegen.

Doch oft genug sind die Aufnahmen noch zu überarbeiten:
- es fehlen (RDA-)Elemente.
- es werden fehlerhafte Angaben aus Fremddaten (vor allem Umfangsangaben) nicht korrigiert.
- es werden Vorauflagen kopiert und notwendige Korrekturen (ISBN, Umfang) vergessen.
- es stehen Informationen in der Titelaufnahme, die nicht nachvollzogen werden können.

Man kann eigentlich nie ungeprüft den eigenen Lokalsatz an der Titelaufnahme ergänzen!
Und manchmal hat man gar das Gefühl, dass die Bibliothek, die für den Autopsie-Status verantwortlich ist, mit dessen Vergabe lediglich die Existenz des Buches bestätigt hat.

Erst wenn in allen Bibliotheken Einvernehmen darüber herrscht, dass Daten vollständig und nachvollziehbar oder gar nicht bearbeitet werden, kann man zu dem von Ihnen gewünschten Szenario kommen.
Und das hätte dann auch den gewünschten Personal-Einsparungs-Effekt.
#12
Thomas Kees (Montag, 07 August 2017 23:37)

Liebe Heidrun,

auch von mir einen herzlichen Dank für einen überaus anregenden Beitrag, der selbst mich aus meiner Kommentier-Faulheit reißt und zu einer - vermutlich länglichen, nicht ganz emotionsfreien und aufgrund meines nun leider zu Ende gegangenen Urlaubs auch etwas späten - Stellungnahme verleitet.

Seit ich bibliothekarisch tätig bin, ist die von meinen Ausbildern noch als Königsdisziplin bezeichnete Sacherschließung heftigem Gegenwind ausgesetzt. Früher begegnete einem noch eher der Vorwurf, höchst aufwändige Kopfstände zu vollführen, die kaum jemanden interessierten und zu toten Daten in OPACs führten (wurde übrigens liebevoll von F.K. Waechter illustriert, wobei kaum jemand weiß, dass es sich hier um eine Verbildlichung bibliothekarischer Sacherschließung handelte => https://url.kees.saarland/se).

Dies hat sich nach meiner Wahrnehmung geändert. Wenn es ein einigermaßen gut eingerichtetes Discoverysystem den BenutzerInnen heute erlaubt, nach “Brücke” zu suchen, ohne dem System initial klarmachen zu müssen, ob man eher einen kunsthistorischen, architektonischen oder zahnmedizinischen Hintergrund hat, weil der relativ intuitiv ablaufende weitere Suchweg auch ohne vertiefte RSWK-Kenntnis mit zwei, drei Klicks zu scharfen Suchergebnissen führt, dann wird dies vermutlich auch von Sacherschließungs-Skeptikern als Positivum der Sacherschließung konzediert werden. Ich habe lange nicht mehr gefragt: “Wer kennt hier eigentlich den Unterschied zwischen einem Stich- und einem Schlagwort?” Die Sachfacetten sind die modernen Schweine, die natürlich auf unsere Daten gucken und Ergebnisse sinnvoll präsentieren können.

Ich gehe also davon aus, dass es nicht mehr um das “ob”, sondern ausschließlich um das “wie” geht, wenn man sachgerecht über Sacherschließung diskutiert. Also außerhalb einer “Manchmal muss ‘gut genug’ auch mal ‘gut genug’-Haltung” vieler Bibliotheksstrategen, bei denen Effizienz weit vor Qualität rangiert.

In meinen Literaturverwaltungsschulungen bin ich immer häufiger mit dieser gemeinen Frage konfrontiert, ob beim Datenimport Schlagwörter übernommen werden sollen (v.a. Citavi, Zotero). Ich halte dann meist einen Kurzvortrag über die Sinnhaftigkeit dieser Schlägwörter, denn unbeschadet ihrer “Verwurstung” in manchen Importroutinen stellen sie bislang natürlich einen deutlichen Mehrwert dar. Fast schon gewöhnt haben wir uns an den grausamen Recall für digitale Medien (s.o. “manchmal muss …”), aber die Präzision unserer Sacherschließung für “unsere” Papierwelt-Metadaten war bisher ganz ordentlich. Ich habe immer geurteilt: “Wenn sie vorhanden sind, sind sie gut, also nehmen Sie sie mit”.

Präzisionswerte wie die von Dir geschilderten würden die Situation schlagartig ändern, denn von der Übernahme solcher Daten würde ich nicht nur Benutzern für deren eigene Sammlungen abraten, sondern beim derzeitigen Stand der Technik auch dafür plädieren, die vermutlich automatisch zu selektierenden maschinell erzeugten SE-Daten in unseren Lokalsystemen für Anzeige und Retrieval zu unterdrücken. Ich möchte nicht auf den Einzelbeispielen herumreiten, aber bei manchem gewinnt “Rage against the Machine” eine vollkommen neue Bedeutung.... (allerdings sind auch die Beispiele misslungener intellektueller Erschließung Legion).

Mir geht es vornehmlich - und beinahe ausschließlich - um Qualität, und als technik-affinem Menschen sind mir Kommentare wie der von Anna Kasprzik natürlich äußerst willkommen, da ich genau diese Meinung teile. Wenn aber ein hochinnovativer, sach- und technikkundiger Kollege wie Jakob Voss, der das deutsche Bibliothekswesen seit über einem Jahrzehnt mit - häufig von “außen” kommenden - Impulsen bereichert, die Zukunft bibliographischer Daten eher außerhalb des Bibliothekswesens verortet, ist es Zeit, die Alarmlampen mindestens auf gelb zu stellen. Zumindest, wenn man die Erosion und Marginalisierung des Bibliothekswesens nicht ohnehin als unausweichlich ansieht, sondern im Gegenteil unser Metier als grundsätzlich potenten Mitspieler beim zukünftigen Management bibliographischer Daten betrachtet.

Natürlich liegt die Zukunft der Sacherschließung in maschinellen Verfahren, aber nicht so. Nicht so schnell. Nicht so unabgestimmt. Nicht so unbefriedigend. Und - lieber - auch nicht so außerhalb.

to be continued... (mehr als 5000 Zeichen gehen nicht)
#13
Thomas Kees (Montag, 07 August 2017 23:38)

Fortsetzung zu Thomas Kees ...

Wie ist denn der Stand? Seit Jahren strafen wir im (deutschen) Bibliothekswesen den alten Heraklit Lügen. Hier fließt wenig, das meiste hakt. Auch der digitale Assistent ist Ausdruck davon. Beim derzeitigen Entwicklungsstand werden im Wesentlichen - bereits vorhandene! - Daten aus den Verbünden präsentiert, die mit einigen Mausklicks in den eigenen Verbund gehackt werden. Man sieht es schon als Vorteil, dass es sich um etwas weniger Mausklicks handelt. Mir scheint dies Ameisensoftware für Ameisenarbeit meist hoch bezahlter Sacherschließer, die allzu häufig Daten nur ein wenig anstoßen (müssen), damit sie fließen.
Wenn es selbst mir schwer fällt einzusehen, dass die nach gleichem Regelwerk in ähnlichen Systemen in jahrzehntelanger akribischer Arbeit erstellten Daten nicht richtig miteinander arbeiten können, versteht dies ein Mensch ohne Déformation professionelle noch viel weniger.

Mögen die Gründe in Bibliothekspolitik, Datenmodell usw. zu suchen sein: wir haben unglaublich viele Hausaufgaben zu machen, um überhaupt die Grundlagen für maschinelle Sach- und andere Erschließung zu schaffen. Und hier sehe ich KollegInnen wie die hier mit kommentierenden Anna Kasprzik und Jakob Voss als Mittler, die um die Qualität unserer Daten wissen und das technische Verständnis mitbringen, praktikable Lösungen zu entwickeln. Ich möchte gar nicht darüber spekulieren, wie viel Wissen aus Haussystematiken vergangener Jahrzehnte den Weg ins Hier-und-Jetzt nicht geschafft haben, weil es an technischen Möglichkeiten fehlte, diese Daten zu überführen. Vermutlich wurden die Inhalte bei der Migration noch in lokalen Feldern geparkt, um dann beim nächsten Update stillschweigend entsorgt zu werden. Da ist der Schweiß der Edlen umsonst vergossen worden, auch für unseren Saarbrücker Eppelsheimer. So gesehen ist die RSWK- und RVK-Erschließung, neben den Fachsystematiken, ein kümmerlicher Rest dessen, was das Bibliothekswesen über Generationen geschaffen hat. Um so sorgsamer muss man damit umgehen.

Natürlich hatte der Schneider von Ulm Recht: die Menschheit kann fliegen (und wird auch maschinell Sacherschließung betreiben können). Aber auch dieser Visionär hätte weniger eigensinnig sein und lieber an dem Instrumentarium feilen sollen, bevor er “in Produktion” ging. Viele Abstürze können auch wir uns nicht erlauben, denn Datenqualität lässt sich nicht predigen, ohne sie zu gewährleisten. Manchmal ist das, was man vor der Zeit herbeizwingen will, eben nicht gut genug.

Nach diesem - wie angekündigt - länglichem Kommentar möchte ich der Frage “Was will der eigentlich?” mit drei “Take-home-messages” begegnen (habe ich mir bei Klaus Tochtermann abgeguckt).

1. Wir benötigen dringend einen einheitlichen Datenpool, der aus divergenten Systemen gespeist wird (nein, damit meine ich weder den WorldCat noch eine Alma Monokultur). Vielleicht führt die CIB-Bauchlandung zu einem Umdenken, aber es herrscht noch viel klein-klein.

2. Wir, also das Bibliothekswesen, müssen massiv Entwicklung betreiben, diese Daten besser arbeiten zu lassen. Das bedeutet die Schaffung von Automatismen zu Generierung und Manipulierung dieser Daten, die dann auch ganz anders im Semantic Web präsent sein könnten.

3. Wir dürfen auf keinen Fall vorschnell Qualität über Bord werfen und mit halbgaren Ergebnissen aufwarten. Selbst, wenn die aufwändige, teilweise Tool-gestützte intellektuelle Erschließung noch eine Zeitlang gängige Praxis bliebe. Ich will diesen Digitalen Assistenten und ähnliche verdienstvolle Werkzeuge ja gar nicht verteufeln, denn sie sind - momentan - schlicht ... zeitgemäß.

Thomas Kees
#14
Heidrun Wiesenmüller (Dienstag, 08 August 2017 07:40)

Liebe Kolleginnen, liebe Kollegen,

dieser Blogbeitrag scheint sich zu einem echten Rekordhalter zu entwickeln: Die Jimdo-Statistik zeigt mir dafür nunmehr 2.359 Besucher mit 2.927 Seitenaufrufen an (bis einschließlich gestern). Wow! Auch die Zahl der Kommentare ist beachtlich, und Thomas Kees hat hier nun auch noch einen Rekord für den längsten aufgestellt - davor hatten die 5.000 Zeichen immer gereicht... Lieber Thomas, vielen Dank für Deinen sehr lesens- und bedenkenswerten Beitrag! Man sieht jedenfalls, wieviel Diskussionsbedarf bei diesem Thema herrscht.

Viele Grüße
Heidrun Wiesenmüller
#15
Jakob Voß (Dienstag, 08 August 2017 10:49)

Vielen Dank für die Take-home-messages, denen ich mich anschließen kann.

1. Einheitlicher Datenpool: Ja, allerdings sehe ich nicht das der mittelfristig aus dem Bibliothekswesen kommt. Der Gesamtkatalog von GBV + BSZ kommt ja grade erst und dann müssten noch die anderen Verbünde und die DNB mit ins Boot. Es sind ja nicht technische sondern "politische" Gründe, warum wir nicht schon längst einen deutschlandweiten Verbundkatalog haben. Deshalb tippe ich eher auf einen Datenpool von außerhalb des Bibliothekswesens. Oder es tut sich ja noch was bei WorldCat.

2. Es hat sich ja schon viel in Richtung (Linked) Open Data aus Bibliotheken getan, die Entwicklung muss weiter vorangetrieben werden. Bislang stellen leider nicht alle Verbünde ihre Katalogdaten in einem einheitlichen Format als aktuelle Dumps zur Verfügung. Selbst wenn endlich alle Daten so verfügbar wären, dass sie algorithmisch ausgewertet und angereichert werden können, stellt sich die Frage wie Korrekturen und Ergänzungen zurückfließen (wieder Punkt 1).

3. Tools zur halbautomatischen Erschließung sind der beste Weg. Ich kann den Einsatz vollautomatische Verfahren allerdings nachvollziehen. Was die Qualität betrifft fehlt es aus meiner Sicht an klaren Zielen, die mit der Sacherschließung eigentlich erreicht werden sollen. Die beste Precision ist sicher nur durch Autopsie erreichbar, dafür ist in einigen Discovery-Systemen aber der Recall mangels Erschließungsdaten so schlecht, dass die Sacherschließung überhaupt nicht mehr zum Retrieval genutzt werden kann.
#16
Dr. Kai Multhaup (Dienstag, 08 August 2017 12:50)

Was für'n Debakel. Die DNB schmeißt nach über zehn Jahren die DDC weg? Die Kurznotationen und DDC-Sachgruppen sind ja wohl kein ersnthafter Ersatz für die Tiefenerschließeung. Ich gehe doch davon aus, dass in den Kurznotationen die T2-Hilfstafel nicht mehr ordentlich zum Einsatz kommt. Dabei kann man doch gerade mit T2 und dem DDC-Search-Tool sehr schön hierarchisch nach Titeln mit Regionalbezug browsen.

Homogenität durch breite Absenkung der Qualität — wie "unbibliothekarisch".
#17
M. Lowisch (Dienstag, 08 August 2017 14:31)

Danke, Herr Multhaup, ich kann Ihnen da nur zustimmen. Wozu wurde die DDC überhaupt erst mit viel Bohai eingeführt? Ich erinnere mich noch, wie stolz die DNB die gedruckte Ausgabe der eigens voll übersetzten DDC präsentierte (Arbeitszeit für die vollständige Übersetzung: drei Jahre). Oder wie siehts aus mit CrissCross , dem Projekt, gefördert von der DFG, das unsere Normdaten mit DDC-Notationen anreicherte (Arbeitszeit: vier Jahre)? Viel vergeudete Manpower.
#18
Dr. Kai Multhaup (Dienstag, 08 August 2017 17:38)

Ich kann nur hoffen, dass WebDewey Search so wie es ist erhalten bleibt — als Repositorium eines regelrechtenen Schatzes an Notationen und Klassenbenennungen sowie als Suchwerkzeug in anderen Datenbanken neben DNB (z.B. GBV), deren internationale Titel ja auch über DDC auffindbar sind.
#19
Heidrun Wiesenmüller (Mittwoch, 09 August 2017 10:29)

Noch ein Nachtrag: Herr Ceynowa hat auch ein Interview im Radio gegeben, das man hier anhören kann (Achtung, langer Link):

<http://ondemand-mp3.dradio.de/file/dradio/2017/08/04/wenn_maschinen_buecher_lesen_klaus_ceynowa_bayerische_dlf_20170804_1740_e9f73315.mp3>

Am Ende bezeichnet die Journalistin übrigens die BSB als "Bayerische Nationalbibliothek" und greift damit unwissentlich das "Wir alle sind Nationalbibliothek" von Herrn Ceynowa auf.

Viele Grüße
Heidrun Wiesenmüller
#20
Margit Sandner (Mittwoch, 09 August 2017 16:19)

Liebe SE-Community, der lange Link funktioniert leider (bei mir ) nicht, aber dieser hier geht (trotz des Schreibfehlers im Interview-Titel ;-) ganz gut auf:

Wenn Maschinen Bücher lesen - Klaus Ceynowa, Bayerische Staastbibliothek, i.Ges.

04.08.2017 | 7 Min. | Quelle: Deutschlandfunk
Autor: Fischer, Karin Sendung: Kultur heute
http://www.deutschlandfunk.de/kultur-heute.690.de.html
Hören bis: 10.02.2018 16:40

Herzliche Grüße aus Wien - Margit Sandner
#21
Joachim Michel (Donnerstag, 10 August 2017 11:21)

Vorbemerkung: Ich äußere hier eine Privatmeinung, die nicht notwendigerweise die Meinung meines Arbeitgebers ist.

Liebe Frau Wiesenmüller,
ich beziehe mich hier auf Ihren Kommentar #7 zu Ihrem eigenen Blogbeitrag.
Auch ich habe schon so (witzige) maschinelle Ergebnis wie die Verwechslung des Unternehmens "Wismut" mit dem chemischen Element "Bismut" beobachtet. Wer zum Beispiel umfangreiche Arbeitspapierserien (working papers) maschinell beschlagwortet, der oder die muss sich nicht wundern, wenn bei ersten Testläufen das Ergebnis "Papierindustrie" herauskommt.
Lösung:
Meine persönliche Meinung ist, dass man bei maschineller terminologischer Indexierung zusätzlich intellektuell klassifizieren sollte. Im Fall der Firma "Wismut" muss ein Mensch der Maschine mitteilen, dass sie keine Begriffe aus der "Chemie" verwenden soll, sondern ausschließlich nur Begriffe aus dem Bereich "Wirtschaft" und "Umwelt" heranziehen soll. Ein Publikation intellektuell mit Kurznotationen zu versehen geht viel schneller als wenn der Mensch die Publikation komplett "allein" beschlagworten muss.
Wenn allerdings sowohl die Notationen als auch die Begriffe maschinell indexiert werden, dann muss man sich nicht wundern wenn zukünftige Nutzerinnen ganz viel Treffer beim Schlagwort "Papierindustrie" finden ;-)
#22
Heidrun Wiesenmüller (Donnerstag, 10 August 2017 21:26)

Lieber Herr Michel,

vielen Dank für Ihren Kommentar! Ja, für die maschinelle Indexierung wäre es in der Tat ein großer Vorteil, wenn das Fachgebiet des Dokuments bekannt wäre.

Die DNB hat dafür, soweit ich weiß, auch eine Idee auf der Basis ihrer maschinellen Verfahren entwickelt, nämlich die Ermittlung eines sogenannten "Fingerprint" für jedes Dokument. In der Präsentation von Frau Mödden (http://tinyurl.com/yc25jdcw) sieht man das auf Folie 25-27. Wenn ich es recht verstanden habe, sollen aus den wichtigsten der maschinell vergebenen Schlagwörtern über die zugehörige GND-Systemstellen die wahrscheinliche(n) Sachgruppe(n) abgeleitet werden. So etwas könnte man dann vielleicht auch zum Ausfiltern unpassender Schlagwörter verwenden: Wenn z.B. beim Titel "Die Tennis-Bibel" nahezu alle maschinell generierten Schlagwörter aus dem Sportbereich kommen und nur eins aus der Theologie, dann spricht das dafür, dass da irgendwas nicht stimmt, und ein solches Schlagwört könnte unterdrückt werden. Allerdings ist dieses Verfahren in gewisser Weise zirkulär, weil ja die ermittelten Schlagwörter selbst die Basis darstellen (bei denen ja vielleicht nur die Hälfte einigermaßen passt).

Auf eine andere Möglichkeit, wie man maschinell die Fachzugehörigkeit eines Dokuments ermitteln könnte, hat mich vor kurzem der Vortrag von Frau Klein über freie Zitationsdaten und das Projekt "Linked Open Citation Database" gebracht, vgl. dazu meinen Blog-Beitrag "Eindrücke vom Bibliothekartag in Frankfurt (Teil 2)" (https://www.basiswissen-rda.de/bibliothekartag2017-teil-2/). Wenn man das Literaturverzeichnis eines Dokuments auswertet und die dort aufgeführten Titel auf entsprechende Katalogisate mit (ordentlicher) Sacherschließung mappen könnte, dann müsste sich doch daraus eigentlich sehr deutlich das Fachgebiet abzeichnen, oder?

Viele Grüße
Heidrun Wiesenmüller
#23
Margit Sandner (Freitag, 11 August 2017 12:20)

Das "Zirkuläre" an der künftigen SE kommt mir ein wenig so vor, wie das Gesellschaftsspiel "Stille Post" oder das homöopathische Verdünnungsprinzip. Ob in unserem Fall auch mit dem niedrigsten messbaren Wirkstoffanteil (an intellektueller Erschließung ;-) das heilsamste Verfahren zu erzielen sein wird ?
Werden es dann die erschlossenen Medien sein, die eine - bei solcher Medikation übliche - heftige Erstverschlimmerung durchmachen müssen, bevor ausreichend Selbstheilungskräfte aktiviert sind, um zu gesunden, oder die nach einem Thema recherchierenden Leserinnen und Leser, oder gar die wenigen verbleibenden bibliothekarischen Kopfarbeiter/-innen?

Noch ein Aspekt, ein weniger launischer, aber eine Koinzidenz, auf die mich kürzlich ausgerechnet ein Pharmazeut (!) aufmerksam gemacht hat.
In den Naturwissenschaften gehe man mehr und mehr davon ab, präzise Titel zu vergeben. Die Tendenz (von Verlagen) gehe hier neuerdings auch zu "attraktiveren" Formulierungen.
Wenn dem so ist, treffen hier zum ungünstigsten Zeitpunkt zwei aufeinander wirkende Veränderungen zusammen!
Do the right thing and do it to the right time ...

Von meiner Seite ist das in den nächsten Tagen ein wenig Urlaub.
Danke an Frau Wiesenmüller und an alle, die sich beim öffentlichen Mitdenken engagieren!
Herzliche Grüße aus Wien - Margit Sandner
#24
Heidrun Wiesenmüller (Montag, 14 August 2017 08:30)

Ich bin gerade auf dieses schöne (oder eher: erschreckende) Beispiel hingewiesen worden, das ich Ihnen nicht vorenthalten möchte: Die Broschüre "Provenienzgeschichten : Gemäldegalerie Alte Meister Schloss Wilhelmshöhe".

Es handelt es sich um eine besondere Art von Führer durch diese Kasseler Galerie mit einem Schwerpunkt auf der Provenienz der Bilder (vgl. http://museum-kassel.de/de/forschung-und-sammlungen/forschungsprojekte/provenienzgeschichten).

Die DNB (http://d-nb.info/1136337318) hat maschinell vergeben:
- Geschoss <Bauwesen>
- Meister
- Gemäldegalerie
- Spanisch

In HeBIS findet man auch eine Aufnahme (http://orsprod.rz.uni-frankfurt.de/DB=2.1/PPNSET?PPN=40455556X), die übrigens auch in der Formalerschließung besser als die der DNB ist, mit den folgenden Schlagwörtern:
- Kassel
- Gemäldegalerie Alte Meister Kassel
- Provenienzforschung

Sieht man sich die Verschlagwortung bei der DNB näher an, so muss man konstatieren:

1. Die Averbis-Software scheitert an Routineaufgaben.

Weder wurde aus dem Titelwort "Provenienzgeschichten" das Schlagwort "Provenienz" (bzw. dessen Ansetzungsform "Herkunft") extrahiert noch wurde die Körperschaft erkannt - und dies, obwohl die im Titel genannte Form "Gemäldegalerie Alte Meister Schloss Wilhelmshöhe" in der GND als Verweisungsform erfasst ist. Damit sind die beiden zentralen Aspekte des Inhalts nicht erkannt, und man kann nur sagen: Thema verfehlt!

2. Von "künstlicher Intelligenz" ist nichts zu bemerken; die Maschine ist und bleibt "dumm".

Ein Blick ins Inhaltsverzeichnis (http://d-nb.info/1136337318/04) macht klar, woher das Schlagwort "Geschoss <Bauwesen>" kommt: Das Heft ist nach den drei Etagen der Galerie angeordnet, weshalb das Wort "Etage" in den Kapitelüberschriften dreimal vorkommt. Ein Mensch versteht sofort, dass "Etage" hier nicht das Thema ist, sondern eine ganz andere Funktion hat - hingegen kann die Maschine dies nicht interpretieren. Menschen wissen auch, dass Formulierungen wie "Altdeutsche, Italienische, Französische und Spanische Meister" auf Gemälde hinweisen. Die Software kann dieser ihrer Wissensbasis (dem auf der GND beruhenden Wörterbuch) nicht entnehmen und extrahiert stattdessen die Sachschlagwörter "Meister" und "Spanisch".

3. Eingescannte Inhaltsverzeichnisse sind keine ausreichende Basis, um darauf eine maschinelle Verschlagwortung aufzusetzen.

Sicher sind nicht alle Inhaltsverzeichnisse so wenig aussagekräftig wie das aus dem vorliegenden Beispiel, aber vielfach werden ähnliche Probleme auftauchen. Sich alleine auf Inhaltsverzeichnisse stützen, halte ich deshalb für unverantwortlich. Es müssten zumindest noch etwaige Einleitungen sowie einige Beispielseiten aus dem Haupttext eingescannt werden.
Es sei auch daran erinnert, dass die oben geschilderten Ergebnisse aus der Studie von 2013 sich auf digital vorliegende Ressourcen beziehen. Bei Printmaterialien, die auf der Basis von eingescannten Inhaltsverzeichnissen bearbeitet werden, ist mit einer deutlich schlechteren Qualität zu rechnen.
#25
Dr. Klaus Ceynowa (Montag, 21 August 2017 10:48)

Die Diskussion um die künftige Gestalt der Inhaltserschließung in der Deutschen Nationalbibliografie wird aktuell intensiv weitergeführt - und dies ist auch gut so.

Letzte Beiträge hierzu sind der auf der Website der DNB eingestellte Artikel von Ulrike Junger und Ute Schwens "Die inhaltliche Erschließung des schriftlichen kulturellen Erbes auf dem Weg in die Zukunft" (http://www.dnb.de/SharedDocs/Downloads/DE/DNB/inhaltserschliessung/automatischeInhaltserschliessung.pdf?__blob=publicationFile) und ein am 17.08. von Frau Schwens im Deutschlandradio gegebenes Interview ("Mehr und bessere Information - Ute Schwens zur maschinellen Texterschließungs" s. http://www.deutschlandfunk.de/kultur-heute.690.de.html?drbm:date=2017-08-17).

Um Vorabfestlegungen in diesem Diskussionsprozess zu vermeiden, hat die Bayerische Staatsbibliothek als Mitglied im Standardisierungsausschuss (StA) bereits jetzt einen Beschlussantrag für die kommende Sitzung des Ausschusses gestellt, den ich gern mit den Beiträgern dieses Blogs teilen möchte:

Bayerische Staatsbibliothek

Antrag an den Standardisierungsausschuss zur 32. Sitzung am 08.12.17
auf Beschlussfassung zum Thema „Inhaltliche Erschließung in der DNB“

Die Bayerische Staatsbibliothek beantragt, den in der 31. Sitzung des StA nur kurz behandelten Tagesordnungspunkt „Erschließungskonzept der DNB und der deutschen Bibliotheksverbünde“ erneut auf die Tagesordnung zu setzen. Infolge der gegenüber den Usualitäten des StA verspäteten Einreichung der Sitzungsunterlage „Erschließung als zyklischer Prozess: Zur Anpassung der DNB-Erschließungsleitlinien“ durch die DNB konnte die Diskussion im StA nur initialisiert, jedoch nicht in der gebotenen Ausführlichkeit geführt werden. Hierauf hat die Vorsitzende des StA ausdrücklich hingewiesen.

Angesichts der Konsequenzen der Planungen der DNB für die Datenbezieher darf sich die weitere Diskussion nicht nur auf Verfahrensvorschläge und -fragen richten, sondern sollte die grundsätzliche Ausrichtung der künftigen Inhaltserschließung in den Blick nehmen, sofern diese kooperativ erfolgen soll.

Für die kommende Sitzung stellt die Bayerische Staatsbibliothek bereits jetzt folgenden Beschlussantrag, auch um angesichts der gegenwärtig außerhalb des StA intensiv geführten Diskussion Vorabfestlegungen zu vermeiden. Die Beschlussfassung zu ihrem Antrag soll erst nach der Diskussion auf der nächsten StA-Sitzung erfolgen und nicht vorab im Umlaufverfahren.

Der Standardisierungsausschuss möge beschließen:

1. Die DNB möge einen detaillierten und zeitlich belastbaren Terminplan für Ihre Umstellungs-pläne von einer intellektuellen auf eine automatische Inhaltserschließung für die Reihen B, H und A der Deutschen Nationalbibliografie vorlegen.
2. Die DNB möge eine detaillierte, statistisch aussagekräftige Analyse zur Qualität der von ihr eingesetzten Verfahren der automatischen Inhaltserschließung vorlegen, inklusive einer begründeten Prognose zu den Optionen der zukünftigen Weiterentwicklung, Optimierung und Nachnutzbarkeit dieser Verfahren (die letzten publizierten Aussagen der DNB hierzu stammen aus dem Jahr 2013).
3. Die DNB will künftig Erschließung als „zyklischen Prozess“ betrachten, „bei dem Erschlie-ßungsdaten immer wieder verändert und aktualisiert werden.“ Auf Seiten der Datenbezieher bedeutet dies anspruchsvolle Synchronisationsprozesse und komplexe Datenabgleiche, deren Probleme in der Stellungnahme der SBB zu „Grundzüge und erste Schritte der künftigen inhaltlichen Erschließung von Publikationen in der Deutschen Nationalbibliothek“ prägnant beschrieben werden. Die DNB möge ein detailliertes technisches und organisatorisches Konzept vorlegen, das die Herausforderungen des Modells einer zyklischen Erschließung für die Lieferung, den Bezug, die Aktualisierung und die Pflege der Daten beschreibt.
4. Die DNB möge darlegen, wie die Vergabe neuer GND-Schlagwörter unter den Bedingungen einer automatischen Inhaltserschließung erfolgen soll.
5. Die DNB möge darlegen, was ihre Pläne motiviert, die Vergabe vollständiger DDC-Notationen zugunsten sogenannter DDC-Kurznotationen aufzugeben.
6. Das Vorhaben der DNB, die automatische Inhaltserschließung der Reihen B und H und mittelfristig der Reihe A einzuführen, ist bis auf Weiteres auszusetzen, und zwar bis zur Klärung der unter Punkt 1. bis 5. aufgeworfenen Fragen und ggf. der Konsentierung eines im deutschen Bibliothekssystem abzustimmenden Modells „kooperativer Erschließungsprozesse“ in der Deutschen Nationalbibliografie.

München, 2017-08-20
#26
Heidrun Wiesenmüller (Montag, 21 August 2017 11:44)

Lieber Herr Ceyonaw,

ganz herzlichen Dank für Ihr Posting und die Veröffentlichung des Antrags der BSB an den STA!

Das neue DNB-Papier (http://www.dnb.de/SharedDocs/Downloads/DE/DNB/inhaltserschliessung/automatischeInhaltserschliessung.pdf) habe ich am Wochenende auch studiert. Ich kommentiere einige interessante Punkte:

S. 1: Die DNB "steht dabei im regelmäßigen kollegialen Austausch mit anderen Bibliotheken, die sich ebenfalls aktiv mit dieser Fragestellung befassen, sowie mit europäischen Nationalbibliotheken, die ihrerseits Interesse an dem Thema und den Erfahrungen der DNB haben."

Sicher ist ein Austausch unter den Nationalbibliotheken sowie unter Bibliotheken, die aktiv an maschinellen und halbmaschinellen Methoden arbeiten, sehr nützlich. Jedoch wäre es gut, wenn der kollegiale Austausch noch weiter greifen und auch die ganz "normalen" Bibliotheken als Nutzer von DNB-Daten mit einbeziehen würde.

S. 3: "Dabei sollen die Verfahren erst dann und nur in den Fachgebieten eingesetzt werden, in denen gute Ergebnisse erzielt werden können, und wenn die DNB davon überzeugt ist, dass die so erzeugten Daten ein entsprechendes Qualitätsniveau erreicht haben und die Fehlerquote gering ist. Die DNB baut daher ein Qualitätsmanagement auf, das auch die intellektuelle Kontrolle von Verfahren und Ergebnissen beinhaltet, und wird das Vorgehen für Datenbezieher sowie Nutzerinnen und Nutzer transparent machen."

Es wäre gut gewesen, schon zu einem deutlich vor dem Beginn der Auslieferung maschinell erstellter Schlagwörter liegenden Zeitpunkt eine transparente und aktuelle Darstellung der derzeitig lieferbaren Qualität zu veröffentlichen, die auf einer stabilen Datenbasis beruht. Nötig wäre eine Gegenüberstellung der Ergebnisse der maschinellen Erschließung mit denen einer intellektuellen für ein ausreichend großes Vergleichskorpus. Dabei ist auch das Fehlen von Schlagwörtern für wichtige Aspekte zu berücksichtigen - auch dies sind "Fehler".

Ich würde die Fehlerquote derzeit (insbesondere bei Printpublikationen, die auf Basis der Inhaltsverzeichnisse bearbeitet werden) sicher nicht als "gering" bezeichnen, aber das ist natürlich mein subjektiver Eindruck.

S. 3f.: "Selbst wenn eine intellektuelle Erschließung im Einzelfall ein besseres Ergebnis liefern könnte als die automatische, so stellt doch die Inhaltserschließung aller Medienwerke einen Gewinn für die Recherche der Nutzerinnen und Nutzer dar. Thematische Recherchen werden insgesamt verbessert, weil ein viel größerer Anteil an Publikationen erschlossen werden kann. Es wird möglich sein, ein Desiderat (...) zu erfüllen, nämlich die thematische Suche auch nach Zeitschriftenartikeln und Conference-Proceedings."

Kann man wirklich sagen, dass die intellektuelle Erschließung nur möglicherweise ("Selbst wenn ...) und "im Einzelfall" bessere Ergebnisse liefert?

Mir hat sich außerdem die Logik insgesamt noch nicht erschlossen: Natürlich ist es bei einer einigermaßen passablen Qualität positiv, wenn Dinge, die früher überhaupt nicht erschlossen wurden, jetzt zumindst maschinell verarbeitet werden können. Aber dies heißt doch nicht zwangsläufig, dass man die intellektuelle Erschließung ganz aufgeben muss, oder? Man könnte doch einen Kernbestand besonders wichtiger Materialien weiterhin intellektuell erschließen und zusätzlich weitere Materialien maschinell.

S. 4: "Eine intellektuelle Erschließung wird künftig weiterhin für Publikationen derjenigen Fachgebiete vorgenommen, für die automatische Verfahren (noch) keine zufriedenstellenden Ergebnisse liefern."

Angesichts dieser (sehr erfreulichen) Selbstverpflichtung verwundert es ein bisschen, dass der Einsatz der maschinellen Erschließung relativ undifferenziert (nur nach den Reihen) vorgenommen werden soll. Müssten hier nicht auch Differenzierungen nach Sachgruppen oder der Brauchbarkeit des Inhaltsverzeichnisses für die maschinelle Bearbeitung getroffen werden?

Insgesamt zeigt sich hier ein sehr großer Optimismus: Es gilt als bloße Frage der Zeit bis zu einer "zufriedenstellenden" maschinellen Sacherschließung. Ich persönlich glaube jedoch, dass Verfahren wie das von Averbis von seiner Anlage her niemals in die Nähe echten Textverstehens kommen werden. Auch die vielzitierte "künstliche Intelligenz" (maschinelles Lernen und Big Data) ist nach meinem Eindruck nur für bestimmte Dinge gut, z.B. für das Erkennen von Mustern (Krebsanalyse, Aktienhandel etc.). Ein reiner Vergleich eines neuen Dokuments mit bestehenden Dokumenten wird aber insbesondere dann nicht genügen, wenn in Texten neue Gedanken formuliert werden. Ich persönlich glaube, dass ein künstliches "echtes" Textverständnis viel komplexer ist als z.B. autonomes Autoverfahren. Aber vielleicht werden mich die Entwicklungen der nächsten 10, 20 Jahre ja eines Besseren belehren.
#27
Regine Beckmann (Montag, 21 August 2017 12:23)

Hier als Ergänzung der Diskussion der Link zu einem Radiointerview im Deutschlandfunk vom 19.8. mit dem Ständigen Vertreter der Generaldirektorin der Staatsbibliothek zu Berlin, Herrn Altenhöner: http://www.deutschlandfunkkultur.de/staatsbibliothek-zu-berlin-wird-modernisiert-maschinen.1008.de.html?dram:article_id=393857
#28
Manfred Weber (Dienstag, 22 August 2017 11:15)

Ich möchte in diesem Kontext doch noch auf die Bedeutung der GND hinweisen, die im Kommentar Nr 8 von Frau Wiesenmüller kurz angesprochen wurde.

In den Strategischen Prioritäten 2017-2020 der Deutschen Nationalbibliothek heißt es auf Seite 9 (Erschließung aller gesammelten Medienwerke): "Wichtiges Fundament aller Erschließungsprozesse ist die Nutzung der Gemeinsamen Normdatei"; und auf Seite 14 (Gemeinsame Normdatei): "Die kooperativ gepflegten Normdaten bilden das verlässliche Rückgrat für den Aufbau eines semantischen Kulturdatennetzes. Denn sie verbinden die Bestände und Datenbanken einer Vielzahl von Kultureinrichtungen miteinander. Aktuell ist die Gemeinsame Normdatei allerdings noch immer stark auf die Anwendung im Bibliothekswesen spezialisiert und organisatorisch wie technisch noch nicht auf eine Erweiterung im großen Stil vorbereitet. Dies zu ändern und die Öffnung und den Ausbau der GND voranzutreiben, ist das Leitthema dieses Strategiezyklus."

Die DNB ist nach wie vor der größte Produzent von GND-Sätzen:
2016 waren 1.515.271 von insgesamt 2.394.418 Sätzen (= 63,3 %;
vgl. Jahresbericht 2016 der DNB, S. 51). Gerade in der Normdatenarbeit steckt doch die meiste Manpower.

Ich bin nicht so optimistisch wie Frau Wiesenmüller, dass dieses Ziel mit der Einführung der automatischen Erschließung umzusetzen sein wird.
Die automatische Erschließung soll zwar mit Schlagwörtern aus der GND erfolgen, ich kann mir aber nicht vorstellen, dass mit diesem Verfahren bei der DNB weiterhin oder gar mehr neue GND-Sätze bearbeitet werden.

Ich denke, obwohl die DNB die GND-Arbeit in ihren Planungen priorisiert, wird die Anzahl ihrer Neuanmeldungen zurück gehen. Das können m.E. die Verbünde der
D-A-CH-Community nicht auffangen.
#29
Margit Sandner (Dienstag, 22 August 2017 16:44)

In Fortführung des Kommentars 26 von Frau Wiesenmüller:
... und speziell zu dem Passus:

S. 3f.: "/... / Thematische Recherchen werden insgesamt verbessert, weil ein viel größerer Anteil an Publikationen erschlossen werden kann. /.../ "

Die Menge allein bewirkt doch noch keine Verbesserung für thematische Recherchen, schon gar nicht eine Gesamtverbesserung. Nur die Menge RICHTIG erschlossener, also mit den für den jeweiligen Inhalt zutreffenden - verbalen und/oder klassifikatorischen - Deskriptoren erschlossener, Publikationen kann dies erzielen.

Ist es nicht ein bisschen so wie in der Musik?
Gut klingt sie nicht, weil im Orchester möglichst viele Geräusche erzeugt werden sondern, weil möglichst alle Mitwirkenden (seien es viele oder wenige) richtig [zusammen-]spielen. Hingegen genügen schon recht wenige falsche Töne, um eine Melodie zu verfälschen oder ein Konzert zu verderben.

Nachsatz:
(eben habe ich auch das Interview von Herrn Altenhöner nachgehört)

Hier geht es nicht um die Angst vor einem Sprung in unbekannte Gewässer, auch nicht um Scheu vor Innovation! Hauptgrund für das jetzt so deutlich spürbare Unbehagen in der Community ist m. E. der Zeitdruck. Wir alle befürchten doch, dass die gewiss gut konzipierten Prüfverfahren und daraus zu erhoffenden Korrektive bis 1. September 2017 einfach noch nicht ausgereift genug sein können, um einen akzeptablen Qualitätsstandard zu sichern. - Es ist beinahe Ende August ... 2017 ... !
#30
Katherina Steffen (Freitag, 25 August 2017 19:04)

Ich habe eine Verständnisfrage zu der ganzen Diskussion: derzeit kommen auf einen Datensatz eines selbstständigen Druckwerks im GVK ca. 1-3 digitale Doubletten desselben Werkes - sie mögen nicht völlig gleich sein, aber doch gleich genug, als dass man die intellektuelle inhaltliche Erschließung entweder einfach auf die digitalen Zwillinge und Drillinge übertragen könnte (dies gerne maschinell!) - oder man spart sich auch weiterhin die Verlinkung und Anreicherung, nicht weil diese Publikationen weniger wichtiger wären, sondern weil der Nutzer bei einer Recherche doch vermutlich alle Datensätze sieht und sich bei dem erschlossenen Datensatz über genau Inhalte informieren kann? (Dies Verfahren könnte über einen einfachen Hinweistext in den OPAC's erklärt werden.)

Ändern müsste sich dann nur das Filterverfahren, nachdem Benutzer oft nur nach digitalen Daten suchen und dann natürlich nicht die Erschließung sehen können. Man müsste dann z.B. ein Verfahren entwickeln, in dem die inhaltliche Erschließung automatisch bei allen Doubletten sichtbar wird - etwas in der Art. Dann blieben nur die reinen Onlinepublikationen übrig, um die man sich genauso wie um die Printpublikationen kümmern müsste.

Das ist sicherlich auch nicht in einem Handstreich einzurichten, aber ehe man deswegen ganz auf intellektuelle Beschlagwortung verzichtet - vermutlich gibt es irgend einen Grund, den ich übersehe, warum dieser Idee niemand nachgeht?
#31
Heidrun Wiesenmüller (Samstag, 26 August 2017 16:16)

Liebe Frau Steffen,

ganz neu ist diese Idee nicht. Mir sind zwei Anwendungsbeispiele bekannt:

1. Automatisches Zuspielen von Sacherschließungsinformationen von der Printausgabe an die zugehörige E-Book-Ausgabe. Dies wird beispielsweise im SWB in regelmäßigen Abständen gemacht. Der Abgleich erfolgt dabei, soweit ich weiß, einfach über die ISBN der E-Book-Ausgabe (die auch in einem bestimmten Feld bei der Druckausgabe gehalten wird).

2. "Methode Pfeffer": Dahinter steckt ein (simpler, aber gut funktionierender) Algorithmus zum Clustern aller Manifestationen eines Werks. Innerhalb eines solchen Clusters können dann Sacherschließungsinformationen ausgetauscht werden. Wenn z.B. eine Manifestation RSWK hat, eine andere RVK und eine dritte gar keine Sacherschließung, so haben dann nach dem entsprechenden Abgleich alle drei Manifestationen sowohl RSWK als auch RVK. Über diese Methode sind große Mengen von Sacherschließungsinformationen u.a. im SWB und im B3Kat angereichert worden. Für Details vgl. diese Präsentationen/Publikationen von Magnus Pfeffer:
https://de.slideshare.net/MagnusPfeffer/2012-gfkl
https://de.slideshare.net/MagnusPfeffer/pfeffer-clustering
https://doi.org/10.1007/978-3-319-01595-8_47 (auch über ResearchGate verfügbar)

Viele Grüße
Heidrun Wiesenmüller
#32
Heidrun Wiesenmüller (Freitag, 01 September 2017 07:53)

Gestern hat auch das Börsenblatt berichtet: "Was Maschinen können und was nicht".

Hier der Link: https://www.boersenblatt.net/artikel-automatisierte_inhaltserschliessung_in_der_deutschen_nationalbibliothek.1361205.html
Falls es damit Schwierigkeiten geben sollte, alternativ noch eine TinyURL:
http://tinyurl.com/y7utm3lv

Viele Grüße
Heidrun Wiesenmüller
#33
Dr. Klaus Ceynowa (Montag, 04 September 2017 15:31)

Der von Frau Wiesenmüller in Kommentar #32 genannte Beitrag im Börsenblatt „Was Maschinen können und was nicht“ enthält einige Aussagen, die Mitarbeitern der DNB direkt zugeschrieben werden.

Ebenfalls einschlägig ist das Mitte August auf der Website der DNB veröffentlichte 4-seitige Positionspapier von Ulrike Junger und Ute Schwens „Die inhaltliche Erschließung des schriftlichen kulturellen Erbes auf dem Weg in die Zukunft. Automatische Vergabe von Schlagwörtern in der Deutschen Nationalbibliothek“ http://www.dnb.de/SharedDocs/Downloads/DE/DNB/inhaltserschliessung/automatischeInhaltserschliessung.pdf?__blob=publicationFile (s. auch mein Kommentar #25)

Beide Veröffentlichungen fügen der bisherigen Diskussion weitere Facetten hinzu. Aufgefallen sind mir insbesondere folgende Punkte:

1. Fristen, Form und Umfang der geplanten Ausweitung der automatischen Inhaltserschließung auf die Reihe A sind nun nahezu komplett verunklärt. Im Börsenblatt heißt es: „Ein wichtiger Bereich bleibt zunächst von der algorithmischen Schlagwortvergabe ausgenommen: die Bücher und Zeitschriften aus der Produktion der Verlage (Reihe A). Diese werden zunächst weiterhin intellektuell erschloßen – durch die Vergabe von Schlagwörtern aus der Gemeinsamen Normdatei. Wie ‚entwicklungsfähig’ das computerlinguistische Verfahren ist, bleibt abzuwarten.“ Ist das nun Signal eines zumindest vorläufigen Rückzugs?
Wohl eher nicht. Denn im neuen Positionspapier heißt es unmissverständlich: Die DNB „beabsichtigt, perpektivisch alle eingehenden Publikationen einheitlich inhaltlich zu erschließen und mit thematischen Zugriffspunkten auszustatten.“ „Einheitlich“ meint hier „über maschinelle Verfahren“, wie im Satz zuvor explizit formuliert wird. Zudem wird im neuen Papier keinerlei Relativierung mit Bezug auf das „Grundzüge“-Positionspapier vom 18. Mai 2017 vorgenommen, wo es ohne jede Einschränkung heißt: „Konkret bedeutet das, dass die DNB in diesem Jahr damit beginnt, neben der maschinellen Bearbeitung von digitalen Publikationen auch für die inhaltliche Erschließung gedruckter Publikationen standardmäßig (!) automatische Verfahren einzusetzen.“
Am Rande des diesjährigen Bibliothekartages äußerte sich Elisabeth Mödden, die den Bereich „Automatische Inhaltserschließung“ federführend betreut, dahingehend, dass ab 2018 auch circa 25% der Reihe-A-Titel nur noch maschinell sachlich erschlossen werden, und zwar die, für die eine elektronische Parallelausgabe im Volltext vorliegt. Für die 75% der Reihe-A-Titel, die nur in Print vorliegen, solle es einen fließenden Übergang geben, der wohl innerhalb der kommenden 5 Jahre zum Abschluss kommen soll.
Sachlich ist aber ohnehin klar, dass der von der DNB erhoffte Ressourcengewinn überhaupt nur dann kassiert werden kann, wenn absehbar auch die Reihe A komplett von der intellektuellen auf die automatische Inhaltserschließung umgestellt wird.
2. Massive Inkonsistenzen finden sich bei der Beschreibung der Pflege und Weiterentwicklung der GND. Im Börsenblatt-Artikel heißt es hierzu: „Die verwendeten Schlagwörter stammen aus der ebenfalls für die Nationalbibliografie genutzten Gemeinsamen Normdatei (GND), die ihrerseits nur intellektuell, das heißt also von wissenschaftlichen Mitarbeitern aufgebaut und erweitert wird. Je besser die entsprechend gepflegte Normdatei ist, desto höher – so die Erwartung des Teams um Elisabeth Mödden – ist der Anteil der gut nachnutzbaren Erschließungsergebnisse bei den maschinellen Verfahren.“ Im neuen DNB-Positionspapier hingegen ist die Pflege der GND wie selbstverständlich Teil der automatischen Verfahren (und an dieser Stelle wird dies auch erstmalig so klar gesagt): Es „wird ein GND-Pflegetool entwickelt, das im Laufe des Prozesses der maschinellen Erschließung Schlagwortkandidaten für die GND vorschlägt, die dann in die GND eingearbeitet werden.“ Ein intellektueller Beitrag erfolgt im Bedarfsfall im Nachgang, immer bezogen auf das algorithmisch Vorgeschlagene: „Dafür ist die Expertise der Bibliothekarinnen und Bibliothekare auch weiterhin unerläßlich.“
3. Im neuen Positionspapier findet sich ein (exakt 1) Satz, der in eine neue, bisher nicht diskutierte Richtung zu deuten scheint: „Eine intellektuelle Erschließung wird künftig weiterhin für Publikationen derjenigen Fachgebiete vorgenommen, für die automatische Verfahren (noch) keine zufriedenstellenden Ergebnisse liefern.“ Was bedeutet hier konkret „Fachgebiete“? Sollte es sich hierbei um die Idee einer auch weiterhin primär intellektuellen Erschließung der wissenschaftlich relevanten Publikationen (seien sie gedruckt oder digital) der bedeutenden und einschlägigen deutschen Fachverlage handeln, wäre das in der Tat ein sehr diskussionswürdiger Ansatz. Nähere Erläuterungen seitens der DNB zu diesem Statement gibt es nicht.

- Fortsetzung in Kommentar #34 -
#34
Dr. Klaus Ceynowa (Montag, 04 September 2017 15:50)

Fortsetzung zu Kommentar #33 von Klaus Ceynowa:

4. Zur Frage der Brauchbarkeit automatischer Erschließungsdaten lässt sich aus dem Börsenblatt-Beitrag zumindest ein Satz extrahieren: „Natürlich ist man sich in Frankfurt der Grenzen des eigenen Tuns bewusst: Rund 20 Prozent der automatisch vergebenen Schlagwörter sind noch falsch, und die Präzision der Verschlagwortung hängt in hohem Maße von der Eindeutigkeit des Fachvokabulars ab.“ Wie aber steht dies zur letzten, etwas umfassenderen Qualitätsanalyse der DNB von 2013 (Beitrag von Sandro Uhlmann in „Dialog mit Bibliotheken“), wo man nachlesen kann, dass 50% der algorithmisch generierten Schlagwörter „wenig nützlich“ oder schlicht „falsch“ sind. Sind zu den jetzt gemeldeten 20% „falschen“ Daten die 30% „wenig nützlichen“ hinzuzurechnen (also keinerlei Fortschritt gegenüber 2013), oder hat zwischenzeitlich eine Reduktion von 50% nicht brauchbaren Daten auf nun nur noch 20% stattgefunden (eine deutliche Optimierung gegenüber 2013). Dies zu wissen, wäre schon interessant.

Das Ziel meines Antrages an den Standardisierungsausschuss ist genau dies: hinsichtlich all dieser offenen Fragen klare, umfassende und belastbare Aussagen und Perspektiven seitens der DNB vorgestellt zu bekommen. Ein derartiges Konzeptpapier darf auch gern einmal 30 argumentierende Seiten umfassen, schließlich geht es um uns allen vertraute Fachfragen, deren Komplexität die bibliothekarische Community gut „aushalten“ kann.

Gegenwärtig sieht man sich stattdessen in eine geradezu textexegetische Übung hineingetrieben, um sich auf knappe, partiell inkonsistente und vage Texthappen (von der DNB als „Positionspapiere“ ausgeflaggt) einen Reim zu machen.

Man stelle sich vor, in vergleichbarer Manier würde etwa eine Kommunalbibliothek ihre Zielvereinbarungen und Mittelbedarfe im zuständigen Gemeindeausschuss kommunizieren – sie flöge in null-komma-nix und hohem Bogen aus dem Sitzungssaal. Für die Deutsche Nationalbibliothek aber scheint ein derartiges Vorgehen – knappste Positionspapiere, aus denen der Leser verzweifelt eine halbwegs konsistente Gedankenführung und Handlungslinie herauszuquetschen versucht – State of the Art zu sein. Dass man hiermit sowohl fachlich wie in der Außenwirkung dem Deutschen Bibliothekswesen Schaden zufügt, wird offenkundig nicht realisiert.

Aber vielleicht reden wir auch am eigentlichen Problem vorbei. Die DNB spricht oft und gern von ihrem „gesetzlichen Auftrag“. Bereits seit 1998 („DissOnline“) stellt sie sich (und das ist ihr hoch anzurechnen) dem Thema Online-Publikationen, und das Gesetz über die Deutsche Nationalbibliothek von 2006 ist maßgeblich durch die notwendige Einbeziehung von Netzpublikationen motiviert. Trotz dieses bald 20-jährigen „Vorlaufs“ und einer gesetzlich verankerten Pflicht- und Daueraufgabe im Rücken ist es den Verantwortlichen in der DNB aber offenbar nicht gelungen, einen nennenswerten Personalaufwuchs zur Bewältigung der neuen Aufgaben zu erreichen. Der Börsenblatt-Artikel spricht unter Berufung auf Ute Schwens, stellv. Generaldirektorin der DNB, explizit von einem „seit Jahren zurückgehenden Personalschlüssel“ und „einem immer kleiner werdenden Team.“ Wenn hier das Problem liegt, sollte es aber auch politisch traktiert werden, und nicht zu Entlastungshandlungen Anlass geben, wie sie im DNB-Papier „Erschließung als zyklischer Prozess“ mit Ideen einer nationalen „Umgebung für kooperative Erschließungsprozesse“ akzentuiert werden.
#35
Rita Albrecht (Dienstag, 05 September 2017 11:19)

Mich ärgert an der engagierten und wichtigen Diskussion über die Zukunft der Sacherschließung, dass dabei grundsätzlich zwischen Print- und Online-Ausgaben unterschieden wird und man den Eindruck gewinnen kann, bei Netzpublikationen sei die Sacherschließung nicht so wichtig oder durch maschinelle Verfahren längst gelöst. Doch das sind leider Fehleinschätzungen, weil:

1. die Zahl der Netzpublikationen rasant anwächst, wie die DNB selbst immer wieder verlautbaren lässt. Fakt ist, dass der größte Anteil der Erwerbungsetats wissenschaftlicher Bibliotheken für elektronische Ressourcen ausgegeben wird, nicht für Druckwerke. Diese Ressourcen benötigen für ihre Auffindbarkeit in den Benutzeroberflächen, für die Vernetzung mit anderen Daten und Informationen (Stichwort: Linked Data) eine ebenso sorgfältige Erschließung wie Druckwerke. Diese wird jedoch sowohl in der Formal- als auch in der Sacherschließung bei weitem nicht gewährleistet. Natürlich ist das bezogen auf eine einzelne Bibliothek ein Mengen-, Zeit- und Ressourcenproblem (viele Titel eines Paketes müssen innerhalb kürzester Zeit nachweisfähig gemacht werden), ich vermisse aber eine ernsthafte Diskussion um Konzepte für qualitative Verbesserungen in diesem Bereich.

2. wir derzeit noch davon profitieren, dass für viele E-Ressourcen (insbesondere E-Books) parallele Druckausgaben zur Verfügung stehen. Mithilfe dieser parallelen Druckausgaben gelingt es uns derzeit, die Qualität der Verlags- oder Autorenmetadaten punktuell zu verbessern. So ist es inzwischen sowohl in der DNB als auch in den Bibliotheksverbünden Standard, Sacherschließungsdaten von der Druckausgabe eines Buches an die Online-Ausgabe zu übertragen. Die DNB versucht auch, für in den Metadaten gelieferte Personen und Körperschaften GND-Verknüpfungen herzustellen, doch kann das aufgrund fehlender Informationen zur Herstellung von Eindeutigkeit nur in wenigen Fällen gelingen. In allen anderen Fällen werden die Verbunddatenbanken mit unnützen, automatisch erzeugten Tn7-Personennamensätzen überflutet (es gibt hier allerdings Signale aus der DNB, dass diese Praxis baldmöglichst beendet werden soll).

3. wir uns damit auseinandersetzen müssen, dass die Zeit von parallelen Druck- und Online-Ausgaben irgendwann vorbei sein könnte. Bei den e-Zeitschriften wurde uns das bereits eindringlich vor Augen geführt, bei E-Books gab und gibt es vereinzelte Tendenzen in diese Richtung; hier muss man die weitere Entwicklung abwarten. Die DNB lässt in ihren derzeitigen Verlautbarungen immer wieder durchblicken, dass bei Netzpublikationen die automatische Sacherschließung bereits langerprobte Übung sei. Das ist richtig, soweit das unter 2. beschriebene Übertragungsverfahren gemeint ist. Dazu kommt möglicherweise noch die automatische Herleitung einer DNB-Sachgruppe (wozu oft z.B. Sacherschließungsdaten der Verlage ausgewertet werden können). Eine automatisiert erzeugte verbale Sacherschließung orientiert an RSWK oder Verknüpfungen zu GND-Schlagworten sucht man in Reihe O bisher vergebens (deswegen hat man derzeit auch keinerlei Anhaltspunkte, wie sich das in den vergangenen Jahren in der DNB erprobte Verfahren weiter entwickelt und verbessert hat). Was also bleibt von der automatischen Sacherschließung für Netzpublikationen ohne parallele Printausgabe, ist die grobe Einordnung der Publikation in ein bestimmtes Sachgebiet - nicht mehr und nicht weniger. Das ist in modernen Discovery-Oberflächen sicherlich ein guter erster sachlicher Sucheinstieg, der aber nicht jedem Benutzer ausreichen wird.

Mein Appell ist also (auch für die Beratungen im Standardisierungsausschuss): es muss ein ganzheitliches, möglicherweise kooperatives Konzept für die Sacherschließung her, das nicht einzelne Publikationsarten ausgrenzt. Wir wollen einem suchenden Benutzer alles anbieten, was wir in unseren Bibliotheken bereithalten: Publikationen des Buchhandels genauso wie graue Literatur, klassische Druckmedien neben digitalen Ressourcen, Dissertationen in Printform genauso wie solche auf Mikrofiche (ja, auch das gab es einige Jahre!) oder als Online-Ressource. Und der Benutzer muss sicher sein, dass eine sachliche Suchanfrage den gesamten Bestand absucht, nicht nur einen zufälligen Teil.
#36
Rüdiger Hoyer (Mittwoch, 06 September 2017 11:24)

Der letzte Satz von Herrn Ceynowa benennt das wesentliche Problem: "Wenn hier das Problem liegt, sollte es aber auch politisch traktiert werden, und nicht zu Entlastungshandlungen Anlass geben, wie sie im DNB-Papier „Erschließung als zyklischer Prozess“ mit Ideen einer nationalen „Umgebung für kooperative Erschließungsprozesse“ akzentuiert werden.". Wir sind uns wohl mehrheitlich einig, dass der Einsatz automatischer Indexierung zusätzlich zur intellektuellen Sacherschließung in Anbetracht der durchschnittlichen Oberflächlichkeit der RSWK-Erschließungen, für die immer weniger personelle Ressourcen verfügbar sind, große Chancen birgt. Gerade bei akademischen Schrifttum wird die Erschließung erst richtig interessant, wenn sie etwa Eigennamen etc. hervorhebt, die in Inhaltsverzeichnissen auftauchen, von den künftigen Möglichkeit der Volltextauswertung zu schweigen. Bedauerlich ist, dass der Eindruck entsteht, dass hier etwas ohne viel Diskussionen 'durchgezogen' werden soll, eine vielleicht im Trend liegende Art des Handelns. Als Leiter einer zum BVB gehörenden Spezialbibliothek, die für die Sacherschließung der Ressourcen ihres Faches (Kunstgeschichte) eine besondere, in den dauerhaften personellen Ressourcen gespiegelte Verantwortung übernommen hat, bin ich Herrn Ceynowa für seine Initiative im Standardisierungsauschuß sehr dankbar. Das Thema der inhaltlichen Erschließung insbesondere von wissenschaftlichem Schrifttum ist essentiell und die Forderung nach Präzisierung der Konzepte überaus gerechtfertigt.
#37
Heidrun Wiesenmüller (Samstag, 07 Oktober 2017 13:06)

Noch eine Ergänzung: Im aktuellen Heft von o-bib (3/2017) gibt es einen Bericht über einen Workshop zur computerunterstützen Inhaltserschließung" an der UB Stuttgart, der sich u.a. mit der maschinellen Indexierung der DNB beschäftigt und auch kurz auf das neue Konzept der DNB eingeht.

URL des Artikels:
https://doi.org/10.5282/o-bib/2017H3S94-105

Vgl. dazu auch den Blog-Beitrag:
https://www.basiswissen-rda.de/rda-und-sacherschliessung-in-o-bib-3-2017/