24. Juli 2015

Aufsatz zu Altdaten - zugleich Update von "Drei Minuten RDA: Pseudonyme"

Vor einigen Tagen ist Heft 2/2015 der Open-Access-Zeitschrift o-bib erschienen. Enthalten ist u.a. die ausformulierte Fassung meines Vortrags Der RDA-Umstieg in Deutschland: Herausforderungen für das Metadatenmanagement. Diesen hatte ich im Dezember 2014 auf einem Symposium der HdM gehalten (vgl. dazu auch den entsprechenden Blogbeitrag). Für die Textfassung habe ich einiges noch etwas genauer ausgearbeitet, u.a. die Frage, wie die Umarbeitung der Pseudonym-Datensätze mit maschinellen Mitteln unterstützt werden könnte.

Screenshot der ersten Seite des Aufsatzes zum Umgang mit Altdaten in Heft 2/2015 von o-bib — Aufsatz zum Umgang mit Altdaten in Heft 2/2015 von o-bib

In einem früheren Blogbeitrag Drei Minuten RDA: Pseudonyme hatte ich ja bereits erläutert, dass künftig für Personen, die unter ihrem wirklichen Namen und einem Pseudonym oder unter mehreren Pseudonymen geschrieben haben bzw. schreiben, mehrere Normdatensätze angelegt werden müssen.

Ich hatte dort auch beschrieben, dass bei mehr als zwei Identitäten eine Basis-Identität ("basic heading") bestimmt wird, mit der alle anderen Datensätze verknüpft werden. Diese Regelung wurde mittlerweile geändert, wie man in der aktuellen Fassung der Erfassungshilfe EH-P-06 (Stand: 17. Juli 2015) nachlesen kann: Es wird nun doch jede Identität mit jeder anderen verknüpft anstatt alle anderen Datensätze nur mit der Basis-Identität. Es muss deshalb auch nicht in jedem Fall eine Basis-Identität bestimmt werden, sondern nur dann, wenn die Person als Schlagwort benötigt wird. Formalerschließer müssen sich also normalerweise nicht darum kümmern.

Soweit ich weiß, liegt der Grund für diese Änderung in den zu erwartenden Problemen bei der Recherche. Denn es genügt ja nicht, die Normdatensätze korrekt aufzuspalten, sondern es müssten auch in jedem Katalog die bisherigen Titeldatensätze korrekt zugeordnet werden.

Zitat aus dem Aufsatz (S. 56) am Beispiel von J. K. Rowling/Robert Galbraith:

"Wenn jeder Fall in jedem einzelnen Verbund manuell bearbeitet werden muss, so ist angesichts der knappen Personalressourcen zu befürchten, dass die Titeldatensätze überhaupt nicht oder erst mit einer erheblichen zeitlichen Verzögerung richtig zugeordnet werden. Auch kann es bei der manuellen Bearbeitung leicht zu Fehlern kommen. Dies hätte Nachteile für die Recherche: Sucht man etwa nach Robert Galbraith als Autor, so würde man einen Teil der relevanten Titel nicht erhalten - nämlich diejenigen, die nicht an den neu entstandenen Normdatensatz umgehängt wurden, sondern noch mit dem ursprünglichen Normdatensatz (der jetzt aber nur noch für den wirklichen Namen der Person steht) verbunden sind. Im SWB sind beispielsweise derzeit zwar die Ausgaben des Romans "Der Seidenspinner" schon mit dem Normdatensatz für Robert Galbraith verknüpft, nicht aber die Ausgaben des Romans "Der Ruf des Kuckucks" - diese sind noch mit dem Normdatensatz für J. K. Rowling verbunden."

Da man nicht sicher sein kann, dass die Zuordnungen stimmen, soll in allen miteinander verknüpften Normdatensätzen in Feld 680 der Hinweis eingefügt werden: "Weitere Titel ggf. auch unter dem Pseudonym bzw. dem wirklichen Namen" (vgl. Erfassungshilfe EH-P-06, S. 10).

Die Probleme bei der Recherche will man auf dem Weg der Indexierung in den Griff bekommen. Dies ist offenbar leichter umzusetzen, wenn alle Identitäten miteinander verlinkt sind. Noch ein Zitat aus dem Aufsatz (S. 57):

"Es wurde deshalb vorgeschlagen, das Problem über eine erweiterte Indexierung zu lösen: Bei einer Recherche nach einem Personennamen sollen dann nicht nur die bevorzugten und abweichenden Namen berücksichtigt werden, sondern auch Namen von in Beziehung stehenden Personen, sofern sie mit dem GND-Code pseu (Pseudonym) oder nawi (wirklicher Name) gekennzeichnet sind. Dies würde dazu führen, dass bei der Recherche stets sämtliche Titel ausgegeben werden - egal, ob sie mit einer Pseudonym-Identität oder der realen Identität der Person verbunden sind. Die in den Daten mit nicht unerheblichem Aufwand durchgeführte Differenzierung der verschiedenen Identitäten würde also bei der Recherche wieder außer Kraft gesetzt, sodass man letztlich genau dieselben Treffermengen erhält wie unter RAK."

Ich verstehe natürlich, dass wir schnell eine pragmatische Lösung brauchen. Aber trotzdem kommt es mir reichlich kurios vor. Erst pfriemeln wir die Datensätze mühevoll auseinander und dann werfen wir in der Recherche wieder alles zusammen?!? Das kann man eigentlich niemandem mehr erklären...

Da wäre es schon besser, wenn wir das Problem der richtigen Zuordnung der Titeldatensätze maschinell lösen könnten. Einen Vorschlag, wie es technisch funktionieren könnte, habe ich im Aufsatz beschrieben (S. 57f.). Zugegebenermaßen ist dies vorläufig nur ein Gedankenspiel - der Praxistest steht noch aus. Über Meinungen und Anregungen dazu freue ich mich!

Heidrun Wiesenmüller

Tags: 2015, publikationen, d-a-ch, DreiMinutenRDA, 2015-Quartal-3

Kommentar schreiben

Kommentare: 3

#1
Marita Dickenscheid (Samstag, 25 Juli 2015 00:34)

Liebe Frau Wiesenmüller,

natürlich stecke ich nicht so sehr im Thema wie Sie (meine RDA-Schulungen stehen auch noch aus), und Ihren Aufsatz habe ich auch noch gar nicht gelesen. Aber m.E. ist die entscheidende Frage doch erst mal: warum pfriemeln wir die Datensätze denn überhaupt auseinander? Hat irgendjemand unsere BenutzerInnen mal gefragt, ob sie das überhaupt wollen und wie sie das finden?

Über 30 Jahre lang habe ich die Zusammenführung von Pseudonymen und wirklichen Namen angeführt, wenn ich nach dem Mehrwert von Katalogen und professioneller Katalogisierung gefragt wurde. Meine Fassungslosigkeit über die Einführung der Persönlichkeitsspaltungen und die Folgen für unsere Kataloge habe ich mittlerweile überwunden. Aber es stört mich immer noch, dass über die Folgen für die Suche in den Katalogen nicht vorher nachgedacht wurde und es kein Konzept für die mit den Normdatensätzen verbundenen Titelaufnahmen gab. In der Praxis kann man sich nicht einfach darauf zurücklegen, dass die Repräsentation der Daten nicht Bestandteil der RDA ist.

Vor ein paar Monaten noch mussten wir damit rechnen, dass mit jeder neuen Persönlichkeitsspaltung ein paar Titelsätze mehr in unserem Katalog nicht mehr mit dem Verfassernamen auf dem Titelblatt zu finden waren. Ich bin froh, dass das jetzt aufgehört hat.

Ich kann mir durchaus Fragestellungen vorstellen, in denen es sinnvoll oder hilfreich ist, nur die Titel zu finden, die einem Pseudonym zuzuordnen sind. Also nur die Titel von Robert Galbraith ohne das ganze Harry-Potter-Universum. Auch diesen Wunsch könnte man mit einer entsprechenden Indizierung erfüllen.

Das würde dann heißen: ein Index, der alle Identitäten und Namensformen umfasst (und der dafür die in den entsprechenden Beziehungen stehenden Datensätze mit auswertet) und ein weiterer, der jede Identität getrennt von den anderen berücksichtigt. Dieser zweite Index funktioniert aber nur, wenn man auch alle Veröffentlichungen zeitnah nach der Aufsplittung der jeweiligen Identität zuordnet. Konkret also: alle Veröffentlichungen in allen Verbünden und Bibliotheken, die die GND verwenden. Und um Mißverständnissen vorzubeugen: es geht hier nicht um Indizes in der GND, sondern um solche in den Titeldateien.

Ihr Aufsatz enthält sicher interessante Überlegungen dazu. Ich bin mal gespannt.

Übrigens: wie erklärt man denn nun dem/der fragenden Benutzer/in, warum nach einer über 100-jährigen gegenteiligen Tradition in Deutschland die Datensätze nun auseinandergepfriemelt werden, ohne Kopfschütteln hervorzurufen? Oder Verärgerung über die viel aufwändiger gewordene Suche nach den Werken eines Verfassers / einer Verfasserin? Ist da mehr als die Übernahme der AACR-Tradition, ggf. mit Abwandlungen? (Und - zugegebenermaßen - der Datenschutz bei lebenden Personen).

Diese 100-jährige Tradition ist übrigens meine Antwort auf Ihre Frage. Allerdings denke ich auch, dass ein Index, der die Suche auf eine Identität beschränkt, auch seine Vorteile hätte. Ich bin also für "sowohl als auch".

Mal schauen, ob wir das hinbekommen.

Viele Grüße aus Hagen
Marita Dickenscheid
#2
Heidrun Wiesenmüller (Samstag, 25 Juli 2015 15:09)

Liebe Frau Dickenscheid,

vielen Dank für Ihren Kommentar!

Ich hätte mir ebenfalls eine grundsätzliche Diskussion über Sinn und Unsinn der Identitätsaufspaltung gewünscht. Vor längerer Zeit ist darüber mal in der amerikanischen RDA list debattiert worden. Dabei wurde klar, dass auch in der angloamerikanischen Welt keineswegs alle mit der Regelung glücklich sind.

In der AG RDA ist die Behandlung der Pseudonyme nach meiner Erinnerung nie in Frage gestellt worden. Ob die dafür zuständige Unterarbeitsgruppe GND darüber diskutiert hat, die Vorgaben von RDA an dieser Stelle nicht zu übernehmen, weiß ich nicht. Allerdings: Ich bin sehr skeptisch, ob der Standardisierungsausschuss hier eine Abweichung von RDA akzeptiert hätte.

Ich stimme Ihnen ebenfalls zu, dass man sich früher mit den Auswirkungen auf die Recherche hätte beschäftigen müssen. Insgesamt habe ich den Eindruck, dass die Darstellung und Suche von RDA-Daten in Katalogen bisher "unterbelichtet" geblieben ist. Dies kann man jedoch fairerweise nicht der AG RDA zum Vorwurf machen. Wir haben wirklich seit Beginn des Projekts unendlich viel Arbeit hineingesteckt, um die engen Zeitvorgaben einzuhalten - nicht wenige Kolleginnen und Kollegen sind dabei an den Rand ihrer Kräfte bzw. darüber hinaus gegangen. Mehr als die Bearbeitung der drei Schwerpunkte Regelwerk/D-A-CH, technische Implementierung und Schulungen ging einfach nicht. Um auch das Thema "RDA im Katalog" angemessen bearbeiten zu können, hätten wir mehr Personal und/oder mehr Zeit gebraucht.

Es gibt manche Änderungen durch RDA, die nach meiner Einschätzung nur Arbeit machen und keinerlei Nutzwert bringen. Die Trennung der Identitäten würde ich persönlich allerdings nicht zu dieser Gruppe zählen: Denn in manchen Fällen kann es - wie Sie ja auch gesagt haben - wirklich sinnvoll sein, nur die zu einer bestimmten Identität gehörigen Treffer anzuzeigen.

Die Lösung von RDA ist hier eigentlich sehr clever. Die Identitäten werden zwar voneinander getrennt, aber miteinander verknüpft. Deshalb ist von der Datenbasis her tatsächlich ein "sowohl als auch" möglich. Man könnte z.B. im ersten Schritt nur die Treffer zur gesuchten Identität anzeigen, aber zugleich den Benutzern anbieten, die Treffer zu einer anderen Identität anzuzeigen (oder auch zu allen). Denkbar wäre auch ein Ranking: Es kommen immer sämtliche Treffer zu allen Identitäten, aber am Anfang stehen diejenigen, die sich auf die Identität beziehen, nach der recherchiert wurde, und erst danach diejenigen, die sich auf die anderen Identitäten der Person beziehen. Voraussetzung dafür ist zum einen, dass die Kataloge die Daten entsprechend indexieren, aufbereiten und ggf. ranken können, und zum anderen, dass die Titeldaten richtig verknüpft sind. Ich hoffe wie Sie, dass wir beides zumindest mittelfristig hinbekommen.

Die nun in vielen Katalogen umgesetzte erweiterte Indexierung hat zumindest eine schnelle Lösung gebracht, damit den Benutzern keine Treffer entgehen. Aber es ist m.E. nur eine "Krücke" und sollte keine Dauerlösung sein.

Viele Grüße
Heidrun Wiesenmüller
#3
Peter Bredthauer (Sonntag, 26 Juli 2015 13:04)

Liebe Frau Wiesenmüller,
liebe Frau Dickenscheid,
nach dem alten Sprichwort "wer A sagt, muss auch B sagen": es muss unbedingt die zeitnahe und umfängliche Zuordnung sämtlicher Titeldatenbestände in allen mit der GND kooperierenden Verbünden/Einrichtungen gewährleistet sein, um den Nutzern einen wie auch immer gearteten Mehrwert zu bieten. Andernfalls bleibt die Arbeit von uns Katalogisierern fruchtlos und im Endeffekt sich selbst begnügend. In diesem Zusammenhang sollte aufgrund des in den letzten Jahren massiv gestiegenen Zeit- und Arbeitsaufwandes für GND-Katalogisierer und -Redaktionen im Zuge des baldigen RDA-Vollumstiegs über ein neues Redaktionskonzept zur Handhabe diskutiert werden, welches den veränderten Arbeitsbedingungen in Formal- und Sacherschliessung Rechnung trägt.
Liebe Frau Wiesenmüller: Ihren Vorschlag in der Fußnote auf S. 57 des o. erwähnten Aufsatzes in O-Bib finde ich klasse! Die Formulierung ist verständlicher und für den Nutzer klarer als der derzeitig benutzte Hinweis in Kat. 680, der mir schon immer mißfallen hat ..