Google Bücher

Aus Heraldik-Wiki
(Weitergeleitet von Google Books)
Zur Navigation springen Zur Suche springen
Google Bücher
Logo
books.google.de
Beschreibung Online-Buchsuche
Eigentümer Google Inc.
Erschienen April 2005

Google Bücher (auch bekannt als Google Buchsuche) ist eine Dienstleistung des US-amerikanischen Unternehmens Google Inc. mit dem Ziel, das in Büchern gespeicherte Wissen der Welt vorwiegend durch Digitalisierung für die Volltextsuche verfügbar zu machen.

Beschreibung

Google Bücher speist sich aus zwei Quellen: Google Print im engeren Sinn, dem – nicht weiter kontroversen – Kooperationsprojekt mit Verlagen, und dem juristisch umstrittenen Google Library, bei dem Bücher großer akademischer Bibliotheken auch ohne vorherige Zustimmung der Rechteinhaber massenweise gescannt werden.

Geschichte

Im Oktober 2004 stellte sich der auf die Buchverlage ausgerichtete Aspekt auf der Frankfurter Buchmesse von Google Print vor (Pressekonferenz mit den Firmengründern Sergey Brin und Larry Page). Erste Berichte über Google Print gab es im gleichen Monat. Im Dezember 2004 begannen Suchergebnisse aus gescannten Büchern in den Ergebnislisten der englischen Suchoberfläche Google.com zu erscheinen. Google möchte bis 2015 15 Millionen Bücher (entspricht 4,5 Milliarden Seiten) gescannt haben.

Seit April 2005 existiert eine eigene Suche für die Inhalte des Programms.

Im Oktober 2005 präsentierte man zur Frankfurter Buchmesse deutsche und anderssprachige Benutzungsoberflächen.

Am 4. November 2005 wurde die Suchseite, nunmehr mit einer Möglichkeit der Abfrage nach Zeiträumen in der erweiterten Suche versehen, offiziell vorgestellt.

Am 17. November 2005 kündigte Google die Umbenennung des Dienstes in seinem Firmen-Weblog an.[1] Zu diesem Zeitpunkt leiteten Anfragen von print.google.com nach books.google.com um.

Im September 2008 kündigte Google an, gemeinsam mit nordamerikanischen Zeitungsverlagen Zeitungen zu digitalisieren. Die digitalisierte Version sollen durchsuchbar sein, mit dem Webbrowser navigierbar und erscheinen wie in der Printausgabe mitsamt den Fotografien, Schlagzeilen und Werbeanzeigen.[2]

Inzwischen gibt es bei einer Reihe von Büchern eine Kooperation mit Internet Archive. Dort gibt es Ausgaben in verschiedenen Formaten, für das PDF wird auf Google verwiesen (wo es für Werke nach 1864 für Nicht-US-Nutzer dann nicht verfügbar ist, siehe Kontroversen).

Kooperation mit den Verlagen

Google erhält von den Verlagen Bücher oder bekommt PDF-Dateien zugesandt. Die Bücher werden gescannt und durch OCR als E-Texte in den Index aufgenommen. Nutzer können jeweils nur vergleichsweise wenige Seiten des einzelnen Buchs einsehen. Nach einigen Seiten können nur (kostenfrei) registrierte Nutzer eine Anzahl weiterer Seiten einsehen. Eine Reihe von Seiten ist von vornherein für den Zugriff gesperrt. Nach Erschöpfung des Tageskontingents können keine weiteren Seiten betrachtet werden. Frei zugänglich sind in der Regel das Inhaltsverzeichnis, nicht selten auch das Register.

Google versucht die Inhalte durch eine Art Kopierschutz (so genanntes „Digital Rights Management“ rsp. Digitale Rechtevergabe) zu schützen.

Da dies jedoch nicht immer vollständig verfolgt wird, kann man an verschiedenen Fachbüchern problemlos nachvollziehen. So steht von dem Buch „Active Directory für Windows Server 2008“ von Addison-Wesley, ISBN 978-3-8273-2740-6, an manchen Tagen fast der gesamte Inhalt des Buches offen im Internet. Die Seiten lassen sich nach dem Anzeigen im Internet-Browser mittels bestimmter Methoden dann sogar aus dessen Browser-Cache herauslesen und können mit entsprechenden Tools dann zu einer PDF-Datei zusammengeführt werden.

Kooperation mit Bibliotheken

Google hat vor, in den nächsten Jahren den kompletten Bestand der Bibliothek der University of Michigan (über 7 Millionen Bände) einzuscannen sowie große Teile der US-Universitätsbibliotheken der Harvard University und der Stanford University, der New York Public Library sowie in Europa der Bodleian Library der Oxford University. Auch die Bibliotheken der University of Virginia, der University of Wisconsin-Madison, der Princeton University, der University of California und der University of Texas at Austin beteiligen sich.

Ende 2006 traten zwei weitere Institutionen dem Verbund der Bibliotheken bei, die Bücher bei Google digitalisieren lassen: Die Nationalbibliothek von Katalonien, Biblioteca de Catalunya in Barcelona und die Bibliothek der Universidad Complutense Madrid. Reg Carr, Leiter der Bodleian Library, der bis dahin einzigen europäischen Partner-Bibliothek, begrüßte die beiden neuen Teilnehmer begeistert und wies die Einwände gegen das Projekt zurück.

Am 6. März 2007 gab die Bayerische Staatsbibliothek in München bekannt, als erste deutsche Bibliothek mit dem Projekt zu kooperieren. Es sollen nun etwa eine Million urheberrechtsfreier Werke aus den historischen Beständen und aus Spezialsammlungen digitalisiert werden.[3] Ausgenommen von dem Digitalisierungsprojekt sind nur die Handschriften- und Inkunabelbestände sowie seltene und besonders wertvolle historische Drucke.[4]

Im Juli 2008 gab die Bibliothèque Municipale de Lyon als erste französische Bibliothek bekannt ihre Bücher digitalisieren zu lassen.[5]

Am 15. Juni 2010 gab die österreichische Nationalbibliothek bekannt, dass Google den urheberrechtsfreien Buchbestand der Österreichischen Nationalbibliothek (ÖNB) digitalisiert. Die Kosten für die Digitalisierung der rund 400.000 Bücher betragen etwa 30 Mio. Euro und wird von Google getragen. ÖNB-Generaldirektorin Johanna Rachinger bezeichnet dieses Vorhaben als eines der größten Public Private Partnership in der österreichischen Kulturlandschaft. 400.000 Bände vom 16. bis ins 19. Jahrhundert (mit Ausnahme jener Bücher, bei denen konservatorische Bedenken dagegen sprechen) sollen dabei im Volltext erfasst werden – rund 120 Mio. Buchseiten sind danach online und kostenlos abrufbar.[6]

Heftige Kritik von Autoren- und Verlegerseite hat Google dazu gebracht, das Scannen von urheberrechtlich geschützten Büchern bis November 2005 auszusetzen. Bis zu diesem Zeitpunkt sollten die Rechteinhaber angeben, welche Bücher sie nicht zugänglich gemacht haben möchten (Opt-Out-Lösung). Während Google sich auf den fair use des US-Rechts beruft und dabei von renommierten Juristen unterstützt wird, fordern die Verleger und Autorenverbände, dass kein Buch ohne Zustimmung ins Programm eingestellt wird (Opt-In). Im Oktober 2005 wurden in den USA Klagen von Autoren und Verlegern gegen Google eingereicht.

Kontroversen

Scanfehler in einem 2008 in der Bayerischen Staatsbibliothek München von Google gescannten Buch

Probleme der Auswahl der Digitalisate

Ein vehementer Kritiker in Europa ist der ehemalige Direktor der Französischen Nationalbibliothek, Jean-Noël Jeanneney, der mit Gallica ein freies europäische Digitalisierungsprojekt betreibt. Er befürchtet, dass durch die englischsprachige Ausrichtung des Projekts die europäischen Sprachen ins Hintertreffen geraten könnten und warnt vor der „Google-Arroganz“ und der Dominanz einer Hypermacht.[7] Der Historiker Jeanneney plädiert dafür, dass Europa eine Alternative zum Google-Digitalisierungsprojekt auf die Beine stellt. An Google kritisiert er vor allem die Hegemonie des Englischen und den Kumulationseffekt (bei ihm genannt die „Blickfang-Methode“, üblich ist der Begriff „Ranking“, siehe: PageRank), der dazu führe, dass im Kampf um die Aufmerksamkeit des Lesers eine gewollte Konzentration auf die Listenführer stattfinde. Der stärkere Anbieter wird immer noch stärker auf Kosten des Schwächeren. Dadurch werde Google besonders für die Werbung wichtig. Diesem „kapitalistischen“ Google-Prinzip möchte Jeanneney ein Modell entgegensetzen, bei dem der Staat das Sagen in Dingen des kulturellen Gedächtnisses hat. 19 National- und Universitäts-Bibliotheken in Europa haben den Appell der französischen Nationalbibliothek unterzeichnet, um eine drohende geistige und kulturelle Vorherrschaft der USA zu verhindern.

Dieses Problem hat sich mittlerweile zumindest aus deutscher Sicht relativiert. Inzwischen sind sehr viele deutschsprachige urheberrechtsfreie Werke digitalisiert.

Probleme der freien Zugänglichkeit der Digitalisate

Europäische Nutzer beschweren sich darüber, dass Google für US-Nutzer alle vor 1923 erschienenen Bücher frei zugänglich macht, bei Nicht-US-Nutzern aber alle Bücher nach 1864 als unfrei behandelt, obwohl darunter sehr viele Bücher sind, die in allen Staaten der Welt Public Domain sein dürften (siehe: Regelschutzfrist!). Auch bezeichnet Google reine Reprints gemeinfreier Werke als copyrighted material, was zumindest nach US-Recht eine unbegründete Anmaßung (Copyfraud) darstellen dürfte. Der größere Teil der urheberrechtsfreien deutschsprachigen Digitalisate ist in Deutschland zunächst nicht als „Vollständige Buchansicht“ zugänglich.

Bücher, die nur US-Bürgern zugänglich sind, können mittels eines in den USA ansässigen Proxyservers trotzdem weltweit eingesehen werden.[8]

Die frei herunterladbaren PDF-Dateien alter Werke sind aus Angst vor kommerzieller Verwertung nicht mit dem OCR-Text versehen und damit nicht durchsuchbar. (Ausgenommen des vorangestellten Textes über die Nutzungsrichtlinen.) Dies ist nur über die Weboberfläche möglich. Oder gegebenenfalls über Internet-Archive, wenn das Werk dort übernommen wird und der Text getrennt angeboten wird. Bücher aus der Universitätsbibliothek von Michigan sind außer bei Google auch über den OPAC Mirlyn zugänglich. Dort kann auch der OCR-Text der einzelnen Seiten abgerufen werden.

Probleme bei den Suchfunktionen

Die Startseite http://books.google.de/ erlaubt angeblich „Nach Büchern suchen.“ Jedoch wird in dem dortigen Eingabefeld mitnichten nach Büchern gesucht, sondern nach Wörtern in Büchern. Dabei wird das gesamte Buch durchsucht, mit allen Fehlern, die bei der automatischen Texterkennung vorkommen. Man muss auf „Erweiterte Buchsuche“ gehen, um so etwas Ähnliches wie einen Bibliothekskatalog zu erhalten. Diese Seite ist teilweise in unverständlichem Deutsch gehalten. Return pages (etwa „finde Seiten“) ist mit „Antwortseiten“ übersetzt, return books (etwa: „finde Bücher“) mit „Bücher zurückgeben“. Wer, wie in Bibliothekskatalogen gewohnt, bestimmte Bücher suchen will, muss die Felder „Titel“ und „Autor“ ausfüllen. Die Buchsuche ist auch in dieser Suchmaske mit zahlreichen Mängeln behaftet. So gibt es keine Normierung der Ansetzung . Es wird nicht zwischen Monographien und Periodika unterschieden. Mehrbändige Werke, verschiedene Auflagen eines Werkes oder die Bände einer Zeitschrift erscheinen in zufälliger Reihenfolge und lassen sich nicht numerisch sortieren. Ob ein ein bestimmtes digitalisiertes Werk in der Ergebnisliste erscheint, ist von Zufällen abhängig, die der Benutzer nicht durchschauen kann. Zahlreiche Stichproben haben ergeben, dass je nachdem, welche Bestandteile des Autorennamens oder des Titels eines Werkes eingegeben werden, das Werk teils erscheint, teils nicht.

Eine Zuordnung von systematischen Sachgruppen und Schlagworten zu den Büchern wie in Bibliothekskatalogen erfolgt nicht. Bücher eines bestimmten Fachgebietes zu selektieren, ist nicht möglich. Google geht davon aus, es genüge für die thematische Suche, alle Wörter in den Büchern zu erfassen. Die Eingabe eines Stichworts kann aber immer nur Ergebnisse in der verwendeten Sprache liefern. Es wird nicht berücksichtigt, dass oft auch sprachübergreifend gesucht wird und dass ein Wort in mehreren Fachgebieten verwendet werden und unterschiedliche Bedeutungen haben kann.[9]

Probleme bei der Texterkennung

Der Spiegel bemängelte die oft miserable OCR-Qualität und die mangelhaften Metadaten.[10]

Obwohl die Digitalisierung vielfach per Hand erfolgt, unterlaufen gravierende Fehler. So werden Klapptafeln fast immer in zugeklapptem Zustand aufgenommen. Häufig fehlen Seiten oder sind unleserlich, nicht selten verdeckt auch ein Finger oder die Hand des zum Umblättern eingesetzten Personals den Text.

Die Texterkennung von google wird teils über das ganze Buch, teils über Teile des Buches, teils über das Inhaltsverzeichnis, teils nur über Teile des Inhaltsverzeichnisses durchgeführt. Sie liefert bei älteren Schrifttypen unbrauchbare Ergebnisse, und zwar bei englischen Texten ebenso wie bei französischen und deutschen. Es gibt Fälle, in denen sogar der Autorenname vom OCR falsch erkannt wurde, so dass das Werk unter dem Autorennamen nicht gefunden werden kann.[9]

Probleme des Copyright

Mitglieder des Konkurrenzprojektes der Open Content Alliance kritisieren das Vorgehen von Google, das keine Rücksicht auf Copyright nehme.

In Deutschland fordern im Heidelberger Appell Schriftsteller, Verlage, und Wissenschaftler den Schutz des Urheberrechts gegen seine Aushöhlung. Es werden in dem Manifest jedoch zwei Dinge miteinander verbunden. Die Kritik an der Google-Buch-Digitalisierung mit einer Kritik an Open-Access-Politik im Allgemeinen. Dies hat zu einer Zersplitterung der Kritiker des rasch voranschreitenden Google-Digitalisierungsprojekts geführt. Ein großes Problem sieht der Heidelberger Appell allerdings insbesondere im so genannten Google Book Settlement.

Google Book Settlement

Das Google Book Settlement[11] ist ein Vergleichsvorschlag, den die Firma Google auf eine Sammelklage US-amerikanischer Verlage und Autoren gegen sie ausgearbeitet hat. Sollte dieser Vergleich vor dem New Yorker Gericht zustande kommen, so betrifft er auch nicht-amerikanische Verlage und Autoren, da Google über das Internet weltweit erreichbar ist. Zudem könnten Autoren gegen die Vergleichsvereinbarungen nach amerikanischem Recht nicht mehr nachträglich prozessieren, sofern sie sich nicht zuvor durch individuellen Einspruch aus der Sammelklage ausgeschlossen haben.[12][13][14] Google könnte dann jedes Werk deutschsprachiger Autoren, die keinen Einspruch in den USA eingelegt haben, in digitalisierter Form auf seiner Plattform zur Ansicht stellen, ohne dass hiergegen noch rechtlicher Einspruch der Autoren möglich wäre.

Anfang Mai 2009 wurde das abschließende Anhörungsverfahren für das Google Book Settlement vom 11. Juli 2009 auf den 6. Oktober 2009 vertagt. Die Widerspruchsfrist für Verlage und Autoren („Nicht-Teilnahme-Frist“) wurde vom 5. Mai 2009 bis zum 4. September 2009 verlängert.[11] (Entgegen anderslautenden Gerüchten[15] bleibt es bei diesem Termin.)[16] Für den deutschen Buchmarkt hat die VG Wort einen eigenen Regelungsvorschlag ausgearbeitet. VG Wort kritisiert und klagt auf der einen Seite gegen Aspekte dieser möglichen Einigung vor einem amerikanischen Gericht. Auf der anderen Seite arbeitet die VG Wort auch mit Google bei der geplanten Umsetzung der Einigung zusammen.

Am 1. September 2009 kritisierte die Bundesregierung den Einigungsvorschlag. Sie forderte, dass man zumindest eine eigene Klasse für die deutschen Rechteinhaber bilden solle und diese von der pauschalen Einigung ausnehme. Zudem behindere Googles Copyright-Verletzungen und das Verhalten „Erst tun, dann fragen“ Projekte wie die europäische Online-Bibliothek Europeana, die Autorenrechte vorab wahre.[17]

In den USA kritisierte etwa die American Society of Journalists and Authors die Einigung als einen internen Handel zugunsten der daran Beteiligten.[16] Auch in der FAZ wird der Verdacht eines so genannten „Coupon-settlements“ nahegelegt, bei dem selbsternannte Klägeranwälte mit Google eine „Einigung“ aushandeln, um ein üppiges Honorar und eine marktdominierende Stellung für Google zu erreichen.[18]

Anlässlich einer Expertenanhörung durch die EU-Kommission am 7. September 2009 erklärte Google, auf die Bedenken von Verlegern und Autoren eingehen zu wollen und deren Vertreter an der Beaufsichtigung des Projekts Google Books zu beteiligen. In Europa urheberrechtlich geschützte und lieferbare Bücher sollen nicht ohne ausdrückliche Erlaubnis gescannt und online zugänglich gemacht werden.[19] Gleichzeitig kündigte die EU-Kommission an, das Urheberrecht ändern zu wollen, da aufgrund der Gesetzeslage nur die USA von den Vorteilen der Digitalisierung und Online-Vermarktung profitieren würden.[20]

Andere Projekte

  • Die Open Content Alliance u. a. mit Konkurrent Yahoo, dem Internetarchiv und der University of California hat im Rahmen der Open Library in großem Umfang Bücher katalogisiert und digitalisiert, als Open Content und unter strikter Wahrung des Urheberrechts.
  • Auch der Konkurrent und mögliche Partner von Google, das Internet-Versandhaus Amazon bietet gescannte Bücher im Volltext an, konzentriert sich jedoch auf aktuell im Handel erhältliche Bücher, und will damit den Verkauf gedruckter Bücher fördern. Mit seiner Suche „Search Inside a Book“[21] macht Amazon Titelseite, Klappentext, Inhaltsverzeichnis, Register und zwei Seiten vor und hinter einem Suchergebnis verfügbar.
  • Die Suchmaschine A9.com[22], eine Amazon-eigene Suchmaschine, die Microsofts Suchtechnologie mit Amazons „Search Inside the Book“ verknüpft, zeigt auf der Basis eines noch kleinen, englischsprachigen Katalogs, wie sich in eingescannten Büchern, Bildern und Websites übergreifend suchen lässt.
  • In Deutschland gibt es zwei große universitäre Digitalisierungszentren: in Göttingen und in München. Bis zum Mai 2006 wurden im Göttinger Digitalisierungszentrum 4.487.815 Seiten in 11.726 Bänden digitalisiert. Rund die Hälfte davon ist frei zugänglich. Das Göttinger Vorzeigeobjekt ist die Digitalisierung der Gutenberg-Bibel. Das Münchener Digitalisierungszentrum hatte im Februar 2010 ca. 184.000 Titel frei zugänglich im Netz bereitgestellt.
  • MINERVA
  • die Internetprojekte Wikisource und Project Gutenberg
  • Gallica
  • The European Library, eine europäische Initiative, die den Zugang zu den digitalisierten Werken der Mitgliedsländer verbessern soll.
  • Auch große Verlage wie Random House (Bertelsmann) beginnen ihre Buchbestände zu digitalisieren und für Suchmaschinen auffindbar zu machen. Random House stellte im Februar 2007 Teile seiner Buchbestände (5.000 Titel, weitere sollen folgen) online.[23] Mit Insight ermöglicht das Unternehmen seinen Kunden eine festgelegte Anzahl von Seiten pro Titel zu durchsuchen.[24]
  • Seit Oktober 2007 ist mit Zeno.org eine weitere Online-Bibliothek verfügbar.
  • Libreka - Die deutsche Antwort des Börsenvereins des Deutschen Buchhandels auf Google Book Search

Siehe auch

Literatur

Weblinks

Einzelnachweise

  1. Jen Grant: Judging Book Search by its cover. Nov. 2005.
  2. Punit Soni: Bringing history online, one newspaper at a time. googleblog.blogspot.com 8. September 2008
  3. Jens Redmer: The Bavarian State Library becomes largest non-English library partner. In: Inside Google Book Search. 6. März 2007, abgerufen am 11. März 2007.
  4. Klaus Ceynowa: Der ‚BSB-Google-Deal‘. Eine Million Bücher der Bayerischen Staatsbibliothek online in: BibliotheksMagazin. Mitteilungen aus den Staatsbibliotheken in Berlin und München, Nr. 1/2008, S. 3-7[1]
  5. Google digitalisiert Stadtbibliothek von Lyon, derstandard.at, 13. Juli 2008
  6. APA: Google digitalisiert Nationalbibliothek. In: Inside Google Book Search. 16. Juni 2010, abgerufen am 17. Juni 2010.
  7. Michael Mönninger: Die Google-Bibliothek. in: Die Zeit. Hamburg 2005,32. ISSN 0044-2070
  8. Beispiel einer via browseatwork.com verlinkbaren Seite
  9. 9,0 9,1 Für Beispiele siehe: Bücher suchen mit Google. In: Grüner Anzeiger, 12, November 2009, S. 30!
  10. Malte Herwig: Die entleibte Bibliothek. In: Der Spiegel, 12/2007, S. 186 f.
  11. 11,0 11,1 Google Book Settlement, Google
  12. Amerikanische Justiz prüft Googles Vergleich, F.A.Z, 29. April 2009
  13. Michael W. Perry: Alles hängt jetzt von Europa ab, F.A.Z., 5. Mai 2009
  14. Burkhard Hess: Es wird Zeit, dass die Bundesregierung eingreift, F.A.Z., 7. Mai 2009
  15. Die Frist sollte aus technischen Gründen vom Gericht bis zum 8. September verlängert werden.http://futurezone.orf.at/stories/1626350/
  16. 16,0 16,1 http://www.asja.org/google/
  17. http://www.spiegel.de/netzwelt/web/0,1518,646397,00.html
  18. http://www.faz.net/s/RubBE163169B4324E24BA92AAEB5BDEF0DA/Doc~E74446D08BF584F8D8725EB2BD5BDF90B~ATpl~Ecommon~Scontent.html
  19. Zugeständnisse an europäische Verlage? Focus Online, 7. September 2009
  20. EU-Kommission will das Urheberrecht novellieren Handelsblatt, 7. September 2009
  21. Amazon „Search Inside a Book“
  22. A9.com
  23. Stuart Applebaum: Insight, newly launched digital search & browsing service to offer 5,000-plus Random House, Inc. U.S. titles (PDF-Datei; 31 kB), Pressemitteilung, 27. Februar 2007
  24. Insight Web Service, Random House

Quellenhinweis

Muster-Wappenschild-Info.png

Dieser Artikel basiert auf dem Beitrag „Google_Bücher“ aus der freien Enzyklopädie Wikipedia in der Version vom 09. August 2010 (Permanentlink: [2]). Der Originaltext steht unter der GNU-Lizenz für freie Dokumentation bzw. unter CC-by-sa 3.0 oder einer adäquaten neueren Lizenz. In der Wikipedia ist eine Liste der ursprünglichen Autoren verfügbar.