In der Diskussion um die Datenkrake Google fällt mir immer wieder eine begriffliche Ungenauigkeit auf. Datenschutz sei gut und nützlich und bewährt, wie könne man nur dagegen sein, so die Argumentation. Tatsächlich bin ich gar nicht gegen Datenschutz als Anfoderung, sondern ich halte einige Aspekte der gegenwärtigen Spezifikation für ungeignet, die Anforderungen zu erfüllen.
Was ist der Unterschied zwischen Anforderungen und Spezifikationen? Anforderungen beschreiben die Ziele, die man verfolgt. Spezifikationen beschreiben den Weg. Charles B. Haley erklärt den Unterschied so:
»The distinction between requirement and specification is an important one. A requirement does not describe how a system is to be implemented, but instead describes what is desired by the stakeholders in terms of phenomena visible at certain domains in the real world. It is the specification that describes how, in terms of the phenomena of all the domains in the system, the requirement is fulfilled. For example, the requirement “given a temperature input in Fahrenheit, the system shall display that temperature in Celsius” is describing some input phenomena on one domain (probably a keyboard) and some output phenomena of another domain: the display; these are the requirement phenomena. The rest of the phenomena in the system exist to make the system produce its output requirement phenomena, given its input requirement phenomena.«
Auf den Datenschutz übertragen finden wir unter einem Begriff, eben Datenschutz, eine bunte Mischung von Anforderungen und Spezifikation. Zu den Anforderungen gehören Ideen wie die der informationellen Selbstbestimmung und des Persönlichkeitsrechts und ihre Konkretisierungen. Alle spezifischen Regelungen hingegen stellen eine Spezifikation dar, eine Umsetzung der Anforderungen.
Dass beides in einem Gesetz vermischt ist, bedeutet nicht, dass die Spezifikation automatisch die Anfoderungen erfüllt. Ich bin der Ansicht, dass sie das im Fall des Datenschutzes heute nur noch teilweise tut. Daraus folgt nicht die Forderung nach einer Abschaffung des Datenschutzes, sondern die Forderung nach einer Anpassung der Spezifikation.
Deutlicher wird das, wenn wir die begriffliche Unterscheidung zwischen Anforderungen und Spezifikation in unsere Diskusionen abbilden. Ich bevorzuge deshalb die Bezeichnung Privatsphärenschutz für die Anforderungen. Ausdrücklich offen bleibt dabei, ob, unter welchen Bedingungen und in welchen Ausprägungen Datenschutz gemäß der aktuellen Spezifikation ein geeignetes und das einzige Mittel dazu ist. Vielleicht fällt uns ja noch was besseres ein.
Wir haben uns in den Artikeln dieser Serie ein Modell gebildet, was Google mit Daten macht, welche Prinzipien dahinter stecken und wie daraus optimierte und partiell personalisierte Funktionen werden. Wir haben gesehen, dass naive Vorstellungen von Nutzerprofilen wahrscheinlich falsch sind. In Wirklichkeit betreibt Google automatisierte Verhaltensforschung im Industriemaßstab, bezogen auf spezifische Funktionen wie Eingabekorrektur, Übersetzung oder Werbeoptimierung. Als Ergebnis gewinnt Google populationsstatistische Aussagen, die individuell beziehungsweise nach impliziter Gruppenzugehörigkeit modifiziert werden können; eine klare Grenze zwischen diesen Aggregationsgraden gibt es nicht. Erfasst und gespeichert sind Googles Erkenntnisse in den Konfigurationen aufgabenspezifischer Klassifikatoren, die laufend dem globalen Verhalten der Nutzerpopulation angepasst werden. Die naiven Modelle aus Folge 2 passen nicht so recht dazu, auch wenn Google selbst manchmal anderes suggeriert:
Wer ein Google+-Profil hat und mit Google nach seinem eigenen Namen sucht, bekommt vielleicht diese Aufforderung zu sehen. Gemeint sind die expliziten und freiwilligen Angaben im Profil, nicht der Durchleuchtungsgrad der Person.
Damit es keine Missverständnisse gibt: Google besteht nicht nur aus lernenden Maschinen, viele Funktionen und Dienste nutzen auch herkömmliche Verfahren. Welche Termine in meinem Google-Kalender stehen, wen ich in Google+ in welchen Circles habe und welche Nachrichten in meinem GMail-Account liegen, speichert und verarbeitet Google (auch) ganz normal im Klartext, wie es jeder SaaS-Anbieter in der Cloud tun würde. Darauf mag man alle etablierten Begriffe und Modelle des Datenschutzes anwenden, wenngleich sie sich vielleicht aus anderen Gründen als unpassend erweisen. Ich behandle hier die Angstfunktion Daten sammeln und auswerten. Daten einfach zu sammeln lohnt sich im Google-Maßstab nicht, weil man mit einer Datenhalde wenig anfangen kann. Nach meinem Modell nutzt Google umfangreiche Daten, um damit einen Satz an Betriebsparametern fortlaufend zu optimieren und dem Lauf der Welt anzupassen. Die Optimierung und Anpassung erfolgt interaktiv, Google lernt von seinen Nutzern, was richtig und was falsch ist, was ähnlich und was verschieden. Das ist etwas anderes als das elektronische Profil, das Thilo Weichert sich vorstellt und es hat Folgen, die er sich nicht vorstellt.
Was ist anders?
Ein Klassifikator häuft nicht einfach Daten an. Er besitzt eine Konfiguration und zwei Grundfunktionen, Lernen und Klassifizieren. In der Funktion Klassifizieren erhält er einen Datensatz als Eingabe und gibt eine Entscheidung oder Entscheidungsempfehlung aus. In der Funktion Lernen passt er seine Konfiguration an, um die Rate der Fehlentscheidungen zu reduzieren. Die Konfiguration des Klassifikators gibt nicht die einzelnen Eingabedaten wieder, sondern ein davon abgeleitetes Modell. Darin unterscheidet sich dieser Ansatz von der Karteikarten-IT herkömmlicher Datenbanken, die alle Eingaben wörtlich abspeichern und als Ausgabefunktion im wesentlichen das Herausfiltern der jeweils gesuchten Daten anbieten. Welche Daten ein Klassifikator nutzt und was er über uns weiß, sind zwei Paar Schuhe. Wir können einen Klassifikator nicht danach befragen, welche Eingabedaten er zu einer Person erhalten hat.
Das führt zu interessanten Folgerungen für den Privatsphärenschutz:
Verhaltensbeobachtung und -auswertung bedeutet nicht zwingend eine Verletzung der Privatsphäre. Beispiele dafür sind die Korrekturfunktionen in der Google-Suche und in Google Translate, die aus dem Benutzerverhalten lernen. Google beobachtet bestimmte Aspekte des Nutzerverhaltens über eine Folge von Vorgängen hinweg, interessiert sich am Ende aber vor allem für statistische Aussagen.
Ein Kontinuum an Personenbezug. Ein Klassifikator kann personenbezogene Entscheidungen treffen, er muss es aber nicht. Er wird Entscheidungen nach den Kriterien treffen, die in der Vergangenheit erfolgreich waren. Da die Konfiguration des Klassifikators variabel ist, kann sich der personenbezogene Entscheidungsanteil laufend ändern. Nützlich ist ein Klassifikator vor allem dort, wo es verallgemeinerbare Zusammenhänge in den Daten gibt – Verallgemeinerung ist das Gegenteil von persönlichen Profilen. Die vielen Einzeldaten braucht man , weil man die Verallgemeinerungsregeln vorher nicht kennt.
Einzelne Merkmale – IP-Adresse, Cookies, Geburtsdatum und so weiter – sind wenig relevant. Klassifikatoren arbeiten in vieldimensionalen Merkmalsräumen und bei guter Konstruktion tragen alle Dimensionen zur Klassifikationsleistung bei. Lässt man eine Merkmalsdimension weg, bleiben (n-1) übrig, für ein ziemlich großes n. Die Klassifikationsleistung verringert sich dadurch nur wenig, zumal in den verwendeten Daten Korrelationen zwischen mehreren Dimensionen auftreten können. Das heißt auch: ein Klassifikator kann relativ robust gegen gelöschte Cookies sein.
Der Grad der Personalisierung hängt auch vom Nutzerfeedback ab. Wie stark die Entscheidungen eines Klassifikators personalisiert sind, hängt davon ab, welches Feedback der Nutzer zu diesen Entscheidungen gibt. Wer viel Werbung anklickt, personalisiert seine Werbeeinblendungen damit, falls dieses Feedback mit Personen- oder Pseudonymbezug zum Lernen verwendet wird.
Klassifikator-Modelle sind inhärent zweckgebunden. Ein Klassifikator wird für eine bestimmte Aufgabe entworfen und trainiert. Zwar kann man die dabei entstehende Konfiguration als Modell der Problemlösung untersuchen und dabei Interessantes herausfinden. Jedoch lässt sich ein Klassifikator nicht einfach für etwas anderes verwenden. Einen universellen Klassifikator, der »alles« kann, gibt es nicht; jedes Optimierungsverfahren benötigt Annahmen über das Problem. Man kann freilich einen Klassifikator mit Personen als Ausgabeklassen bauen, wenn man Feedback über die Richtigkeit der Zuordnung bekommt.
Löschen geht nicht – aber Personenbezüge können verblassen. Sind Daten über einen Nutzer in die Konfiguration eines Klassifikators eingeflossen und dort mit anderen Daten verschmolzen, lässt sich dieser Vorgang nicht sinnvoll rückgängig machen. Liefert ein Nutzer keine neuen Daten nach, werden seine Einflüsse jedoch nach und nach von anderen überlagert. Ein fortwährend trainierter Klassifikator in einer veränderlichenUmgebung verliert im Laufe der Zeit seine Fähigkeit, auf diesen Nutzer personalisierte Entscheidungen zu treffen – er vergisst, ohne auf den Innenminister und dessen Ideenwettbewerb zu warten.
Solche Phänomene sind in unseren überlieferten Datenschutz-Konzepten nicht vorgesehen. Wir können auf verschiedene Arten damit umgehen. Wir können auf die Einhaltung formaler Vorschriften aus einer anderen Zeit pochen und Bürokratie als Selbstzweck vollziehen. Dann ist Google verboten, bis jeder Nutzer eine Generalvollmacht erteilt hat und ab und zu gibt es einen Shitstorm. Oder wir erinnern uns daran, dass Datenschutz als Mittel zum Zweck unserer Selbstbestimmung über unsere Privatsphäre dienen soll. Dann müssen wir bei diesem Ziel ansetzen und uns neu überlegen, wie die Technik es bedroht und wie vielleicht auch nicht.
Als Informatiker kann ich dort nicht qualifiziert mitreden. Mir stellen sich andere, aber verwandte Fragen: Wie sieht wirksamer Privatsphärenschutz in heutigen und künftigen soziotechnischen Systemen aus? Von welchen Bedrohungsmodellen muss er ausgehen und wie kann er die Evolution der Technik zulassen und begleiten?
Cookies, IP-Adressen und die Datenübermittlung in andere Länder nützen uns als Diskussionsrahmen wenig. Die Radikallösung, Teile des Netzes ungenutzt zu lassen, ist wegen seines großen Nutzens keine realistische Option. Interessanter ist, wer uns anhand welcher Daten wehtun kann, wie wahrscheinlich das ist, und welche wirksamen Maßnahmen es dagegen gibt.
Die Abstraktion des personenbezogenen Datums und der Entscheidung des Betroffenen, wer dieses Datum haben darf, stammt aus einer anderen Ära der Informationstechnik. Unabhängig davon, in welchem Maße Techniken wie die von Google eingesetzten unsere Privatsphäre bedrohen oder nicht, können wir mit der Freigabe einzelner Datensätze und Datenfelder keinen sinnvollen Einfluss auf eventuelle Risiken nehmen. Vielleicht müssen wir uns gänzlich von der Idee lösen, dass es auf Daten ankäme, und uns damit beschäftigen, was daraus gemacht wird.
Die individuellen und gesellschaftlichen Privatsphären-Interessen müssen wir außerdem abwägen gegen das berechtigte Interesse einer Firma wie Google, technische Details für sich zu behalten. Bessere Klassifikatoren zu bauen als der Rest der Welt gehört zu Googles Kerngeschäft. Andererseits sollte die Technik so transparent sein, dass sie informierte Entscheidungen unterstützt, wobei es auf die Entscheidungen ank0mmt und nicht auf deren formalisierte Niederlegung im Vertragsstil. Mit diesem Spannungsfeld sowie mit realistischen Bedrohungsmodellen muss sich der organisierte Datenschutz beschäftigen, wenn er in Zukunft relevant bleiben möchte. Laut über Daten-Schmu zu schimpfen und dann weiter alte Modelle auf neue Technik anzuwenden, bringt uns keinen Schritt weiter.
Schlusswort
Google ist im wahrsten Sinn des Wortes ein Elektronengehirn, wie es die Science Fiction einst beschrieb. Wer um jeden Preis Angst haben möchte, stellt sich unter Google am besten so etwas wie HAL 9000 vor, hochskaliert auf einen Planeten anstelle eines Raumschiffs. Google verhielte sich ähnlich, zöge man ihm nach und nach die Speichermodule raus – Google würde nach und nach verblöden.
The famous red eye of HAL 9000 by Cryteria, CC-BY 3.0 unported
Unter dieser Prämisse lautet die Grundsatzfrage: Welche Denkverbote müssen wir so einem Computer auferlegen und welche nicht? Wie formulieren wir solche Denkverbote, wenn wir den größtmöglichen Nutzen behalten wollen? Oder brauchen wir in Wirklichkeit gar keine Denkverbote für Elektronengehirne, sondern angemessene Denkweisen und Begriffe für uns selbst als Individuen und als Gesellschaft? Fürs erste tut es auch eine kleinere Frage: Wie machen wir eine Datenverarbeitung transparent für Nutzer, die komplizierter ist als die gute alte Datenbank? Ein Stück Verständnis hat Google mit seiner aufgeräumten Datenschutzerklärung schon mal effektiv vermittelt, nämlich dass seine einzelnen Dienste nur Sichten auf ein System sind. Das haben jetzt alle verstanden.