Archiv der Kategorie: Datenschutz

Datenkrake Google (4/7): Lernende Maschinen

[InhaltTeil 1 Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

In der dritten Folge der Artikelserie haben wir betrachtet, dass Google aus Crowdsourcing und Statistik nützliche Funktionen und Dienste baut und dabei aus dem Netz und von seinen Nutzern lernt. Wie funktioniert dieses Lernen?

Eine globale Tankstelle

Stell Dir vor, wir wären die Tankstelle der Welt. Wir verkaufen jede Sorte Treibstoff, die jemals irgendwo entwickelt, benannt und angeboten wurde, jeweils an einer eigenen Zapfsäule. Bei uns tanken deutsche Autofahrer Diesel, Super und Super Plus, Spanier 95 sin plomo und gasóleo, Japaner Hai-oku und Keiyu, Ossis in alten Trabis ihr Zweitaktgemisch VK 88 1:33 und afghanische Taliban brennbare Flüssigkeit aus Fässern und Flaschen.

Unsere Tankstelle ist riesig und unübersichtlich. Wie schicken wir jeden Fahrer mit seinem jeweiligen Fahrzeug an die richtige Säule? Wir könnten unsere Kunden nach ihren Wünschen fragen, aber dazu müssten wir all ihre Sprachen sprechen. Manche Kunden wüssten auch gar nicht, was sie tanken wollen, weil sie gerade in einem geliehenen Fahrzeug sitzen oder weil sie vergesslich sind oder weil ihre robuste russische Technik alles schluckt, was flüssig ist und brennt.

Unsere Kunden hätten zudem unterschiedliche Präferenzen, die teils mit ihren Fahrzeugen zusammenhängen, teils aber auch nicht. Während Mutti ihren Kleinwagen immer genau so betanken möchte, wie es ihr der nette Mann in der Werkstatt schon dreimal aus gegebenem Anlass erklärt hat, ist das Verhalten von Top-Verkäufer Johannes E. komplizierter. Gewohnheitsmäßig kippt er Super++ in seinen Audi, geht eh‘ auf Spesenrechnung und man gönnt sich ja sonst nichts. Ist er aber spät dran und ein Kunde wartet, nimmt er die erstbeste freie Säule, an der er sein Auto nicht kaputtmacht. Dann ist 95 sin plomo eine Alternative zur Schlange an der Super++-Säule, das kennt er aus seinem Urlaub auf Mallorca. Wenn Du mit Johannes E. redest, wirst Du davon allerdings nichts erfahren, weil ihm das selbst nicht so bewusst ist. Seine Bedürfnisse zeigen sich erst, wenn Du sein Verhalten beobachtest. Seine Verhaltensmuster können sich übrigens jederzeit ändern, zum Beispiel weil Johannes E. die Firma und damit den Firmenwagen gewechselt hat. Plötzlich sitzt Johannes E. in einem Mercedes und ein anderer in seinem Audi.

Eine Datenbank hilft uns nicht

Eine klassische Datenbank hilft uns in dieser Situation wenig. Führen wir sie über Fahrzeuge oder Fahrezugtypen, verlieren wir die Fahrerpräferenzen; führen wir sie über Fahrer, bekommen wir deren Wechsel vom Diesel zum Erdgas nicht mit. Bilden wir Paare von Auto und Fahrer, haben wir lauter Spezialfälle in der Datenbank und scheitern jedesmal, wenn eine unbekannte Paarung vorfährt, etwa weil Johannes E. eine Panne hatte und heute einen Mietwagen betankt. Was wir stattdessen haben wollen, ist ein Klassifikator, der fast immer die richtige Entscheidung trifft und dabei vorhandene Informationen generalisiert. Außerdem möchten wir, dass sich unser Klassifikator anpasst, wenn sich die Welt verändert. Wir möchten ihm nicht jede Woche die neuesten Gerüchte aus der Auto BILD und deren Auswirkungen auf seine Tätigkeit einprogrammieren, das soll er schön selbst lernen.

Merkmalsextraktion

Solch einen Klassifikator können wir bauen, und wir können ihn lernfähig machen. Dazu überlegen wir uns zunächst, welche beobachtbaren Merkmale ein Auto nebst Fahrer hat: Farbe, Kennzeichen, Abmessungen, Motor- und Fahrgeräusche, Felgen- und Reifentyp, Anhängerkupplung, Dachgepäckträger, Sauberkeit, Anzahl der Türen, Spoiler, Spracheinstellung des Navigationssystems, eingestellter Radiosender; beim Fahrer Hautfarbe, Körpergröße, Haarschnitt, Gesichtsbehaarung, Kleidung, Gesichtsausdruck und so weiter. Wir sammeln also erst mal alle Merkmale ein, die wir messen können. Welche dieser Daten wir am Ende wirklich brauchen, wissen wir noch nicht genau, voraussichtlich von allen ein bisschen.

Jedes messbare Merkmal liefert uns eine Dimension in einem vieldimensionalen Raum. Fährt ein Auto an unserer Tankstelle vor, können wir es in allen Dimensionen messen und danach als Punkt in diesem Raum darstellen. Kleine Abweichungen, zum Beispiel durch den Wechsel von Winter- zu Sommereifen, führen zu kleinen Verschiebungen im Raum. Große Unterschiede, etwa zwischen Muttis Kleinwagen und Bennos Umzugslaster mit ihren jeweiligen Fahrern, führen zu großen Abständen.

Merkmalsraum in den Dimensionen Farbe und Länge mit Datenpunkten für einige Fahrzeuge. In Wirklichkeit würde man die Farbe als Hue/Saturation/Value darstellen und zur Länge noch die Breite und die Höhe nehmen. Das wären bereits sechs Dimensionen und immer noch ein vereinfachtes Modell.

Unser Klassifikator soll uns zu jeder Eingabe – einem Punkt im Raum, der unsere Messwerte zu einem Fahrzeug repräsentiert – eine oder mehrere wahrscheinlich passende Zapfsäulen ausgeben.

Feedback

Wenn unsere Kunden mitdenken und ohne Einweisung oder nach einer falschen Empfehlung selbständig eine für sie richtige Zapfsäule aufsuchen, können wir ihr Verhalten beobachten und daraus lernen. Jedesmal wenn jemand bei uns tankt, bekommen wir ein Datensample, einen Punkt im Raum und die für diesen Punkt richtige Entscheidung. Diese Samples sammeln wir sortiert nach richtigen Entscheidungen. Diese Sammlung könnten wir uns noch als Datenbank vorstellen, in der für jede Zapfsäule sämtliche Merkmale der dort beim Tanken gesehenen Auto-Fahrer-Paare hinterlegt sind. Das sind aber nur Rohdaten und wir werden gleich sehen, dass wir sie gar nicht auf Vorrat in einer Datenbank speichern müssen.

Automatische Verallgemeinerung

Unser Klassifikator soll diese Rohdaten generalisieren können, das heißt auch für solche Datenpunkte gute Entscheidungen treffen, für die bisher keine Beobachtungen vorliegen. Repräsentiert unser Datenraum alle oder die meisten für die Klassifikation relevanten Merkmale, so bilden die Rohdaten zu jeder möglichen Entscheidung einen Cluster: sie liegen näher beieinander als sie zu den Datenpunkten anderer Cluster liegen. In den Randbereichen kann es zu Überschneidungen kommen. Das liegt entweder an verrauschten Daten aufgrund von Messfehlern, oder an fehlenden Merkmalen. Beispielsweise könnten uns einige Parameter fehlen, die das Verhalten unseres Tankchaoten Johannes E. erklären würden, weil wir seinen Terminkalender nicht kennen.

Die maßgebliche Nachbarschaft zwichen den Datenpunkten eines Clusters besteht dabei oft nur in ausgewählten Merkmalsdimensionen, da nicht alle Merkmale gleichermaßen relevant sind. Welche Dimensionen das sind, kann sich von Cluster zu Cluster unterscheiden. Wir könnten an unserer Tankstelle zum Beispiel beobachten, dass rote deutsche Sportwagen fast immer Super tanken, während Lkw sowie silbergraue und schwarze Mittelklassewagen Diesel bevorzugen. Dieser Cluster ließe sich mit den Merkmalen Farbe und Größe recht genau beschreiben. Gleichzeitig könnten wir beobachten, dass Japaner unabhängig von Autotyp und Farbe stets die Säule Hai-oku bevorzugen, weil es ihnen als unhöflich gilt, öffentlich billigen Diesel zu tanken. Daraus ergibt sich wiederum für die anderen Cluster, dass dort das Merkmal Nationalität eine Rolle spielt, und sei es nur die, Japaner aus dem Cluster auszuschließen.

Repräsentanten für Cluster

Damit unser Klassifikator gut funktioniert, benötigt er Beschreibungen der einzelnen Cluster, ihrer Clustergrenzen und ggf. der Überschneidungen mehrerer Cluster. Um einen Datenpunkt zu klassifizieren, also eine Entscheidung zu treffen, müssen wir ihn dem passendsten Cluster zuordnen. Erweist sich eine Klassifikation als falsch, so wollen wir außerdem die betroffenen Clusterbeschreibungen anpassen, ohne uns jedoch von einzelnen Ausreißern unsere Statistik kaputtmachen zu lassen. Anstelle der Rohdaten im Datenbankformat verwendet man dafür Repräsentanten: für jeden Cluster bestimmt man einen Satz von Punkten, der diesen Cluster gut repräsentiert. Diese Repräsentanten liegen irgendwo zwischen den Rohdatenpunkten; ihre Anzahl ist in der Regel geringer.

Für das Beispiel von eben bekämen wir als Repräsentanten des Clusters zur Zapfsäule Hai-Oku gemittelte Erkennungsmerkmale japanischer Fahrer, für Super die gemittelten Merkmale von Sportwagen mit Fahrern, in deren Land Sportwagen Super tanken, und für Diesel gemittelte Merkmale von Lastern sowie von langweilig kolorierten Mittelklassewagen. Die Cluster können komplizierte Formen haben und müssen nicht zusammenhängen, deswegen mehrere Repräsentanten.

Repräsentanten der Klassen Diesel und Super im vereinfachten Merkmalsraum. Datenpunkte – durch Kreuze dargestellt – lassen sich anhand ihrer Entfernung zu den Repräsentanten einer Klasse zuordnen. Ein roter Kleinbus mit Anhänger würde an der Diesel-Säule landen.

Um einen neuen Datenpunkt zu klassifizieren, suchen wir uns den oder die n nächstgelegenen Repräsentanten zu diesem Punkt und bestimmt daraus die Wahrscheinlichkeit der Clusterzugehörigkeit. Wir schicken das Fahrzeug an die Zapfsäule, deren Cluster die höchste Wahrscheinlichkeit hat. Klasse (d.h. Zapfsäule) und  Wahrscheinlichkeit die Ausgaben des Klassifikators. Erweist sich die Entscheidung als falsch, analyisieren wir den Fehler und berechnen Korrekturen für die betroffenen Repräsentanten. Diese Korrekturen halten wir klein, Repräsentanten werden nur ein Stückchen in die richtige Richtung verschoben. Das macht unseren Klassifikator robust gegen einzelne statistische Ausreißer. Erst wenn systematische Fehler auftreten, akkumulieren sich viele gleichartige Korrekturen zu einer nennenswerten Verschiebung der Repräsentanten und Clustergrenzen. Beginnen können wir mit zufällig verteilten Repräsentanten; unser Klassifikator wird dann anfangs viele Fehler machen und schnell lernen.

Die Nutzerdaten werfen wir weg

Die ursprünglich erfassten Rohdaten, die gemessenen Merkmalswerte, können wir nach Verwendung wegwerfen. Dass Mutti beim Betanken ihres Kleinwagens immer eine Alditüte mit Einkäufen auf dem Beifahrersitz liegen hat, geht vielleicht als Merkmal in die Klassifikation ein – steht am Ende aber in keiner Datenbank. Wir brauchen diese Information nicht, unseren Klassifikator interessiert nur, ob der das Merkmal Alditüte berücksichten muss und falls ja, was es über die Clusterzugehörigkeit aussagt.

Wer genauer wissen möchte, wie statistische Inferenz und maschinelles Lernen funktioniert, und sich von Formeln nicht abschrecken lässt, findet im Buch Information Theory, Inference, and Learning Algorithms von David MacKay eine hervorragende und umfangreiche Einführung; das komplette Buch mit seinen 600 Seiten gibt es online als PDF-Datei. [Bevor Ihr jetzt anfangt zu drucken: die Amazon-Lieferung dauert auch nicht viel länger.]

In der nächsten Folge schauen wir uns die Leistungsfähigkeit und einige Implikationen dieses Ansatzes an.

Datenkrake Google (3/7): Statistisches Crowdsourcing

[InhaltTeil 1 Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Im vorigen Teil dieser Serie haben wir uns einige mentale Modelle angeschaut, die genau wie viele unserer Datenschutzkonzepte von der Informationstechnik des vorigen Jahrhunderts ausgehen. Jetzt nähern wir uns der Realität von heute, zunächst anhand einiger Dienste und Funktionen, die in Sachen Privatsphäre weniger kritisch sind.

Strategische Position

Google sitzt auf der Content-Schicht in der Mitte des Netzes. Alle online veröffentlichten Informationen kommen dort vorbei, und das inzwischen sehr schnell. Obendrein bietet Google mit der Suche einen Dienst an, den fast jeder Internet-Nutzer verwendet. Und die Google-Suche muss mit verrauschten Informationen umgehen können, um aus der Datenhalde Internet jeweils die relevanten Informationen herauszufiltern. Google setzt dafür auf Statistik, auf maschinelles Lernen und auf Crowdsourcing. Das illustrieren Funktionen der Suche sowie der Dienst Google Translate.

Wie baut man eine Rechtschreibkorrektur oder eine Suchbegriff-Autocompletion, wenn man in Googles Position  ist? Wäre man Microsoft, würde man Wörterbücher und Grammatik-Engines in die Schachtel packen, in der man sein Office-Paket verkauft. Als Microsoft muss man alles vordenken, was der Nutzer jemals tun wird. Die einzigen Rückkanäle sind die Support-Hotline, gelegentliche Crash-Reports sowie der Markt. Ist man dagegen Google, so interagiert man bei jedem Tastendruck mit seinem Nutzer.

Homöopathisches Crowdsourcing

Darauf lassen sich Crowdsourcing-Modelle stützen. Crowdsourcing bedeutet in etwa andere arbeiten lassen. Das ist gar nicht so einfach wie es klingt. Verlangt man zu viel für zu wenig Gegenleistung, fühlen sich die anderen ausgenutzt und spielen nicht mit. Ein früher Versuch in dieser Richtung war Googles Image Labeler. Er verpackte das Finden von Schlagworten zu Bildern als Spiel – das schnell langweilig wurde. Am besten funktioniert andere arbeiten lassen, wenn die anderen damit gar keine Arbeit haben oder die Arbeit sowieso machen.

Eingabekorrekturen sind ein Beispiel. Wer sich vertippt und seinen Fehler bemerkt, der wird ihn korrigieren. Sind wir nun Google und haben wir einen interaktiven Kanal zu jedem einzelnen Internet-Nutzer, so bekommen wir täglich Millionen, vielleicht sogar Milliarden von Tippfehlern samt den zugehörigen Korrekturen frei Haus geliefert. Mit anderen Worten, Google erhält eine umfangreiche Tippfehler- und Korrekturstatistik über einen beachtlichen Teil der Weltbevölkerung. Der einzelne Fehler, die einzelne Korrektur oder auch das Profil eines einzelnen Nutzers sind dabei belanglos, während die Aggregation dieser Daten fast alles enthält, was man über Tippfehler und und ihre Berichtigungen wissen kann.

Wenn man Google ist, zapft man diese Datenquelle an und baut einen Mechanismus, der von den Nutzern lernt, wie Tippfehler zu korrigieren sind. [Das Teufelchen auf meiner linken Schulter unterbricht mich gerade und schlägt vor, einen Google-Korrektur-Flashmob zu organisieren, der Google einen falschen Korrekturvorschlag für Hommingberger Gepardenforelle antrainiert. Das Engelchen auf der rechten weint leise in einen Facepalm hinein.] Funktioniert so ein Mechanismus einmal, müssen wir uns um keine Rechtschreibreform mehr kümmern. Das übernehmen alles die Nutzer, indem sie sich ganz natürlich verhalten. Das ist etwas vereinfacht, weil Google außerdem auch noch das ganze Web kennt und auch daraus eine Menge über alle möglichen Sprachen lernen kann (freies PDF).

Welche Vervollständigungen für teilweise eingetippte Suchbegriffe in Frage kommen, können wir an Googles Stelle auf ähnliche Weise ermitteln. Wir beginnen mit einer Statistik über die eingegebenen Suchbegriffe und die Texte im Web und bieten Vervollständigungen an. Mit dem Nutzerfeedback – welche Vorschläge werden angeklickt? – verfeinern wir unser Modell. In diesem Fall ist es manchmal nützlich, zum Beispiel den ungefähren Aufenthaltsort des Nutzers genauer zu kennen, wie ihn die IP-Adresse oft verrät.

Von der EU lernen heißt Übersetzen lernen

Wie weit solche Ansätze der automatischen Sprachverarbeitung heute führen können, zeigt uns der Übersetzer Google Translate. Dessen Übersetzungen erfolgen nicht anhand von Regeln, die ein Programmierer vorgegeben hat. Das wäre die Microsoft-Methode für Firmen, die Software in Schachteln packen. Die Google-Methode funktioniert nach demselben Prinzip wie eben erläutert. Aus dem Web bekommt Google laufend Beispiele für Übersetzungen, etwa von der EU mit ihren 23 Arbeitssprachen, in die alle offiziellen Dokumente übersetzt werden. Diese Übersetzungen stammen von Menschen; Google lässt daraus Maschinen lernen.

Weil das alleine noch recht fehleranfällig ist, berücksichtigt Google wieder auch das Feedback von seinen Benutzern. Sie können für die Übersetzung einzelner Wörter oder Wortgruppen zwischen Alternativen wählen, eigene Korrekturen eingeben und die Übersetzung insgesamt bewerten:

Die Korrekturen und Bewertungen liefern Google auch hier eine Statistik zur Optimierung.

Verhaltensforschung ohne Privacy-Problem

Um solche Funktionen und Dienste realisieren zu können, muss Google seine Nutzer ein wenig beobachten. Google benötigt eine Aufzeichnung der Nutzerinteraktion über einen Nutzungskontext hinweg, der sich über eine Folge von Klicks (Nutzersicht) oder HTTP-Requests (Googlesicht) erstreckt. Informationen über den Nutzer als Person sind Google dabei egal, das beobachtete Nutzerverhalten liefert lediglich Datenpunkte für eine Statistik über die gesamte Nutzerpopulation. Google möchte an dieser Stelle nicht wissen, wer wir sind oder wofür wir uns interessieren, sondern welche Verhaltensweisen häufig und welche selten vorkommen.

Unerwünschte Nebenwirkungen, zum Beispiel das Erstellen persönlicher Rechtschreibprofile beim Dienstanbieter, sind nicht per se ausgeschlossen. Sie sind nur uninteressant und lassen sich durch mittlere Sorgfalt im Umgang mit Daten recht zuverlässig vermeiden. Unterwegs besteht noch das Risiko einer Datenverkehrsanalyse, aus der jemand  trotz Verschlüsselung Rückschlüsse auf Eingaben ziehen könnte, aber das ist ein (kleines) inhärentes Risiko des Netzes, dafür kann Google nichts. Sollte so etwas als Angriffsszenario praktisch relevant werden, ließe es sich zudem technisch verhindern.

Google baut also Dienste, die mit implizitem Feedback aus dem statistischen Nutzerverhalten optimiert werden. In der nächsten Folge werden wir noch etwas tiefer in die Welt der lernenden Maschinen eintauchen. Es wird dann darum gehen, wie eine Maschine überhaupt lernen kann. Keine Angst, Formeln gibt es keine.

Datenkrake Google (2/7): Naive Modelle

[InhaltTeil 1Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Im ersten Teil haben wir gesehen, dass Google häufig missverstanden wird, weil wir Metaphern aus unserer Erfahrungswelt auf Google anwenden und damit alles für erklärt halten. In Wirklichkeit funktionieren solche Metaphern aber nur für einige Oberflächenphänomene.

Google als Datenbank?

Ein vebreitetes Missverständnis betrifft die Sammlung, Speicherung und Verwendung personenbezogener Daten, landläufig als Nutzerprofile bezeichnet. Nutzerprofile kann sich jeder vorstellen, das sind, ganz klar, umfangreiche Datensätze in riesigen Datenbanken:

»Die Profile als solche sollen ja immer anonym sein, das heißt (sofern ich das richtig verstehe), dass das z. B. so aussieht:

  • Profilnummer: 1337
  • Interessen:
    • Urlaubsziele: Toscana, Sizilien
    • Hobbies: Arduino, Lockpicking
    • Essen: Hamburger, Grießbrei

Wenn jetzt jemand Werbung schalten möchte, geht derjenige zu Google und sagt: „Hey, Google, ich will für mein Grießbreiwettessen am Fuße des Ätna Werbung schalten. Bitte zeige also allen Grießbreiessern, die gerne nach Sizilien fahren oder dort wohnen, folgende Werbung:
‚[…]‘.“«

(Kommentar von Steven Koenig alias Kreuvf  auf heise.de)

An diesem Modell orientieren sich unsere Ängste und Befürchtungen. Doch repräsentiert dieses Modell überhaupt die Realität? Es wirkt plausibel für den, der mal eine herkömmliche Datenbank gesehen hat, oder darauf basierende primitive Versuche der Datensammlung durch Abfrage beim Nutzer:

»Wer einen neuen Account im Internet anlegt – egal ob für die E-Mail, ein Webforum oder eine neue Shoppingseite – erlebt stets ein mühsames Prozedere: Zuerst muss man sich einen Nutzernamen und ein Passwort auswählen. Danach wird man über drei Seiten nach Details vom Geburtsdatum bis zu persönlichen Vorlieben befragt und muss die Anmeldung am Schluss per E-Mail absegnen.«

(Zeit Online: Stoppt die Datenkraken!)

Als Missbrauchsszenario stellen wir uns dazu gerne einen schwunghaften Handel mit solchen Datensätzen vor.

Andersdenkende

Google hat sich jedoch das Think Different! von Apple geborgt und tut Dinge gerne auf eine ganz andere Art als der gewöhnliche IT-Spießer. Mit lächerlichem Spielkram wie Datenbanken hält sich Google nicht auf. Der Grund dafür ist nicht etwa, dass Google nach der Weltherrschaft strebt, sondern dass Google die Herrschaft über ein Stück Welt besitzt: über einen riesigen, verteilten Computer, der fast alle. veröffentlichten Informationen zu sehen bekommt. Und damit etwas anfangen soll, trotz des Kauderwelschs aus einigen Hundert Sprachen und Dialekten. Dabei helfen Datenbanken nicht, die brauchen zu viele Menschen, die sich um sie kümmern.

Im oben zitierten Heise-Forum fragt User flare—-*: »Ein Mensch arbeitet, vergnügt sich, informiert sich, macht Unsinn. Wie will google das vernünftig trennen?« Die Antwort auf diese Frage lautet: Das weiß Google selbst nicht so genau. Die Geschichte von Google begann mit einer ähnlichen Frage und derselben Antwort: Wie können wir aus einem schlecht organisierten Haufen unstrukturierter, redundanter, fehlerhafter und mehrsprachigerTextdaten relevante Informationen herausfiltern? Googles Antwort lautete von Beginn an: Indem wir uns nicht um spezifische, ausformulierte Regeln kümmern, wie es etwa die Linguisten tun, sondern den Umgang der Nutzerpopulation mit den Daten statistisch auswerten. PageRank war eine Keimzelle der Google-Philosophie, die darin besteht, einen Computer mit allen möglichen Daten zu füttern und ihn die Antworten auf Fragen selbst finden zu lassen. Google ist ein Computer wie ihn Science-Fiction-Autoren jahrzehntelang beschrieben haben.

Datenschützer werfen Exceptions

Cloud Computing hat deshalb für Google eine Doppelbedeutung. Neben der landläufigen Interpretation als Verlagerung der IT vom Endgerät ins Netz bedeutet Cloud Computing für Google auch Statistik in vieldimensionalen Datenwolken zur Beantwortung von Fragen, kurz: statistische Inferenz und maschinelles Lernen.

Der herkömmliche Datenschutz tut sich schwer mit diesem Ansatz, denn er geht von den primitiven Modellen aus, die wir oben gesehen haben. So etwas wie Google ist in diesen Modellen nicht vorgesehen, und es gibt auch keinen Mechanismus im Datenschutz, der diesen Fehler erkennen und eine Excepton auslösen würde. Also wenden unsere Institutionen wacker die alten Begriffe auf eine neue Technik an. Das ist ungefähr so, als wollte man den heutigen Straßenverkehr mit Gesetzen aus der Ära der Postkutsche regeln. Formal ginge es irgendwie schon, wenn man Autos als pferdelose Wagen und Fahrräder als Drahtesel betrachtete, aber passend wären die Regeln nicht und es käme zu allerlei Absurditäten.

Dementsprechend knirscht es auch im Daten- und Privatsphärenschutz, wenn wir die Tradition mit der Moderne konfrontieren. Schwierigkeiten bereiten zum Beispiel:

  • Die binäre Unterscheidung zwischen personenbezogenen und anderen Daten, die Google bewusst und zweckdienlich vermischt
  • Die formalisierte Einwilligung des Individuums, das für Google eine Datenquelle in einem Kollektiv ist
  • Die Idee der Datensparsamkeit, die bei blinder und konsequenter Anwendung so etwas wie Google gar nicht zuließe, selbst wenn Google inhärent datensparsam wäre
  • Die Vorstellung einer feingranularen Zweckbindung etwa für das Datenfeld IP-Adresse, da solche Datenfelder nur in den Eingabedaten vorkommen

Google hat deswegen gar keine andere Möglichkeit als sich eine Generalklausel unterschreiben zu lassen, wenn Google Google bleiben will, unabhängig davon, ob Google mit unseren Daten gute oder böse Sachen macht.

Im nächsten Teil wird es darum gehen, wie Google aus Netzinhalten und Nutzerdaten nützliche Funktionen baut, ohne Privatsphären zu verletzen.

Datenkrake Google (1/7): Einleitung

[InhaltTeil 1 Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Google macht ein Riesengeschäft mit unseren Daten. Das stimmt. Google legt dazu gigantische Datenbanken an, aus denen man alles über uns herauslesen kann, und führt sie jetzt auch noch dienstübergreifend zusammen. Das stimmt so wahrscheinlich nicht, die Sache ist komplizierter.

Um Google ranken sich Mythen und Missverständnisse, manche halten Google gar für »eine der am meisten mißverstandenen Firmen auf diesem Planeten«. Diese Missverständnisse gehen oft darauf zurück, dass wir die einzelnen Ausprägungen von Google – Dienste wie die Suche, GMail, Google+ usw. – isoliert mit ihren jeweiligen Konkurrenten identifizieren, statt die Leitideen dahinter zu betrachten.

Repräsentativ für diese Art von Missverständnis ist die Betrachtung von Google+ als »Googles Angriff auf Facebook«, die uns oft Hand in Hand mit Untergangsprognosen begegnet. Dieselben Wahrsager können auch der Integration von Google+ und Google-Suche nichts abgewinnen. Doch im Google-Paradigma betrachtet ergibt alles einen Sinn: Google+ und die Dienstintegration liefert Google Daten genau jener Art, die Google braucht, um noch googliger zu werden. Womit wir wieder bei den Datenbanken wären, die Google nicht führt, weil Datenbanken ein Konzept aus der Welt vor Google sind.

Was also tut Google eigentlich mit unseren Daten? Diese Frage versucht meine Artikelserie zu beantworten. Sie wird aus aus öffentlichen Informationen und einer Portion Informatikerbauchgefühl ein Bild davon skizzieren, was Google (mutmaßlich) mit unseren Daten macht und wieso diese Nutzung nicht per se böse ist. Das soll weder eine Glorifizierung noch eine Verteufelung werden, sondern eine neutrale Darstellung technischer und philosophischer Aspekte sowie einiger daraus folgender Fragen zu unseren aus der Mainframe-und-PC-Ära überlieferten Datenschutzkonzepten. Um konstruktiv über Datenschutz-Fails, Post-Privacy und Spackeria-Positionen diskutieren zu können, brauchen wir korrekte Modelle dessen, worüber wir reden.

Wer eine Stunde Zeit hat, sich mit Googles unkommentierter Sicht der Dinge zu beschäftigen, dem sei der Vortrag »Secrets of Search« von Douglas Merrill empfohlen. Merrill erklärt darin, was Google mit den vielen Daten im Netz und von seinen Nutzern eigentlich tut. Meine Betrachtungen sind zum Teil spekulativ, wo sie über die Aussagen der verlinkten Quellen hinausgehen. Ich habe kein Insiderwissen und kann mich in meinen Schlussfolgerungen irren. Aber aus lückenhafter Dokumentation, beobachteten Verhaltensweisen und Experimenten Rückschlüsse auf die Funktionsweise von Systemen zu ziehen, ist schließlich mein Beruf. Auf technische Details kommt es mir hier nicht an, mir geht es um Funktionsprinzipien und Paradigmen, die Googles Herangehensweise zugrunde liegen.

Inhaltsverzeichnis

  1. Einleitung
  2. Naive Modelle
  3. Statistisches Crowdsourcing
  4. Lernende Maschinen
  5. Daten besiegen die Logik
  6. Und jetzt Werbung (und ein Nachtrag dazu)
  7. Privatsphärenschutz in der Datenwolke

In Folge 2 werden wir landläufige Vorstellungen von Nutzerprofilen betrachten und die Exceptions skizzieren, die der Legacy-Code unseres Datenschutzes bei der Interaktion mit dem Phänomen Google wirft.

Rezeptdatenhandel

Wer Gesundheitsdaten missbraucht, will bestimmt Patientenprofile anlegen und damit irgend etwas böses tun. Das scheint plausibel, wenngleich irgend etwas böses selten klar definiert wird, und spielt im Bedrohungsmodell der mühsam im Inkubator am Leben gehaltenen Gesundheitskarte eine zentrale Rolle. Nur halten sich Angreifer nicht an Angreifermodelle:

»Mit den Rezeptdateien, die nicht anonymisiert worden waren, konnten die Unternehmen eventuell nachvollziehen, welche Medikamente von bestimmten Arztpraxen verschrieben wurden. Derartige Informationen würden es ermöglichen, die Arbeit von Außendienstmitarbeitern zu kontrollieren. So könnte man demnach überprüfen, ob Ärzte nach den Besuchen von Vertretern der Pharmaindustrie häufiger bestimmte Medikamente verschreiben.«

(Heise Online: Bericht: Illegaler Handel mit Rezeptdaten)

Warum das verboten ist, spielt keine so große Rolle. Interessanter finde ich die Frage, ob man solche Angriffe im Entwurf unserer Gesundheits-IT berücksichtigt hat. Mehrseitige Sicherheit ist ja kein völlig neues Konzept.

Das Personalchefargument

Kommentarrecycling (dort im Spamfilter hängengeblieben):

Aus Diskussionen über öffentliche persönliche Informationen ist der googelnde Personalchef kaum wegzudenken. Gestritten wird dann darüber, was er denn nun sehen oder nicht sehen soll, damit dem Verkäufer eigener Arbeitskraft nichts schlimmes passiere. Gerne malt man sich phantasievoll die möglichen Folgen verstaubter Partyfotos aus, das gehört zu den Standards solcher Diskussionen. Doch es gibt ein grundlegendes Problem mit dem googelnden Personalchef: das Personalchefargument ist falsch, weil es von falschen Voraussetzungen ausgeht. Auf die Feinheit, ob der Personalchef nun etwas finden soll oder lieber nicht, kommt es dabei nicht an. Im Gegenteil, die Beliebigkeit in diesem Aspekt deutet auf ein grundlegendes Problem in den Axiomen hin. Wer mit einem falschen Satz von Axiomen anfängt, kann damit bekanntlich alles und das Gegenteil begründen.

Das Personalchefargument unterstellt als – regelmäßig unausgesprochene – Voraussetzung ein Unterwerfungsverhältnis zwischen Unternehmen („Arbeitgebern“) und für sie Arbeitenden („Arbeitnehmern“). Der Arbeitnehmer habe sich dem Arbeitgeber wohlgefällig zu verhalten, folgt daraus. In dieser Einseitigkeit ist das Modell falsch. In Wirklichkeit gibt es einen Arbeitsmarkt. Wie jeder andere Markt führt der Arbeitsmarkt führt der Arbeitsmarkt Parteien zusammen, die jeweils ihre eigenen Interessen verfolgen, und lässt sie Geschäfte zum beiderseitigen Nutzen machen. Dabei muss jeder dem anderen entgegenkommen, um seinen angestrebten Nutzen zu realisieren. Ich muss Zeit opfern, um Geld zu verdienen; eine Firma muss Geld opfern, um meine Zeit und meine Fähigkeiten zu bekommen. In der Ökonomie drückt man alles in Geld aus; im richtigen Leben spielen Faktoren wie das Betriebsklima auch ohne explizite Umrechnung eine Rolle.

In einem idealen Markt gibt es keine Ungleichgewichte, keine Seite kann den Markt über ihre Teilnahme hinaus zugunsten der eigenen Interessen beeinflussen. In der Realität greift man zuweilen regulierend ein, wo sich ein Markt zu weit von diesem Ideal entfernt. Regulierende Eingriffe können auch deshalb nötig sein, weil einige der theoretischen Eigenschaften idealer Märkte gar nicht realisierbar sind, zum Beispiel unendlich viele Teilnehmer auf beiden Seiten.

Das Personalchefargument ignoriert die Gegenseitigkeit des marktwirtschaftlichen Austauschs. Es postuliert Verhaltensregeln für Arbeitende, aber keine für Unternehmen, als gäbe es ein Kartell der Arbeitgeber. In Wirklichkeit muss aber jede Seite der anderen entgegenkommen, sonst finden keine Geschäfte statt, und was in einer Paarung von Marktteilnehmern nicht funktioniert, kann in einer anderen zum guten Geschäft werden.

Es mag also durchaus vorkommen, dass Personalchefs Saufbilder aus dem Internet in ihren Entscheidungen berücksichtigen. So wie es auch vorkommt, dass Firmen ihre Entscheidungen auf Horoskope oder graphologische Gutachten stützen. Das bedeutet dann aber nicht, dass jemand keine Arbeit findet, sondern lediglich, dass in einer bestimmten Konstellation kein Geschäft zustandekommt. Sind die Gründe dafür irrational, so ist das sogar zum Schaden des irrational Handelnden.

Eine Voraussetzung für einen gut funktionierenden Markt ist übrigens Transparenz: jeder Teilnehmer soll alle für rationale Entscheidungen relevanten Preise und Qualitätsmerkmale kennen. Die richtige Schlussfolgerung aus dem Personalchefargument ist deshalb nicht, dass jeder Arbeitende sein Online-Image zu polieren habe, sondern dass neben unseren Saufbildern auch die Dreckecken der Unternehmen ins Netz gestellt gehören. Wenn ich mich bei einem Unternehmen bewerbe, bewirbt sich gleichzeitig das Unternehmen bei mir. Da möchte ich schon etwas über seine Vergangenheit erfahren, und die Sommerfeste und Weihnachtsfeiern sind dabei minder relevant.

Missverständnis

Kommentarrecycling:

LeVampyre schreibt sich einen Wolf um zu erklären, warum sie Datenschutz gut und die Spackeria doof findet. Was sie schreibt, fühlt sich irgendwie richtig an, geht aber am Thema vorbei. Ihrem Text fehlt ein Begriff und damit der Kontext: informationelle Selbstbestimmung. Datenschutz ist nur ein Mittel zum Zweck. Wer »den Mißbrauch von Daten (…) unter Strafe stellen« möchte, braucht erst einmal einen Rahmen, in dem sich Missbrauch definieren lässt. Diesen Rahmen bildet nun nicht der Datenschutz als Selbstzweck, sondern die informationelle Selbstbestimmung als Idee: Jede soll Herrin ihrer persönlichen Informationen und Daten sein.

Informationelle Selbstbestimmung ist der Zweck, Datenschutz nur ein Instrument dazu. Vergisst man den Zweck, während man die Anwendung des Instruments optimiert, kommt Paternalismus heraus. Dann bestimme nicht mehr ich, was mit meinen Daten geschieht, sondern Beauftragte, Minister oder die Subkultur meiner Peer Group. Wenn ich Google, Facebook oder dem ganzen Internet bewusst und absichtlich Daten zur Verfügung stelle, ist das weder ein Datenverbrechen der anderen noch meine eigene Dummheit, sondern zuallererst mein gutes Recht. Der Datenschutz muss mich unvoreingenommen dabei unterstützen, dieses Recht auszuüben, ganz gleich, ob ich etwas verschweigen oder etwas mitteilen möchte.

Gleichzeitig vollziehen sich grundlegende Änderugen in der Art und Weise, wie wir – und Unternehmen – Daten verarbeiten und nutzen. Die spezifischen Regelungen des Datenschutzes stammen aus einer anderen Ära und sie können mit diesen Änderungen nur ungenügend umgehen. Das gilt im Guten wie im Schlechten: die endlose Diskussion um den Personenbezug von IP-Adressen zum Beispiel ist einerseits irrelevant für Google und Facebook, andererseits nervig für alle, die sich damit auseinandersetzen müssen.

Nach meinem Verständnis treiben diese beiden Aspekte die Spackeria, der Mismatch zwischen Idee und Umsetzung sowie der Mismatch zwischen Konzept und Realität. Das Ziel der Spackeria ist nicht, die Informationelle Selbstbestimmung abzuschaffen, sondern den Datenschutz als Mittel und Werkzeug der Realität anzupassen.

Cookies, Clients und die Cloud

Politiker und Bürokraten wollen die Verwendung von Cookies gesetzlich regulieren, erst die EU (mit unklarem Regelungsgehalt und schleppender Umsetzung), ein paar Jahre später nun auch die SPD. Warum ist das blöd? Ich hole mal etwas weiter aus:

Persönliche Computer, PCs, waren in den 70er und 80er Jahren des letzten Jahrhunderts eine große Sache. Jedem seinen eigenen Computer, klein genug für den Schreibtisch und mit verschiedenen Anwendungsprogrammen für vielerlei Zwecke einsetzbar, das hatte es vorher höchstens als Vision gegeben. Aus dieser Frühzeit der Jedermann-IT stammen viele Vorstellungen, die wir noch heute hegen, darunter die Wurzeln unseres Datenschutzes.

Auf den ersten Blick hat sich seitdem wenig geändert. Aus dem PC auf Arbeit wurde ein Gerätezoo für alle Lebenslagen aus PCs, Note- und Netbooks, Smartphones, Tablets, Internetradios, Spiekonsolen und so weiter, technisch im Grunde genommen immer noch persönliche Computer, nur schöner und kleiner und schneller. Seit den 90er Jahren folgte dem Jedermann-Computer das Jedermann-Netz und im folgenden Jahrzehnt wurde dieses Netz mobil und sozial. Allen Schichten gemein ist, dass ihre Nutzer in Selbstbedienung nach Bedarf Dienste einkaufen, die nach dem Umfang der Nutzung bzw. den zugesicherten Ressourcen abgerechnet werden. Dienstanbieter stellen aus einem Pool an Ressourcen ohne Zeitverzug die jeweils nachgefragten Dienste bereit.

Die jetzige Dekade wird das Jahrzehnt des Cloud Computing. So wie der PC in den 70ern entstand und in den 80ern seinen Namen bekam und sich verbreitete, ist Cloud Computing keine ganz neue Sache, sondern längst erfunden, einsatzbereit und zum Teil auch schon etabliert. Neu ist nur, dass es jetzt einen Namen dafür gibt und alle ein Geschäft wittern, nachdem die Early Adopters vorgemacht haben, dass es funktioniert.

Cloud Computing bedeutet, dass ein Großteil der IT als Dienst ins Netz wandert. Das kann auf verschiedenen Abstraktionsebenen geschehen. Infrastructure as a Service (IaaS) bietet virtuelle Maschinen und Speicher, Platform as a Service (PaaS) liefert Anwendungsplattformen und Software as a Service (SaaS) schließlich macht Anwendungssoftware zu einem Dienst. Ein Beispiel für SaaS ist wordpress.com, wo dieses Blog gehostet wird. Die Schichten lassen sich stapeln, ein SaaS-Anbieter kann auf PaaS-Dienste zurückgreifen, die sich ihrerseits auf IaaS stützen. Die unteren Schichten IaaS und PaaS sind vor allem für Unternehmen interessant, während SaaS in Form von allerlei Webdiensten längst Teil unseres Alltags ist und die klassische Nutzung von Anwendungssoftware auf einem PC teils ersetzt, teils ergänzt.

Geht es um Sicherheit und Datenschutz im Cloud Computing, starren alle wie gebannt auf die Dienstseite. Daten wandern ins Netz, ob aus dem Rechenzentrum eines Unternehmens oder vom heimischen PC, und man weiß nicht genau, wo sie eigentlich gespeichert und verarbeitet werden. Das macht Angst und wirft technische, organisatorische und rechtliche Fragen auf. Hinzu kommt, dass der Übergang von Software in Kartons zu Diensten im Netz in Verbindung mit agilen Entwicklungsmethoden die Softwareentwicklungs- und -lebenszyklen verändert. Es gibt kein Google 3.0, das ich kaufen und dann ein paar Jahre verwenden könnte, sondern Änderungen am Dienst im Wochen-, Tage-, Stunden- und sogar Minutentakt. Continuous Deployment und DevOps nennen wir diese bewusste Vermischung von agiler Entwicklung und Produktivbetrieb.

Ein SaaS-Dienst ist nicht in sich abgeschlossen und unabhängig vom Rest des Netzes, sondern es handelt sich, für Nutzer manchmal schwer erkennbar, um eine Aggregation mehrerer Anwendungs- und Hilfsdienste, ergänzt um spezifische Funktionen des aggregierenden Hauptdienstes. Like-Buttons, Widgets, Videos, RSS-Feeds, Analytics, Werbebanner, Nutzerkommentare, Payment, Fonts und so weiter stützen sich auf Fremddienste, die, oft clientseitig, in den Hauptdienst integriert werden. Hilfsdienste haben meist ihren eigenen Betreiber und sie werden in viele verschiedene SaaS-Dienste eingebunden.

Weniger Aufmerksamkeit erhält beim Blick auf die Cloud die irdische Hälfte des Systems, die Client-Seite. Cloud-Dienste besitzen praktisch immer ein Webinterface, mindestens fürs Management, oft auch – und bei SaaS sowieso – für den eigentlichen Dienst. Der Nutzer bekommt damit eine universelle Client-Umgebung, bestehend aus einem Browser mit generischen Plugins (Flash, Java, Silverlight) und Unterstützungsanwendungen (PDF-Viewer, Office, iTunes) auf dem klassischen PC oder aus einem Browser und anwendungsspezifischen Apps auf mobilen Gadgets wie Smartphones oder Tablets.

Nach dieser langen Vorrede nun zurück zu den Cookies. Das Konzept des Cookies wird demnächst volljährig, es handelt sich ursprünglich um kleine Datenhäppchen, die eine Website einer Browserinstanz zur Speicherung übermittelt. Der Browser merkt sich diese Daten und schickt sie für einen festgelegten Zeitraum bei jeder weiteren Interaktion mit der Website dorthin zurück. Heute gibt es darüber hinausgehende Persistenzmechanismen auch für größere Datenmengen im Browser selbst sowie in verbreiteten Plugins, zum Beispiel im Flash Player.

Jeder Dienst in einer SaaS-Aggregation kann Cookies setzen und mit Hilfe dieser Cookies Daten über das Nutzerverhalten über alle Dienstnutzungen hinweg erfassen und sammeln. Die aggregierten Hilfsdienste erhalten dabei Daten aus verschiedenen SaaS-Anwendungskontexten verschiedener Anbieter und sind gleichzeitig für den Nutzer schwer zu identifizieren. Datenschützer stellen zu Recht die Frage, wie die Dienstnutzer unter diesen Bedingungen wirksam von ihrem Recht auf informationelle Selbstbestimmung Gebrauch machen können. Sie geben darauf aber die falschen Antworten.

De jure und traditionell wäre das Problem durch Kommunikation und Vereinbarungen des Nutzers mit jedem einzelnen involvierten Dienstanbieter zu lösen. Aggregierte Hilfsdienste als Auftragsdatenverarbeitung unter einer Vereinbarung zwischen dem Nutzer und dem Anbieter des Hauptdienstes zu subsumieren, wie es etwa für Analytics-Dienste diskutiert wurde,  vereinfacht die Sache wegen der Mehrfacheinbettung der Hilfsdienste in verschiedenste SaaS-Anwendungen nur scheinbar. Außerdem ändert sich permanent irgendwo irgendwas, so dass wir als Nutzer am Ende nur noch mit Zustimmen beschäftigt wären, wenn uns keine Generalvollmacht diese Mühe abnimmt. Erforderlich sind Lösungen, die die Architektur von SaaS-Mashups und der Client-Plattform als gegeben hinnehmen und darauf effektive Mechanismen für den technischen Datenschutz bereitstellen.

Cookies sind dabei nur ein wenig kritisches Randphänomen. Da sie clientseitig gespeichert werden, lässt sich ihre Speicherung und Übermittlung auch clientseitig effektiv steuern. Verbesserungsbedarf gibt es dabei vor allem in der Usability. Wünschenswert wäre zum Beispiel ein einheitliches User Interface für Einstellungen über alle Teilsysteme (Browser, Plugins, Apps, etc.) des Clientsystems hinweg anstelle getrennter, inkonsistenter Management-Schnittstellen für Cookies, Persistent DOM Storage und Flash-Cookies. Sinnvoll fände ich auch eine Möglichkeit, meine Datenschutzeinstellungen zwischen meinen fünf regelmäßig genutzten Clientsystemen zu synchronisieren statt fünfmal dasselbe konfigurieren zu müssen. Aber Clientsysteme und ihre Eigenschaften kommen in der Diskussion oft gar nicht vor. Soll ich ernsthaft mit dreiundzwanzig Diensten Vereinbarungen treffen, statt mir einmal eine Policy zusammenzuklicken, die meine eigene Technik für mich durchsetzt? P3P hatte zwar Schwächen und hat sich nicht durchgesetzt, aber damals hat man doch immerhin noch das Gesamtsystem angeschaut und eine Komponente an die richtige Stelle gesetzt, nämlich in den Client.

Mit formalisierten Rechtsritualen aus der Frühzeit der Alltags-IT ist das Problem nicht in den Griff zu bekommen. Gesucht sind effektive und benutzbare Mechanismen. Das ist die technische Sicht, die politische Dimension hat Benjamin Siggel vor einiger Zeit im Spackeria-Blog betrachtet.

Kleine Datenschutztheaterlinksammlung

In den Kreisen der Spackeria macht die Wortschöpfung Datenschutztheater die Runde. Bereits vor knapp einem Jahr prägteverwendete Ed Felten die englische Entsprechung Privacy Theater, die ungefähr dasselbe bezeichnet, nur ohne den deutschen Bürokratie- und Beauftragtenoverhead. Google findet noch ein paar frühere Verwendungen. Isotopp beleuchtet schon seit längerer Zeit immer wieder Beispiele, zuletzt das Opt-Out für WLAN-Accesspoints und die amtlich datenschutzkonforme Verwendungsweise von Google Analytics. Zeit für einen Paradigmenwechsel im organisierten Datenschutz.

Post-privacy in practice

While our government-appointed privacy officials fight Google, Facebook, and everyone who dares processing IP addresses, this is going on in the world around us:

»One incident that recently came up is the fact that my car reports latitude, longitude, position, and speed whenever it downloads an RSS feed (yes my car actually downloads RSS – it’s a Nissan Leaf).«

(SIGCRAP: The continuing erosion of privacy)

[Update: See The Risks Digests for links to details.] I suppose my cellphone may do the job for me while I’m riding my bicycle.

Datenschutzprioritäten

Meine Rede seit Jahren:

»ELENA? Klar. SWIFT? Naja, nicht schön, aber was will man machen. Steuer-ID aka PKZ2.0: Mei, wir haben halt keine Handhabe. Aber wehe ein privates Webforum wagt es Werbung zu schalten und „IP-Adressen zu übermitteln“. Da feiert der Adminarsch aber Kirmes, da wird draufgekloppt als gäbe es kein Morgen. Schließlich muss die Privatsphäre der Forenuser gegenüber Google geschützt werden, sind die ja zu doof Cookies zu sperren oder nen AdBlocker zu benutzen.«

(tarzun: „Datenschutz“ im Jahr 2011)

DDoS

Welches Hackertool nimmt man, um einen Denial-of-Service-Angriff gegen eine kritische Infrastruktur ins Werk zu setzen? Genau, das Gesetzbuch:

»Schon gestern war der Tiergartentunnel ohne Vorwarnung gesperrt worde. Kurzzeitig war das zwar vorgesehen, aber der Grund für die Dauersperrung ist ein bizarres Datenschutzproblem: Nach Auskunft der Stadtentwicklungsverwaltung wurden die Bilder aus den Überwachungskameras aufgezeichnet, obwohl die Kameras nur der augenblicklichen Kontrolle des Verkehrs dienen sollen.«

(Tagesspiegel: Verkehr lahmgelegt: Stadtweites Chaos durch Nato-Gipfel und Tunnelproblem)

Wir haben viel zu wenig Phantasie. Hand aufs Herz, wem wäre Datenschutz-DoS als Bedrohung eingefallen?

Privatheit versus Fortschritt − Wie schutzbedürftig sind biometrische, medizinische und genetische Daten?

Vortragsabend der „Darmstädter Juristischen Gesellschaft“ mit anschließender Podiumsdiskussion in Kooperation mit dem Forum für interdisziplinäre Forschung der TU Darmstadt sowie CASED.

Montag, 1. November 2010, ab 18:00 Uhr, Georg-Christoph-Lichtenberg Haus der TU Darmstadt, Dieburger Strasse 241, 64287 Darmstadt

Details hier und dort.

Nett

Ob Google nun eine gefährliche Datenkrake ist oder nicht, charmant ist solch demonstrative Transparenz allemal:

»Please note that this Privacy Policy may change from time to time. We will not reduce your rights under this Privacy Policy without your explicit consent. We will post any Privacy Policy changes on this page and, if the changes are significant, we will provide a more prominent notice (including, for certain services, email notification of Privacy Policy changes). We will also keep prior versions of this Privacy Policy in an archive for your review.«

Ich kann mich nicht erinnern, so etwas schon einmal woanders gesehen zu haben.