Archiv der Kategorie: Datenkrake

Trendsport Algorithmenschelte

Oktober 20, 2019Datenkrake, Digitalisierung, Geschäft, Philosophie, Propaganda, WahrnehmungAlgorithmenethik, künstliche Intelligenz, Recommender, TechlashSven Türpe

Warf man Internetkonzernen wie Google und Facebook einst vor allem vor, Datenkraken zu sein, hat heute de Algorithmenschelte den Spitzenplatz unter den Memen der Technikkritik übernommen. Die künstliche Intelligenz stehe kurz vor der Übernahme der Weltherrschaft, raunt es durch die Medien, und niemand verstehe so recht, was sich diese immer mächtiger werdenden Algorithmen dächten. Man müsse ihnen Zügel in Gestalt von Algorithmenethik und Not-Aus-Knöpfen anlegen, damit sie sich richtig entschieden, wenn sie etwa bei der Steuerung eines fahrerlosen Autos zwischen verschiedenen Unfallopfern zu wählen hätten.

Nun ist es gewiss nicht falsch, sich kritisch mit neuer Technik und ihren Anwendungen auseinanderzusetzen. Doch mittlerweile bekommt man manchmal den Eindruck, es sei legitim und notwendig, sich vor Algorithmen und künstlicher Intelligenz zu fürchten wie frühere Generationen vor dem Atomtod. Doch die gegenwärtigen Diskussionen sind geprägt von Missverständnissen, grandiosen Überschätzungen, Motiven aus der Science Fiction sowie modernen Legenden, die sich dank oberflächlicher Plausibilität durch ungeprüftes Nacherzählen verbreiten.

Eine dieser Legenden besagt, der Empfehlungsalgorithmus von YouTube fördere systematisch Schund und Schmutz und ziehe seine Nutzerinnen und Nutzer schnell und tief in extreme Filterblasen. Ich kann diese Erzählung aus eigener Erfahrung nicht nachvollziehen, denn meine persönlichen Empfehlungen sind an Harmlosigkeit kaum zu überbieten.

Ich habe freilich auch nicht die Methode angewandt, mit der die Empfehlungskritiker Belege für ihre These konstruieren: Getreu dem Axiom, dass stets nur die anderen als verstrahlte Manipulationsopfer in Frage kommen, während man selbst erleuchtet sei und alles durchschaue, betrachtet man einen hypothetischen Neunutzer ohne Vergangenheit, der YouTube zum ersten Mal nutzt und sogleich dessen Empfehlungen folgt. Das ist zwar offenkundiger Blödsinn, denn in dieser Situation kann auch das intelligenteste Empfehlungssystem nur raten, doch es liefert die gewünschte Geschichte. Mit Analysen, wie die Beobachtungen zustande kommen, hält man sich dabei nicht auf.

In diese Kerbe haut nun auch die Mozilla-Stiftung mit ihrer Kampagne YouTube Regrets, in der sie Geschichten verstörter Zuschauerinnen und Zuschauer erzählt und Google als Betreiber der Plattform angreift. Die Motivation bleibt unklar, doch konkurrieren Mozilla mit Firefox und Google mit Chrome erbittert um Anteile am Browsermarkt.

Im Zentrum der Kampagne stehen die Statements 28 anonymer YouTube-Zuschauer, die sich mehr oder minder entsetzt zeigen ob der Videos, die ihnen die Plattform empfahl. So empört sich Zeuge Nr. 3, Pferdesportfan, darüber, dass YouTube ihr oder ihm immer wieder Videos kopulierender Pferde anbiete, obgleich man an Pornographie gänzlich desinteressiert sei. Nr. 13 schaute sich Anita Sarkeesians „Tropes vs Women in Video Games“ an und sah sich daraufhin mit Videos des Gamergate-Mobs konfrontiert. Nr. 22 berichtet, nach dem Genuss von Gaming-Videos unvermittelt auf Bongs gestoßen zu sein und vermutet, der Algorithmus habe einen Witz aus einem der Videos aufgegriffen. In einigen Statements wird sogar von Kindern berichtet, die offenbar unbeaufsichtigt vor dem Google-Apparat saßen und die das Programm darin verstört habe.

So weit, so spießig. Als Beitrag zur Erhellung war Mozillas Kampagne vermutlich nicht gedacht, doch illustrieren die verwendeten Statements Missverständnisse und Denkfehler, die populistischer Algorithmenschelte wie dieser zugrunde liegen. Das größte Missverständnis: Es handle sich um komplizierte, geheimnisvolle Algorithmen, die anhand einer Unmenge von Daten unser Innerstes durchleuchteten, um unsere Interessen zu verstehen, und persönliche Empfehlungen für jede Einzelne von uns berechneten.

Tatsächlich verstehen wir Empfehlungssysteme gut. Sie berechnen abstrakte Kategorien – meist andere als ein Mensch bilden würde – in die sie sowohl Nutzer als auch Inhalte einordnen und geben die danach am besten passenden Kombinationen aus. Ihr Weltwissen beziehen sie dabei aus dem beobachteten und statistisch aggregierten Verhalten der Nutzerschar. Schauen sich also viele als Pferdeliebhaber eingestufte Nutzerinnen und Nutzer Filme von kopulierenden Pferden an, wird das Empfehlungssystem diese statistische Assoziation reproduzieren. Von Pferden oder von Kopulation versteht der Algorithmus dabei nicht das Geringste.

Überhaupt dürfte das Empfehlungssystem wenig oder gar keine Informationen über den Inhalt eines Videos berücksichtigen, denn solche sind trotz aller Fortschritte immer noch schwer zu ermitteln, zumal im YouTube-Maßstab, wo in jeder einzelnen Sekunde Videomaterial mit einer Gesamtlaufzeit von mehreren Stunden hochgeladen wird. Stattdessen wird das Empfehlungssystem vor allem oder ausschließlich mit Metadaten arbeiten: Titel und Beschreibungen, Kanäle, Likes und so weiter.

Von unserem Innersten, unseren Interessen versteht das Empfehlungssystem noch weniger als vom Inhalt der Videos, denn es sieht von uns nur das, was wir auf YouTube tun. Auf dieser Grundlage lassen sich keine wirklich persönlichen Empfehlungen geben, wie man sie vielleicht von engen Verwandten oder langjährigen Freunden erhielte. Vielmehr rät YouTube, was uns gefallen könnte, weil es andere mit ähnlichen Sehgewohnheiten angeschaut haben, statt aus seinem riesigen Angebot eine noch willkürlichere Zufallsauswahl zu präsentieren. Die einzige gerechtfertigte Erwartung an ein solches System ist die, dass es nach häufiger Nutzung Empfehlungen präsentiere, die im Mittel etwas weniger unpassend seien eine willkürliche Auswahl. Ganz unschuldig ist die Internetwirtschaft an Überschätzung ihrer Möglichkeiten allerdings nicht, nimmt sie doch den Mund gerne voll und preist den Output recht banaler Software selbst als personalisiert an.

Dem Missverständnis folgt ein Denkfehler, wenn man Algorithmen wie einem Empfehlungssystem Schutz vor Schund und Schmutz oder gar Moral abverlangt. Zum einen können sie dies bei weitem nicht leisten, denn sie betreiben letztlich nur automatisiert eine clevere Statistik, während sich an Fragen von Moral und Ethik Generationen von Philosophen und Theologen die Zähne ausgebissen haben, ohne endgültige Antworten geben zu können. Doch selbst wenn man auf Beschränkungen der Technik keine Rücksicht zu nehmen hätte, vielleicht gar Menschen an ihre Stelle setzte, blieben solche Entwurfsziele problematisch.

Wessen Moral soll „der Algorithmus“ durchsetzen? Ist es richtig, ist es notwendig, Menschen vor dem Anblick kopulierender Pferde zu schützen oder stellt vielleicht die Vermittlung biologischer Allgemeinbildung über die Fortpflanzung der Säugetiere ein höherrangiges Ziel dar? Sollen Empfehlungen Filterblasen verstärken, abschwächen oder ignorieren und gilt die Antwort gleichermaßen für feministische Filterblasen wie für jene des Gamergate-Mobs? Und was sollen wir aus der Tatsache schließen, dass mehrere Statements der Mozilla-Kampagne explizit sagen, man selbst habe den Schmutz natürlich als solchen erkannt, aber andere müssten doch sicher davor geschützt werden?

Das Internet ist ein Spiegel der Gesellschaft. Empfehlungssysteme geben ein Echo, teils auf das Sehverhalten einzelner Nutzerinnen und teils auf kollektives Verhalten. Wie sich diese Faktoren im Einzelnen mischen und ein bestimmtes Ergebnis hervorbringen, mag manchmal so schwer zu durchschauen sein wie die Akustik eines Konzertsaals für jemanden, der schon im Physikunterricht nicht aufgepasst hat. Dies ist jedoch kein Grund, Algorithmen zu verteufeln oder Unmögliches von ihnen zu verlangen. Es handelt sich nur um banale Computerprogramme.

Das heißt nicht, dass es nichts zu diskutieren gäbe. YouTube und andere Plattformen haben die Medienlandschaft verändert und damit auch die Art und Weise, wie gesellschaftliche Diskurse verlaufen. Doch wer die daraus resultierenden Fragen auf Algorithmenschelte verkürzt, setzt an der falschen Stelle an und verliert wichtige Aspekte aus dem Blick. Allen voran ist dies die Finanzierung durch Werbung, die nicht nur klassischen Medien Umsätze genommen hat – deswegen kämpften die Verlage so vehement für ein Leistungsschutzrecht, das ihnen Vor- und den neuen Konkurrenten Nachteile bescheren sollte – sondern auch die ökonomischen Anreize bestimmt, aus denen die Entwicklungs- und Optimierungsziele der Betreiber und damit Gestaltungsentscheidungen resultieren. Dass wirtschaftliche Abhängigkeit von der Werbung in der Programmgestaltung für eine Gratwanderung zwischen Krawall zur Publikumsbindung und Seichte zur Befriedigung der Werbekundenwünsche führt, kennen wir schon aus dem Privatfernsehen.

Algorithmen sind demgegenüber nur der verlängerte Arm des Unternehmens, das sie einsetzt. Sie bestimmen nicht die Richtung, sondern sie wirken als ausführendes Organ. Ihre Funktion folgt notwendig den Zielen und Prioritäten derer, die sie einsetzen. Wer sich an Algorithmen abarbeitet statt an Unternehmen und ihre Geschäftsmodellen, müsste folgerichtig angesichts des Volkswagen-Skandals, Verzeihung, der Dieselproblematik auch eine Motorenethik fordern. Doch darüber würden wir zu Recht lachen.

PS: Eine gute Vorstellung davon, wie Empfehlungssysteme funktionieren, vermittelt dieser Artikel: How The New York Times is Experimenting with Recommendation Algorithms.
(2019-10-24)

PPS: Eine neue Studie beschäftigt sich mit der Frage, ob man eine eventuelle Radikalisierung auf YouTube überhaupt „den Algorithmen“ zuschreiben kann.
(2019-10-25)

Digitaler Umweltschutz?

April 29, 2018Datenkrake, Datenschutz, Security, SpackeriaDatenemission, VorsorgeSven Türpe

In der Süddeutschen fordert Adrian Lobe einen digitalen Umweltschutz und argumentiert dabei mit Datenemissionen. Das ist mir im Ansatz sympathisch, weil ich die Vorstellung der permanenten Datenemission für ein geeigneteres Modell der heutigen Datenverarbeitung halte. Andererseits geht mir jedoch seine Ausweitung des Gedankens auf eine Analogie zu Emissionen im Sinne des Umweltschutzes zu weit.

Unabhängig davon, was wir insgesamt von der personenbezogenen Datenverarbeitung halten und welche Schutzziele wir im Einzelnen verfolgen, brauchen wir als Grundlage ein passendes Modell davon, wie Daten entstehen, fließen und verarbeitet werden. In dieser Hinsicht beschreibt das Emissionsmodell die heutige Realität besser als die Begriffe des traditionellen Datenschutzes, die auf das Verarbeitungsparadigma isolierter Datenbanken gemünzt sind.

Der klassische Datenschutz in der Tradition des BDSG (alt) ist begrifflich und konzeptionell eng an die elektronische Datenverarbeitung in isolierten Datenbanken angelehnt. Daten werden „erhoben“ (jemand füllt ein Formular aus) und sodann „verarbeitet“, das heißt gespeichert, verändert, übermittelt gesperrt oder gelöscht, sowie vielleicht sogar „genutzt“ (diesen Begriff verfeinert das alte BDSG nicht weiter).

Diese Vorstellungen passen nicht zu einer Welt, in der jeder ein Smartphone in der Tasche hat, das permanent Daten in die Cloud sendet. Sie passen nicht einmal dazu, dass einer die Adresse und Telefonnummer eines anderen in der Cloud speichert. Aus dem Konflikt zwischen der veralteten Vorstellung und der heutigen Realität resultieren regelmäßig Blüten wie der Hinweis des Thüringer Datenschutzbeauftragten, die Nutzung von WhatsApp sei rechtswidrig, die den Datenschutz als realitätsfern dastehen lassen.

Mit dem Emissionsmodell bekommen wir eine neue Diskussionsgrundlage, die näher an der tatsächlichen Funktionsweise der Datentechnik liegt. Wenn wir die Schutzziele des Datenschutzes auf dieser Grundlage diskutieren, finden wir eher praktikable und wirksame Maßnahmen als auf der Basis veralteter Vorstellungen. Das ist die positive Seite des Emissionsgedankens.

Die negative Seite zeigt sich, wenn man den Gedanken zu weit treibt und daraus eine Analogie zu Emissionen im Sinne des Umweltschutzes macht. Das ist zwar verführerisch – wenn ich mich richtig erinnere, haben wir diese Frage beim Schreiben von „Emission statt Transaktion“ auch diskutiert – aber ein rückwärtsgewandter Irrweg.

Ein entscheidender Unterschied zwischen Umwelt- und Datenemissionen liegt darin, dass Umweltemissionen eine zwangsläufige Wirkung haben: Im verschmutzten Fluss sterben die Fische, Kohlendioxid ändert das Klima und Plutonium im Tee macht krank. Nach der Freisetzung lässt sich die Wirkung nur noch durch eine – meist aufwändige – Sanierung steuern und unter Umständen nicht einmal das.

Daten haben diese zwangsläufige Wirkung nicht. Wie wir miteinander und wie Organisationen mit uns umgehen, können wir unabhängig von Daten regeln. Wenn wir zum Beispiel Diskriminierung verbieten und dieses Verbot wirksam durchsetzen, dann kommt es auf die verwendeten Mittel nicht mehr an – was eine Organisation weiß, ist egal, denn sie darf damit nichts anfangen.

Dem traditionellen Datenschutz ist diese Perspektive jedoch fremd, denn er verfolgt das Vorsorgeprinzip für den Umgang mit epistemischen Risiken: Wenn wir die Gefahren von etwas noch nicht gut genug verstehen, um sie quantifizieren zu können, lassen wir besser sehr große Vorsicht walten. Dieser Gedanke ist im Umweltschutz weit verbreitet und bezieht seine Berechtigung dort aus dem Maximalschadenszenario der Zerstörung unserer Lebensgrundlage. Selbst mit dieser Drohung im Gepäck bleibt das Vorsorgeprinzip freilich umstritten, denn epistemische Ungewissheit über Gefahren impliziert auch Ungewissheit über die Kosten und Auswirkungen von Vorsichtsmaßnahmen.

Im traditionellen Datenschutz – der, ob Zufall oder nicht, etwa zeitgleich mit dem Erstarken der Umwelt- und Anti-Atomkraft-Bewegung entstand – finden wir diesen Vorsorgegedanken an mehreren Stellen: in der Warnung des Bundesverfassungsgerichts im Volkszählungsurteil vor einer Gesellschafts- und Rechtsordnung, „in der Bürger nicht mehr wissen können, wer was wann und bei welcher Gelegenheit über sie weiß“, im grundsätzlichen Verbot der Verarbeitung personenbezogener Daten, das nur ausnahmsweise durch eine Rechtsvorschrift oder die Erlaubnis der Betroffenen aufgehoben werde, sowie in der Forderung nach Datenvermeidung und Datensparsamkeit.

All dem liegt die Vorstellung zugrunde, die Speicherung und Verarbeitung personenbezogener Daten sei mit unschätzbaren Gefahren verbunden und daher nur äußerst vorsichtig zu betreiben. Allerdings wissen wir heute, dass man damals so manche Gefahr grob überschätzte. So warnte das Verfassungsgericht weiter: „Wer unsicher ist, ob abweichende Verhaltensweisen jederzeit notiert und als Information dauerhaft gespeichert, verwendet oder weitergegeben werden, wird versuchen, nicht durch solche Verhaltensweisen aufzufallen“, und: „Freie Entfaltung der Persönlichkeit setzt unter den modernen Bedingungen der Datenverarbeitung den Schutz des Einzelnen gegen unbegrenzte Erhebung, Speicherung, Verwendung und Weitergabe seiner persönlichen Daten voraus.“ Das war zu kurz gedacht – heute zelebrieren viele von uns ihre abweichenden Verhaltensweisen in der Öffentlichkeit von Twitter, Facebook, Instagram und YouTube und träumen dabei von einer Karriere als Influencer.

Heute leben wir in jener Welt, vor der das Verfassungsgericht einst warnte, genießen ihren großen Nutzen und spüren nur geringe Schmerzen. Von den befürchteten Gefahren für die freie Entfaltung er Persönlichkeit ist wenig zu sehen. Zudem können wir inzwischen ganz gut einschätzen, welche Gefahren bestehen und was man dagegen zu welchem Preis tun kann. Der Vorsorgegedanke ist damit überholt und deshalb passt die Analogie zum Umweltschutz nicht so gut. Andererseits ist der Umweltschutz nicht nur Vorsorge, sondern beinhaltet auch die risikoorientierte Gefahrenabwehr und in dieser Hinsicht mag man sich an ihm als Vorbild orientieren.

Massenhafte Individualmanipulation ist viel zu teuer

März 28, 2018Datenkrake, Geschäft, Propaganda, So geht dasAlgorithmen, Ökonomie, Cambridge Analytica, Facebook, manipulation, SkandalSven Türpe

Der aktuelle Skandal um Facebook und Cambridge Analytica ist gar nicht so neu. Die Geschichte von der psychometrischen Wahlkampfbeeinflussung geistert schon länger durch die Medien. Ganz knapp lautet die Erzählung: Jemand verwendet Daten aus Quellen wie Facebook, um Persönlichkeitsprofile von Wählern zu erstellen, und nutzt diese Profile zur gezielten Beeinflussung.

Das ist eine wunderbare Gruselgeschichte, aber nicht besonders plausibel. Zweifel an der Effektivität wurden bereits vor einem Jahr laut und auch im Zuge der aktuellen Diskussion sieht so mancher mit Ahnung mehr Angeberei als reale Fähigkeiten. Zu recht, denn die Geschichte von der Manipulation durch Persönlichkeitsprofile passt besser zu naiven Vorstellungen als zum real existierenden Internet. Sie ergibt ökonomisch keinen Sinn.

Individuen wählen bereits ohne Nachhilfe aus den verfügbaren Informationen diejenigen aus, die zu ihrem Weltbild passen. Bestätigungsfehler nennt man das – wir richten unsere Überzeugungen nicht nach rational abgewogenen Argumenten, sondern wir legen uns zu unseren Überzeugungen die passenden Argumente zurecht und ignorieren, was ihnen widerspricht. Diesen Effekt könnt Ihr beispielsweise in jeder Diskussion über Fahrradhelme beobachten, wo nie jemand seine Ansichten ändert. Das ist natürlich in dieser Form etwas übertrieben, denn nicht alle Ansichten sind fest gefügt und etwas Spielraum für erfolgreiche Überzeugungsarbeit bleibt.

Wenn sich jeder zu seinem Weltbild die bestätigenden Inputs sucht und inkompatible Aussagen verwirft, gibt es keinen Grund, Kampagnen aufwändig an individuelle Ansichten und Vorlieben anzupassen. Man kann einfach alle mit allen Botschaften in allen möglichen Versionen zuschütten, selbst wenn man eigentlich nur auf ein paar Zweifler und Wankelmütige zielt. Nichts anderes geschieht in einem klassischen Wahlkampf oder auch bei herkömmlicher Werbung.

Dass man dennoch bei jeder Werbung, ob politisch oder nicht, eine Optimierung durch Targeting versucht, hat vor allem einen ökonomischen Hintergrund. Ein Werbekontakt, der von vornherein ohne Erfolgschance beibt, weil das Ziel am Inhalt kein Interesse hat, ist rausgeworfenes Geld. Man wird deshalb versuchen, absehbar überflüssige Werbekontakte zu vermeiden.

Bei einem Plakat am Straßenrand geht das nicht. In den herkömmlichen Medien kann man sich an der Demografie der Konsumentinnen orientieren und seine politische Werbung wahlweise in der FAZ, der taz, dem Neuen Deutschland oder dem Bayernkurier schalten und damit grob verschiedene Zielgruppen ansprechen. Außerhalb der Politik tun Zeitschriftenverlage nichts anderes als zielgruppenspezifische Werberahmenprogramme zu gestalten, etwa Computermagazine für Anfänger, Fortgeschrittene und Profis, Automagazine, Sportzeitschriften (getrennt nach Sportarten) und so weiter.

Absehbar überflüssig ist statistisch gesehen alle Werbung – die Reaktionsraten bleiben, Optimierung hin oder her, verschwindend gering. Das dürfte ähnlich auch für Beeinflussungsversuche gelten, die im Gewand von Nachrichten oder Gerüchten daherkommen (Test: Wer von Euch ist so leichtgläubig, dass er sich von plumpen Fake News beeinflussen ließe?). Weiter optimieren als mit einer groben Zielgruppensegmentierung lässt sich herkömmliche Werbung jedoch kaum, ohne dass der Aufwand zu groß würde.

Das Internet erlaubt in dieser Situation einen neuen Optimierungsansatz. Man kann hier mit geringen Kosten nahezu alle ansprechen – und aus den Reaktionen in Form von Klicks ersehen, wer für welche Ansprache anfällig ist. Cormac Herley hat sich unter dem Gesichtspunkt der IT-Sicherheit mit solchen Ansätzen beschäftigt und unter anderem dieses Paper veröffentlicht: „Why do Nigerian Scammers Say They are from Nigeria?“. Darin beschreibt er am Beispiel der Betrugsmasche der Nigeria Connection genau diesen interaktiven Ansatz. Die Betrüger streuen breit ihre absurde Geschichte von herrenlosen Millionen, die man außer Landes bringen wolle, und beschäftigen sich dann einzeln mit den wenigen Trotteln, die blöd genug sind, darauf einzugehen.

Der Schlüssel zum Erfolg ist hier die Interaktion. Man durchleuchtet nicht ganz viele Menschen, um dann auf die passende Weise mit ihnen zu reden, sondern man versucht es bei allen und lernt aus den Reaktionen.

Mit einer ähnlichen Methode kann man Werbung gezielter verbreiten und ihre Erfolgsraten – im Rahmen der bescheidenen Möglichkeiten – optimieren. Dazu misst man, welche Werbung in welchem Kontext (Website, Inhalt, Nutzergruppe, Uhrzeit usw.) wie oft angeklickt wird, und optimiert die Auswahlkriterien anhand dieser Daten. Werbenetze tun so etwas, optimieren aber nicht stur die Klickrate, sondern ihre daraus resultierenden Einnahmen.

Dabei müssen sie gar nicht besonders persönlich werden. Im Gegenteil, über einzelne Nutzer erfährt man auch aus all ihren Facebook-Daten zu wenig, um individuelle Voraussagen über so ungewisses Verhalten wie die Reaktion auf eine Werbung oder Nachricht vorhersagen zu können. Hingegen erfährt man aus der wiederholten Einblendung einer Anzeige in verschiedenen Situationen nach und nach, unter welchen Umständen diese Anzeige häufiger oder weniger häufig Reaktionen hervorruft.

Ökonomisch nicht plausibel ist demgegenüber die Vorstellung, man könne ohne weiteres zwei Elemente kombinieren: die Skalierbarkeit einer Massenansprache mit sehr geringen Kosten pro Einzelfall und die individuelle Beeinflussung nach ausgefeilten Kriterien. Unabhängig davon, welche Daten ein Laden wie Cambridge Analytica über Menschen hat, kann er nicht zu geringen Kosten Millionen individuell zugeschnittener Botschaften entwerfen. Andererseits braucht man die ganze schöne Psychometrie überhaupt nicht, wo man Reaktionen messen und sie statistisch mit vielfältigen Parametern in Beziehung setzen kann. Deswegen ist die Erzählung von der massenhaften individualisierten Manipulation ökonomischer Blödsinn.

Von der Datentransaktion zur Datenemission

April 9, 2017Datenkrake, Datenschutz, Regierungsviertel, So geht das, ZeitmaschineCloud, Datenschutzmodernisierung, Diskriminierungsverbot, informationelle Selbstbestimmung, maschinelles LernenSven Türpe

Datenschutz ist regelmäßig ein Thema in diesem Blog, denn seine Schutzziele und Mechanismen überschneiden sich mit denen der IT-Sicherheit oder stehen mit ihnen in Wechselwirkung. Datenschutz ist auch regelmäßig der Gegenstand öffentlicher Debatten. Das ist einerseits verständlich, denn wir sind heute überall von vernetzter IT umgeben. Andererseits verlaufen solche Debatten oft bizarr, weil der Datenschutz politisch instrumentalisiert und mit sachfremden Aspekten vermischt wird. Dabei ist die Frage für sich und ohne Ballast schon schwer genug: Was soll, was kann, was bedeutet Datenschutz heute und in Zukunft?

Mit einem Aspekt dieser Frage habe ich mich zusammen mit Jürgen Geuter und Andreas Poller in einem Beitrag zur Konferenz Die Zukunft der informationellen Selbstbestimmung des Forums Privatheit Ende 2015 beschäftigt, der jetzt endlich im Konferenzband erschienen ist. Wir beschäftigen uns darin mit der Frage, wie sich die Paradigmen der Informationstechnologie seit der Entstehungszeit des deutschen Datenschutzrechts verändert haben und unter welchen Bedingungen Persönlichkeitsrechte im Zusammenhang mit der Datenverarbeitung heute geschützt werden sollen.

Der Datenschutz hat seine Wurzeln in den 1970er und 1980er Jahren. Das vorherrschende Verarbeitungsparadigma der EDV, wie man die IT damals nannte, war das der Datenbank. Darauf sind die Regeln des BDSG erkennbar zugeschnitten; sie geben der Datenerfassung und -verarbeitung ein Gerüst aus expliziten Transaktionen zwischen Betroffenen und verarbeitenden Stellen, mit denen die Betroffenen ihr Recht auf informationelle Selbstbestimmung wahrnehmen.

Heute prägen andere Paradigmen die Informationstechnik: die allgegenwärtige Vernetzung, die eine detaillierte Kontrolle durch explizite Transaktionen unpraktikabel macht, und das maschinelle Lernen, welches das Verständnis der Verarbeitungsvorgänge und die Einflussnahme darauf erschwert. Die Vorstellung einer expliziten Datenerhebung nebst informierter Einwilligung passt deshalb nicht mehr zur Technik und ihren vielfältigen Anwendungen.

Wir haben die neuen Bedingungen in eine Emissionsmetapher gepackt: Jeder von uns sendet fortlaufend Daten aus, die sich im Netz verbreiten und dort von verschiedenen Akteuren aufgefangen und verarbeitet werden, vergleichbar der Art und Weise, wie sich Licht von einer Lichtquelle im Raum ausbreitet. Das schließt Eingriffe nicht aus, aber sie müssen auf diese Verhältnisse zugeschnitten sein. Eine umfassende Lösung dafür können wir nicht präsentieren, aber wir diskutieren einige Ansätze.

Der ganze Beitrag:

Sven Türpe; Jürgen Geuter; Andreas Poller: Emission statt Transaktion: Weshalb das klassische Datenschutzparadigma nicht mehr funktioniert. In: Friedewald, M.; Roßnagel, A.; Lamla, J. (Hrsg.) (2017): Informationelle Selbstbestimmung im digitalen Wandel. Wiesbaden: Springer Vieweg DOI: 10.1007/978-3-658-17662-4_14, © Springer.

Re: Offener Brief zu DNA-Analysen in der Forensik

Dezember 27, 2016Datenkrake, Risiko, SecuritySven Türpe

Mahnungen vor dräuenden Gefahren verkaufen sich immer, sind doch vorhergesagte Probleme nie auszuschließen, ohne dass man ein Risiko eingeht und etwas ausprobiert. So lässt sich beliebig lange spekulieren, was alles passieren könnte, wenn man täte, was man wegen der Risiken besser bleiben ließe. Als neuester Gegenstand solcher „kritischen“ Betrachtungen bietet sich die Forderung nach einer Ausweitung der zulässigen DNA-Analysen in der Polizeiarbeit an. Folgerichtig haben Sozialwissenschaftler einen Offenen Brief zu DNA-Analysen in der Forensik verfasst der zur Vorsicht mahnt und seine Autorinnen als unverzichtbare Expertinnen anbietet. Der Tenor: Erweiterte DNA-Analysen seien viel zu kompliziert als dass man einfache Polizisten unbegleitet mit ihren Ergebnissen arbeiten lassen dürfe. Am Ende steht wenig mehr als die Schlussfolgerung, dass es zu Fehlern kommen könne. Dies jedoch ist eine banale Aussage: Fehler sind in der Polizeiarbeit Alltag und das System aus Gesetzgebung, Polizei und Justiz kann damit gut umgehen. Selbstverständlich muss man die Auswirkungen neuer Methoden betrachten, aber zur Panik gibt es keinen Anlass. Unser Rechtsstaat irrt sich recht zuverlässig zugunsten der Verdächtigen und die Forensiker wissen selbst ganz gut, wo die Grenzen der verschiedenen Analyseverfahren liegen. Unschätzbare Risiken können wir jeder Technik unterstellen, das hilft nur niemandem.

Lernmaschine

Juni 15, 2016DatenkrakeSven Türpe

Vor vier Jahren schrieb ich Datenkrake Google, weil ich die landläufige Vorstellung von Google als einer großen Datenbank für unpassend hielt. In Wirklichkeit, so meine These, sei maschinelles Lernen der Kern von Google. Inzwischen gibt es daran nicht mehr viel zu zweifeln. Google hat mit AlphaGo Aufsehen erregt, einer KI, die menschliche Go-Meister schlägt. Mit Tensor Flow stellt Google eine KI-Bibliothek als Open Source bereit. Vor zwei Wochen wurde bekannt, dass man sogar spezielle Hardware für Deep-Learning-Anwendungen entwickelt hat: Tensor-Prozessoren, auf denen AlphaGo seine Berechnungen ausführte. Dazu passend hat Google gerade das Startup Nervana übernommen, das ebenfalls optimierte Hardwarearchitekturen für das maschinelle Lernen entwickelt hat.

Das kann in diesem Tempo noch eine Weile weitergehen. Halten unsere Debatten mit der Entwicklung Schritt?

Unexpected Moves

April 2, 2016Datenkrake, English, Phisopholie, PsychoAlgorithmen, Go, Intransparenz, künstliche IntelligenzSven Türpe

When AlphaGo played and won against Sedol, it made innovative moves not only unexpected by human experts but also not easily understandable for humans. Apparently this shocked and scared some folks.

However, AI coming up with different concepts than humans is nothing new. Consider this article recounting the story of Eurisko, a genetic programming experiment in the late 1970s. This experiment, too, aimed at competing in a tournament; the game played, Traveller TCS, was apparently about designing fleets of ships and letting them fight against each other. Even this early, simple, and small-scale AI thing surprised human observers:

“To the humans in the tournament, the program’s solution to Traveller must have seemed bizarre. Most of the contestants squandered their trillion-credit budgets on fancy weaponry, designing agile fleets of about twenty lightly armored ships, each armed with one enormous gun and numerous beam weapons.”

(G. Johnson:
Eurisko, The Computer With A Mind Of Its Own)

Keep in mind there was nothing scary in the algorithm, it was really just simulated evolution in a rather small design space and the computer needed some help by its programmers to succeed.

The Eurisko “AI” even rediscovered the concept of outnumbering the enemy instead of overpowering him, a concept humans might associate with Lanchester’s models of predator-prey systems:

“Eurisko, however, had judged that defense was more important than offense, that many cheap, invulnerable ships would outlast fleets consisting of a few high-priced, sophisticated vessels. (…) In any single exchange of gunfire, Eurisko would lose more ships than it destroyed, but it had plenty to spare.”

(G. Johnson:
Eurisko, The Computer With A Mind Of Its Own)

Although Eurisko’s approach seemed “un-human”, it really was not. Eurisko only ignored all human biases and intuition, making decisions strictly by cold, hard data. This is a common theme in data mining, machine learning, and AI applications. Recommender systems, for example, create and use concepts unlike those a human would apply to the same situation; an article in IEEE Spectrum a couple of years ago (J. A. Konstan, J. Riedl: Deconstructing Recommender Systems) outlined a food recommender example and pointed out that concepts like “salty” would not appear in their models.

Transparency and auditability are surely problems if such technology is being used in critical applications. Whether we should be scared beyond this particular problem remains an open question.

(This is a slightly revised version of my G+ post, https://plus.google.com/+SvenT%C3%BCrpe/posts/5QE9KeFKKch)

Machine Learning Explained

März 8, 2016Datenkrake, EnglishBig DataSven Türpe

This video explains the essence of machine learning in just two minutes:

(youtube)

What machine learning is capable of

Januar 2, 2015Datenkrake, English, VideoBig Data, data science, introduction, machine learningSven Türpe

Jeremy Howard explains what machine learning is capable of in this TEDx Brussels talk, „The wonderful and terrifying implications of computers that can learn“:

(YouTube, TED)

In einem Wort

August 17, 2014Datenkrake, In einem WortStar-Trek-ComputerSven Türpe

Web 3.0

Komplette Durchleuchtung?

Juni 7, 2014Datenkrake, Datenschutz, Risiko, Spackeria, WahrnehmungSven Türpe

Der klassische Datenschutz europäischer und insbesondere deutscher Prägung geht von einem Vorurteil aus: Das Speichern und Verarbeiten personenbezogener Daten sei gefährlich und die Gefahr wachse proportional mit der Datenmenge pro Person. Folgerichtig bleiben diese gefährlichen Handlungen verboten, solange sie nicht eine Einwilligung des Betroffenen oder ein Gesetz erlaubt.

Max Schrems, Initiator von Europe vs. Facebook und derjenige, der von Facebook Auskunft über seine dort gespeicherten Daten erstritt, hat ein Buch geschrieben, Kämpf um deine Daten. Die zugehörige Rezension der FAZ illustriert die Datenschutz-Prämisse und wie sie unsere Wahrnehmung beeinflusst:

»Ein anderer Slogan der Digitalwirtschaft lautet: „Wir machen doch alles nur, um die Werbung auf den Nutzer zuzuschneiden.“ Dem hält Schrems entgegen, dass personalisierte Werbung längst nicht so effektiv ist, wie alle tun. Werbetreibende erzählten das hinter vorgehaltener Hand. Die komplette Durchleuchtung des Nutzers geschehe im Grunde bloß für ein paar lausige Klicks mehr, resümiert Schrems. Nur wegen Cent-Beträgen wird unser Grundrecht auf Datenschutz aufgelöst.«

Die komplette Durchleuchtung aus nichtigem Anlass, anders kann man es kaum sehen, wenn man die Grundannahme des Datenschutzes akzeptiert. Tut man dies nicht, so bietet sich eine alternative Interpretation an: Was die Datenkraken über uns wissen und vorhersagen können, genügt gerade mal, um die Werbeklickraten ein wenig zu erhöhen. Von Algorithmen, die uns besser kennen als wir selbst, kann keine Rede sein. Personalisierte Werbung ist weit davon entfernt, uns genau das vorzulegen, was wir sicher anklicken werden. Darüber liefert der Einzelne nämlich viel zu wenig Informationen. „Personalisierte“ Werbung ist in Wirklichkeit statistisch optimierte Werbung, der die Zielgruppensegmentierung und -zuordnung ein wenig besser gelingt als den extrem groben klassischen Mechanismen. Mit herkömmlichen Methoden bekomme ich Autowerbung, wenn ich eine Autozeitschrift lese und Nerdwerbung auf Slashdot. Moderne Verfahren nutzen vielfältigere Merkmale und finden die optimale Auswahlstrategie zum Teil selbst.

Viel mehr als eine etwas genauere Zielgruppensegmentierung steckt nicht hinter der personalisierten Werbung, und die meisten Anzeigen werden nach wie vor ignoriert. Statt von der kompletten Durchleuchtung für ein paar Cent sollte man besser von Optimierungen am Rande der Aufmerksamkeit sprechen. Ist das gefährlich, schädlich, manipulativ? Eher nicht, jedenfalls nicht mehr als Werbung an sich schon ist. Lebe ich besser, wenn ich sorgfältig jede Datenspur vermeide? Nicht messbar. Diese pragmatische, risikoorientierte Sicht ist dem klassischen Datenschutz fremd.

P.S. (2014-06-14): Kristian Köhntopp erklärt passend dazu, warum verschiedene Formen der Durchleuchtung unterschiedlich nützlich sind.

Denkverbote für Star-Trek-Computer?

März 17, 2014Datenkrake, Datenschutz, Forschung, Spackeria, WahrnehmungBig Data, Datenanalyse, Dateninterpretation, machinelles Lernen, Modelle, Paradigmenwechsel, statistische InferenzSven Türpe

Zwei Jahre nach Datenkrake Google ist aus den damals noch unscharfen Gedanken mit Unterstützung meiner Kolleginnen Annika Selzer, Andreas Poller und Mark Bedner ein Artikel geworden: Denkverbote für Star-Trek-Computer?, Datenschutz und Datensicherheit – DuD 38(1), Januar 2014, DOI: 10.1007/s11623-014-0008-x. Abgeschlossen ist das Thema damit nicht, die Diskussion geht gerade erst richtig los.

Vor 30 Jahren definierte das Bundesverfassungsgericht im Volkszählungsurteil das Recht auf informationelle Selbstbestimmung und erklärte es zu einer Voraussetzung für Freiheit und Gemeinwohl. Die elektronische Datenverarbeitung (EDV), so nannte man die Informationstechnik damals, steckte noch tief im Manufakturzeitalter. Datenbanken ersetzten gerade die Karteischränke, das beschriebene und sortierte Papier. Wissenschaftler begannen, über künstliche Intelligenz nachzudenken, aber das war eine Zukunftsvision; der Spielfilm Computer Chess fängt die Stimmung jener Zeit ein.

Einerseits zeugt das Volkszählungsurteil von Weitsicht. Aus der Datenmanufaktur ist eine Datenindustrie geworden. Computer spielen heute nicht nur Schach auf Weltmeisterniveau, sie gewinnen auch im Fernsehquiz Jeopardy! Amazon, Netflix, Last.fm und viele andere Dienste empfehlen uns, was unserem Geschmack entspricht, und liegen damit häufig genug richtig um uns erfolgreich etwas zu verkaufen. Google ermittelt aus Suchanfragen die Ausbreitung von Grippewellen, wenn auch nicht ganz genau. Das Thema Datensammlung und Datenverarbeitung grundsätzlich anzugehen erweist sich im Nachhinein als richtig.

Denkverbote für Star-Trek-Computer? weiterlesen →

Daten-Bank

Februar 27, 2014Angst, Datenkrake, Datenschutz, Risiko, Vertrauen, Wahrnehmung, WolkenkuckucksheimCloud Computing, DatenwirtschaftSven Türpe

Banken haben einen schlechten Ruf. Trotzdem lassen wir alle unser Geld dort. Meistens funktioniert das auch und wir bekommen unser Geld später zurück, in guten Zeiten sogar mit Zinsen. Unser Geld stapeln die Banken nicht einfach im Keller, sondern sie arbeiten damit und erwirtschaften Gewinne. Am Ende hat jeder einen Nutzen davon, mit Ausnahme einiger bedauerlicher Einzelfälle.

Cloud-Dienste haben einen schlechten Ruf. Trotzdem lassen wir alle unsere Daten dort. Meistens funktioniert das auch und wir bekommen unsere Daten ohne Nebenwirkungen zurück, in guten Diensten sogar mit Zusatznutzen. Unsere Daten lagern die Cloud-Dienste nicht einfach auf Speichermedien, sondern sie arbeiten damit und erwirtschaften Gewinne. Am Ende hat jeder einen Nutzen davon, mit Ausnahme einiger bedauerlicher Einzelfälle.

Afraid of the Intercloud

Januar 15, 2014Angst, Datenkrake, Datenschutz, Geschäft, Risiko, Spackeria, WahrnehmungGoogle, nest, post-privacy, uncertainty, world wide cloudSven Türpe

Jürgen Geuter asked on G+:

»Ok, help me understand. Why is #Google buying #Nest seen as bad for privacy/data control/etc.?

I don’t get it, the data Google already has about individuals is better. Is it because Google is seen tied to objects that just exist around us (and are not our direct extensions such as smartphones)? Is it the usual underspecified feeling of „creepyness“?«

I went for the creepiness option. This is my reply, which I recycle here:

Maybe it’s because we’re mentally still living in the pre-cloud and in the database paradigm. Google represents like no other organization – maybe except the NSA – a technological progress that’s hard to grasp. We have no appropriate conception of information risk and risk management for a world in which a single organization can process various data about the wealthier half of the planet’s population and draw inferences from these data. Google represents this development, working at its forefront and pushing the limits.

We have no intuition what may, could, or will happen to us in the long run due to this new technology, and we have no idea ho to manage the risks (or non-risks) that we don’t understand. In a way we are in a similar situation as those who drafted our first data protection laws back in the seventies and early eighties: having to manage not only the uncertainty inherent in any risk consideration, but rather an uncertainty about the uncertainty. Back then, the tentative conceptual and legal solution was to ban all storing and processing of personally identifiable data and grant permission only on a case-by-case basis.

Progress has turned this approach into a delusion, but we lack a convincing replacement. We don’t know what’s risky and what isn’t; most of us don’t even understand what creates value in an Internet-scale data processing business. We project all our uncertainties on the pioneers.

P.S.: Just while I was writing this, the following quote appeared in my G+ stream:

»The desire for security and the feeling of insecurity are the same thing. To hold your breath is to lose your breath. A society based on the quest for security is nothing but a breath-retention contest in which everyone is as taut as a drum and as purple as a beet.«

— Alan Watts

Datenschutz: Anforderung oder Spezifikation?

März 24, 2012Begriffe, Datenkrake, Datenschutz, Forschung, SpackeriaAnforderungen, Datenschutzreform, SpezifikationSven Türpe

In der Diskussion um die Datenkrake Google fällt mir immer wieder eine begriffliche Ungenauigkeit auf. Datenschutz sei gut und nützlich und bewährt, wie könne man nur dagegen sein, so die Argumentation. Tatsächlich bin ich gar nicht gegen Datenschutz als Anfoderung, sondern ich halte einige Aspekte der gegenwärtigen Spezifikation für ungeignet, die Anforderungen zu erfüllen.

Was ist der Unterschied zwischen Anforderungen und Spezifikationen? Anforderungen beschreiben die Ziele, die man verfolgt. Spezifikationen beschreiben den Weg. Charles B. Haley erklärt den Unterschied so:

»The distinction between requirement and specification is an important one. A requirement does not describe how a system is to be implemented, but instead describes what is desired by the stakeholders in terms of phenomena visible at certain domains in the real world. It is the specification that describes how, in terms of the phenomena of all the domains in the system, the requirement is fulfilled. For example, the requirement “given a temperature input in Fahrenheit, the system shall display that temperature in Celsius” is describing some input phenomena on one domain (probably a keyboard) and some output phenomena of another domain: the display; these are the requirement phenomena. The rest of the phenomena in the system exist to make the system produce its output requirement phenomena, given its input requirement phenomena.«

(Charles B. Haley, Arguing Security: A Framework for Analyzing Security Requirements)

Auf den Datenschutz übertragen finden wir unter einem Begriff, eben Datenschutz, eine bunte Mischung von Anforderungen und Spezifikation. Zu den Anforderungen gehören Ideen wie die der informationellen Selbstbestimmung und des Persönlichkeitsrechts und ihre Konkretisierungen. Alle spezifischen Regelungen hingegen stellen eine Spezifikation dar, eine Umsetzung der Anforderungen.

Dass beides in einem Gesetz vermischt ist, bedeutet nicht, dass die Spezifikation automatisch die Anfoderungen erfüllt. Ich bin der Ansicht, dass sie das im Fall des Datenschutzes heute nur noch teilweise tut. Daraus folgt nicht die Forderung nach einer Abschaffung des Datenschutzes, sondern die Forderung nach einer Anpassung der Spezifikation.

Deutlicher wird das, wenn wir die begriffliche Unterscheidung zwischen Anforderungen und Spezifikation in unsere Diskusionen abbilden. Ich bevorzuge deshalb die Bezeichnung Privatsphärenschutz für die Anforderungen. Ausdrücklich offen bleibt dabei, ob, unter welchen Bedingungen und in welchen Ausprägungen Datenschutz gemäß der aktuellen Spezifikation ein geeignetes und das einzige Mittel dazu ist. Vielleicht fällt uns ja noch was besseres ein.

Datenkrake Google (7/7): Privatsphärenschutz in der Datenwolke

März 4, 2012Angst, Datenkrake, Datenschutz, Forschung, Geschäft, Spackeria, Wolkenkuckucksheimautomatische Klassifikation, Datenkapitalismus, Datenschutzreform, Entmündigung, lernende Systeme, Modernisierung, Nutzerprofile, personenbezogene Daten, PrivatsphäreSven Türpe

[Inhalt – Teil 1 – Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Wir haben uns in den Artikeln dieser Serie ein Modell gebildet, was Google mit Daten macht, welche Prinzipien dahinter stecken und wie daraus optimierte und partiell personalisierte Funktionen werden. Wir haben gesehen, dass naive Vorstellungen von Nutzerprofilen wahrscheinlich falsch sind. In Wirklichkeit betreibt Google automatisierte Verhaltensforschung im Industriemaßstab, bezogen auf spezifische Funktionen wie Eingabekorrektur, Übersetzung oder Werbeoptimierung. Als Ergebnis gewinnt Google populationsstatistische Aussagen, die individuell beziehungsweise nach impliziter Gruppenzugehörigkeit modifiziert werden können; eine klare Grenze zwischen diesen Aggregationsgraden gibt es nicht. Erfasst und gespeichert sind Googles Erkenntnisse in den Konfigurationen aufgabenspezifischer Klassifikatoren, die laufend dem globalen Verhalten der Nutzerpopulation angepasst werden. Die naiven Modelle aus Folge 2 passen nicht so recht dazu, auch wenn Google selbst manchmal anderes suggeriert:

Things Google says: Your profile is 65% complete — Wer ein Google+-Profil hat und mit Google nach seinem eigenen Namen sucht, bekommt vielleicht diese Aufforderung zu sehen. Gemeint sind die expliziten und freiwilligen Angaben im Profil, nicht der Durchleuchtungsgrad der Person.

Damit es keine Missverständnisse gibt: Google besteht nicht nur aus lernenden Maschinen, viele Funktionen und Dienste nutzen auch herkömmliche Verfahren. Welche Termine in meinem Google-Kalender stehen, wen ich in Google+ in welchen Circles habe und welche Nachrichten in meinem GMail-Account liegen, speichert und verarbeitet Google (auch) ganz normal im Klartext, wie es jeder SaaS-Anbieter in der Cloud tun würde. Darauf mag man alle etablierten Begriffe und Modelle des Datenschutzes anwenden, wenngleich sie sich vielleicht aus anderen Gründen als unpassend erweisen. Ich behandle hier die Angstfunktion Daten sammeln und auswerten. Daten einfach zu sammeln lohnt sich im Google-Maßstab nicht, weil man mit einer Datenhalde wenig anfangen kann. Nach meinem Modell nutzt Google umfangreiche Daten, um damit einen Satz an Betriebsparametern fortlaufend zu optimieren und dem Lauf der Welt anzupassen. Die Optimierung und Anpassung erfolgt interaktiv, Google lernt von seinen Nutzern, was richtig und was falsch ist, was ähnlich und was verschieden. Das ist etwas anderes als das elektronische Profil, das Thilo Weichert sich vorstellt und es hat Folgen, die er sich nicht vorstellt.

Was ist anders?

Ein Klassifikator häuft nicht einfach Daten an. Er besitzt eine Konfiguration und zwei Grundfunktionen, Lernen und Klassifizieren. In der Funktion Klassifizieren erhält er einen Datensatz als Eingabe und gibt eine Entscheidung oder Entscheidungsempfehlung aus. In der Funktion Lernen passt er seine Konfiguration an, um die Rate der Fehlentscheidungen zu reduzieren. Die Konfiguration des Klassifikators gibt nicht die einzelnen Eingabedaten wieder, sondern ein davon abgeleitetes Modell. Darin unterscheidet sich dieser Ansatz von der Karteikarten-IT herkömmlicher Datenbanken, die alle Eingaben wörtlich abspeichern und als Ausgabefunktion im wesentlichen das Herausfiltern der jeweils gesuchten Daten anbieten. Welche Daten ein Klassifikator nutzt und was er über uns weiß, sind zwei Paar Schuhe. Wir können einen Klassifikator nicht danach befragen, welche Eingabedaten er zu einer Person erhalten hat.

Das führt zu interessanten Folgerungen für den Privatsphärenschutz:

Verhaltensbeobachtung und -auswertung bedeutet nicht zwingend eine Verletzung der Privatsphäre. Beispiele dafür sind die Korrekturfunktionen in der Google-Suche und in Google Translate, die aus dem Benutzerverhalten lernen. Google beobachtet bestimmte Aspekte des Nutzerverhaltens über eine Folge von Vorgängen hinweg, interessiert sich am Ende aber vor allem für statistische Aussagen.
Ein Kontinuum an Personenbezug. Ein Klassifikator kann personenbezogene Entscheidungen treffen, er muss es aber nicht. Er wird Entscheidungen nach den Kriterien treffen, die in der Vergangenheit erfolgreich waren. Da die Konfiguration des Klassifikators variabel ist, kann sich der personenbezogene Entscheidungsanteil laufend ändern. Nützlich ist ein Klassifikator vor allem dort, wo es verallgemeinerbare Zusammenhänge in den Daten gibt – Verallgemeinerung ist das Gegenteil von persönlichen Profilen. Die vielen Einzeldaten braucht man , weil man die Verallgemeinerungsregeln vorher nicht kennt.
Einzelne Merkmale – IP-Adresse, Cookies, Geburtsdatum und so weiter – sind wenig relevant. Klassifikatoren arbeiten in vieldimensionalen Merkmalsräumen und bei guter Konstruktion tragen alle Dimensionen zur Klassifikationsleistung bei. Lässt man eine Merkmalsdimension weg, bleiben (n-1) übrig, für ein ziemlich großes n. Die Klassifikationsleistung verringert sich dadurch nur wenig, zumal in den verwendeten Daten Korrelationen zwischen mehreren Dimensionen auftreten können. Das heißt auch: ein Klassifikator kann relativ robust gegen gelöschte Cookies sein.
Der Grad der Personalisierung hängt auch vom Nutzerfeedback ab. Wie stark die Entscheidungen eines Klassifikators personalisiert sind, hängt davon ab, welches Feedback der Nutzer zu diesen Entscheidungen gibt. Wer viel Werbung anklickt, personalisiert seine Werbeeinblendungen damit, falls dieses Feedback mit Personen- oder Pseudonymbezug zum Lernen verwendet wird.
Klassifikator-Modelle sind inhärent zweckgebunden. Ein Klassifikator wird für eine bestimmte Aufgabe entworfen und trainiert. Zwar kann man die dabei entstehende Konfiguration als Modell der Problemlösung untersuchen und dabei Interessantes herausfinden. Jedoch lässt sich ein Klassifikator nicht einfach für etwas anderes verwenden. Einen universellen Klassifikator, der »alles« kann, gibt es nicht; jedes Optimierungsverfahren benötigt Annahmen über das Problem. Man kann freilich einen Klassifikator mit Personen als Ausgabeklassen bauen, wenn man Feedback über die Richtigkeit der Zuordnung bekommt.
Löschen geht nicht – aber Personenbezüge können verblassen. Sind Daten über einen Nutzer in die Konfiguration eines Klassifikators eingeflossen und dort mit anderen Daten verschmolzen, lässt sich dieser Vorgang nicht sinnvoll rückgängig machen. Liefert ein Nutzer keine neuen Daten nach, werden seine Einflüsse jedoch nach und nach von anderen überlagert. Ein fortwährend trainierter Klassifikator in einer veränderlichenUmgebung verliert im Laufe der Zeit seine Fähigkeit, auf diesen Nutzer personalisierte Entscheidungen zu treffen – er vergisst, ohne auf den Innenminister und dessen Ideenwettbewerb zu warten.

Solche Phänomene sind in unseren überlieferten Datenschutz-Konzepten nicht vorgesehen. Wir können auf verschiedene Arten damit umgehen. Wir können auf die Einhaltung formaler Vorschriften aus einer anderen Zeit pochen und Bürokratie als Selbstzweck vollziehen. Dann ist Google verboten, bis jeder Nutzer eine Generalvollmacht erteilt hat und ab und zu gibt es einen Shitstorm. Oder wir erinnern uns daran, dass Datenschutz als Mittel zum Zweck unserer Selbstbestimmung über unsere Privatsphäre dienen soll. Dann müssen wir bei diesem Ziel ansetzen und uns neu überlegen, wie die Technik es bedroht und wie vielleicht auch nicht.

Datenschutzreformen

Juristen diskutieren seit geraumer Zeit über Datenschutzreformen. Thomas Stadler berichtete zum Beispiel in seinem Blog über ein Thesenpapier zur Datenschutzreform (hier gibt’s einen Aufsatz dazu). In der Rechtsanwendung gibt es noch einmal ganz eigene Probleme. Aus Amerikanisch-Kanadischer Sicht beschäftigt sich Tara Whalen mit der Frage, wie man den Personenbezug sinnvoll definieren sollte und fasst im Artikel This Time, It’s Personal. Recent Discussions on Concepts of Personal Information (paywalled) den Stand der Debatte zusammen.

Als Informatiker kann ich dort nicht qualifiziert mitreden. Mir stellen sich andere, aber verwandte Fragen: Wie sieht wirksamer Privatsphärenschutz in heutigen und künftigen soziotechnischen Systemen aus? Von welchen Bedrohungsmodellen muss er ausgehen und wie kann er die Evolution der Technik zulassen und begleiten?

Cookies, IP-Adressen und die Datenübermittlung in andere Länder nützen uns als Diskussionsrahmen wenig. Die Radikallösung, Teile des Netzes ungenutzt zu lassen, ist wegen seines großen Nutzens keine realistische Option. Interessanter ist, wer uns anhand welcher Daten wehtun kann, wie wahrscheinlich das ist, und welche wirksamen Maßnahmen es dagegen gibt.

Die Abstraktion des personenbezogenen Datums und der Entscheidung des Betroffenen, wer dieses Datum haben darf, stammt aus einer anderen Ära der Informationstechnik. Unabhängig davon, in welchem Maße Techniken wie die von Google eingesetzten unsere Privatsphäre bedrohen oder nicht, können wir mit der Freigabe einzelner Datensätze und Datenfelder keinen sinnvollen Einfluss auf eventuelle Risiken nehmen. Vielleicht müssen wir uns gänzlich von der Idee lösen, dass es auf Daten ankäme, und uns damit beschäftigen, was daraus gemacht wird.

Die individuellen und gesellschaftlichen Privatsphären-Interessen müssen wir außerdem abwägen gegen das berechtigte Interesse einer Firma wie Google, technische Details für sich zu behalten. Bessere Klassifikatoren zu bauen als der Rest der Welt gehört zu Googles Kerngeschäft. Andererseits sollte die Technik so transparent sein, dass sie informierte Entscheidungen unterstützt, wobei es auf die Entscheidungen ank0mmt und nicht auf deren formalisierte Niederlegung im Vertragsstil. Mit diesem Spannungsfeld sowie mit realistischen Bedrohungsmodellen muss sich der organisierte Datenschutz beschäftigen, wenn er in Zukunft relevant bleiben möchte. Laut über Daten-Schmu zu schimpfen und dann weiter alte Modelle auf neue Technik anzuwenden, bringt uns keinen Schritt weiter.

Schlusswort

Google ist im wahrsten Sinn des Wortes ein Elektronengehirn, wie es die Science Fiction einst beschrieb. Wer um jeden Preis Angst haben möchte, stellt sich unter Google am besten so etwas wie HAL 9000 vor, hochskaliert auf einen Planeten anstelle eines Raumschiffs. Google verhielte sich ähnlich, zöge man ihm nach und nach die Speichermodule raus – Google würde nach und nach verblöden.

HAL 9000 Eye, CC-BY Unported 3.0, Cryteria, http://en.wikipedia.org/wiki/File:HAL9000.svg — *The famous red eye of HAL 9000* by Cryteria, CC-BY 3.0 unported

Unter dieser Prämisse lautet die Grundsatzfrage: Welche Denkverbote müssen wir so einem Computer auferlegen und welche nicht? Wie formulieren wir solche Denkverbote, wenn wir den größtmöglichen Nutzen behalten wollen? Oder brauchen wir in Wirklichkeit gar keine Denkverbote für Elektronengehirne, sondern angemessene Denkweisen und Begriffe für uns selbst als Individuen und als Gesellschaft? Fürs erste tut es auch eine kleinere Frage: Wie machen wir eine Datenverarbeitung transparent für Nutzer, die komplizierter ist als die gute alte Datenbank? Ein Stück Verständnis hat Google mit seiner aufgeräumten Datenschutzerklärung schon mal effektiv vermittelt, nämlich dass seine einzelnen Dienste nur Sichten auf ein System sind. Das haben jetzt alle verstanden.

Zum Download. Eine Ergänzung zu Teil 6

März 3, 2012Datenkrake, Datenschutz, Forschung, Geschäft, Spackeria, WolkenkuckucksheimGoogle, Optimierung, WerbungSven Türpe

[Inhalt – Teil 1 – Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Eben bin ich noch über diese schöne Illustration zu Teil 6 von Datenkrake Google gestolpert:

Die obere Anzeige betitelt ihren Link einfach mit Zum Download. Genau danach habe ich gesucht, nach einem Download, diese Anzeige wird an dieser Stelle sicher hervorragend funktionieren, gerade weil nicht aus ihr hervorgeht, was sich eigentlich dahinter verbirgt. Für so eine Optimierung braucht man gewissenloses, nüchtern-rationales Personal, zum Beispiel einen Computer, dessen einzige Mission in der Klickratenoptimierung besteht.

Über mich weiß Google offensichtlich, dass ich Deutsch spreche. Das erzählt mein Browser allerdings jeder Website und ich mache auch sonst kein Geheimnis daraus.

Datenkrake Google (6/7): Und jetzt Werbung

März 3, 2012Datenkrake, Datenschutz, Forschung, Freundlich zum Nutzer, Geschäft, Psycho, Spackeria, WolkenkuckucksheimAdsense, Doubleclick, Google, Nutzerprofile, personalisierte WerbungSven Türpe

[Inhalt – Teil 1 – Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Über die bisherigen Folgen dieser Serie haben wir ein Modell von Google als lernender Maschine etabliert. Vermutlich ist dieses Modell nicht die reine Lehre hinter Googles Werbediensten, da Google vor einigen Jahren Doubleclick und damit fremde Technologie gekauft hat. Gleichwohl lohnt es sich, anhand unseres Modells über optimierte (volkstümlich: personalisierte) Werbung nachzudenken. Weit hergeholt wird es nicht sein; dass Google Techniken wie die skizzierten zur Optimierung von Suchergebnissen und Empfehlungen einsetzt, können wir mit unserem Vorwissen aus den Changelogs herauslesen. Technisch macht es keinen großen Unterschied, ob wir das beste Suchergebnis, die beste Empfehlung zu irgend etwas oder die beste Werbung für einen Anzeigekontext suchen. Aber der Reihe nach.

Personalisierung ist Optimierung

Werbung ist ein Optimierungsproblem. Ziel des Werbers ist, genau dort aufzutreten, wo seine Werbung wirkt, und auch nur dafür zu bezahlen. Klassisch, ob offline oder online, tut man dies, indem man Zielgruppen klassifiziert und seine Werbung bzw. sein Produkt einerseits und die verfügbaren Medien andererseits in dieses Modell abbildet. Erreicht ein Medium möglichst genau die anzusprechende Zielgruppe, schaltet man seine Werbung dort. So kommt die Telefonsexwerbung ins Nachtprogramm von Privatsendern, die Werbung für Pay-TV-Sportsender in die Sportzeitschrift und das ThinkGeek-Banner auf Slashdot. Erscheinen die Streuverluste zu hoch, versucht man die Zielgruppendefinition zu verfeinern. Dieses Vorgehen entspricht dem regelgestützten Ansatz der klassischen KI.

Gemäß der Google-Philosphie würde man hingegen aus allen verfügbaren Daten über die Werbung, den Anzeigekontext und, soweit verfügbar, den Nutzer vor dem Bildschirm alle denkbaren Merkmale extrahieren. In diesem Datenraum würde man einen lernenden Klassifikator auf die Frage ansetzen, welche Cluster die Klickrate als Hilfsmetrik oder besser noch die werbebezogenen Umsätze des Kunden maximieren. Man würde also das tun, was ich in Folge 4 beschrieben habe, nur mit einem Pool von Anzeigen anstelle von Tanksäulen und Abrufereignissen anstelle von Autos mit Fahrern. Seinen Kunden würde man ein Interface zur Verfügung stellen, mit dem sie neue Zapfsäulen aufstellen und bezahlen können. Selbst müsste man nur noch seine Einnahmen kassieren und verbuchen und alte Zapfsäulen wegräumen. Alles andere liefe komplett automatisch ab.

Die tatsächlichen Regeln, nach denen die Einblendung erfolgt, wären wieder Sache des Klassifikators und von Fall zu Fall verschieden. Zur Entscheidung könnte der Inhalt der Anzeige ebenso beitragen wie der Kontext der Einblendung oder Informationen über den Nutzer. Vielleicht sind Anzeigen mit bestimmten Merkmalen besonders erfolgreich bei europäischen Nutzern des Browsers Firefox ohne Flash Player zwischen 19:23 Uhr und 20:42 Uhr an Samstagen, sofern diese Nutzer nicht in ihren Google-Account eingeloggt sind, die Werbeeinblendung auf einer bestimmten Website erfolgt und der Nutzer diese Anzeige zuvor höchstens zweimal gesehen hat. Eine andere Anzeige könnte bei Nutzern aus einem bestimmten Universitätsnetz gut ankommen, unabhängig vom verwendeten Browser und der Uhrzeit, eine weitere in einem bestimmten Anzeiogekontext gut funktionieren. Dem lernenden Klassifikator ist egal, ob solche Regeln für uns einen Sinn ergeben. Er optimiert stur auf die Daten, die man ihm zeigt.

Textanzeigen enthalten dabei genau jene Art von Merkmalen, mit denen Google ohnehin bereits gut umgehen kann. Für Werbebanner wird man etwas länger nachdenken müssen, welche Merkmale nützlich sind. Wer weiß, vielleicht hat ja die Blinkfrequenz einen Einfluss auf die Klickrate, oder Metadaten aus der klassichen Zielgruppendefinition erweisen sich als nützlich. Grundsätzlich funktioniert das Prinzip auch dann, wenn wir die verschiedenen Anzeigen lediglich unterscheiden können und sonst keine Einzelheiten kennen. Ein Klassifikator hätte dann kein Ähnlichkeitsmaß für Anzeigen zur Verfügung, könnte aber immer noch lernen, unter welchen Begleitumständen Anzeige Nummer 703744 am besten funktioniert.

Was führt zum Klick?

Alltagsbeobachtungen sind mit diesem Erklärungsmodell kompatibel. Nehmen wir zum Beispiel tortoisesvn.net. TortoiseSVN ist ein SVN-Client für den Windows-Explorer; die Website besuchen vermutlich viele Leute, die diesen Client erstmals oder als Update herunterladen möchten. Google blendet dazu Werbung für andere SVN-Clients ein. Was’n Quatsch?! Gar kein Quatsch, sondern folgerichtig.

Wer sich die Seite durch seine Usability-Brille anschaut, wird schnell bemerken, dass ihr Design einige Schwächen hat. Diese Schwächen führen dazu, dass der Nutzer von der Downloadfunktion ab- und auf die Werbung hingelenkt wird. Die echten Download-Buttons sind die grünen Kästen unten. Die wirken in ihrem Format und in ihrer knalligen, vom Rest der Seite abweichenden Farbe optisch wie ein typisches Werbebanner. Das Web hat uns über Jahre darauf trainiert, typische Werbebanner mental auszublenden und zu ignorieren. Hinzu kommt, dass über den Google-AdSense-Anzeigen der Titel Downloads steht und dann außer den Anzeigen kein Inhalt folgt, und die dass Anzeigen farblich der Seitengestaltung angepasst sind. Ist unter den Anzeigen nun noch eine, die einen SVN-Client anbietet, liegt ein versehentlicher Klick auf die Anzeige nahe – alles wirkt auf den Nutzer so, als könne er damit sein Ziel erreichen.

Nach einigen zufälligen Einblendungen, die zu Klicks führen, lernt das auch ein Klassifikator, der Klickraten optimiert. Stehen ihm die nötigen Parameter zur Verfügung, wird er fortan in diesem Kontext bevorzugt Werbung für SVN-Clients anzeigen, falls er welche im Pool hat. Über den einzelnen Nutzer muss er dazu nichts wissen, er lernt nur etwas über eine spezifische Auswirkung allgemeiner Psychologie in einem spezifischen Kontext. Auf ähnliche Weise dürfte SEO-Werbung in einen SEO-Artikel gelangen:

Persönliche Informationen über den Betrachter sind für diese Einblendungen nicht erforderlich – sie können jedoch jederzeit in die Entscheidung einfließen, wenn sie verfügbar und relevant sind. Ob und wo das der Fall ist, erfährt Google nach unserem Modell aber nicht aus den Daten, die wir uns als unser Nutzerprofil vorstellen, sondern aus unseren Werbeklicks. Wer nie Werbung anklickt, schafft keine Möglichkeit zur Personalisierung; Google muss sich dann auf eine optimierte und automatisierte Anwendung der herkömmlichen Targeting-Praktiken beschränken. Zwar werden die Eingabedaten in den Klassifikator genauer, je mehr Google vorher über mich weiß. Google kann aber nicht herausfinden, ob mich diese Details im Hinblick auf das Klassifikationsziel von anderen Teilen der Population unterscheiden. Mit jedem Nichtklick übermittle ich dem Klassifikator nur die Information: »Sorry, das war nicht die richtige Lösung.« Ich bekomme meine Werbung dann gemäß der Populationsstatistik so wie diejenigen die in denselben Clustern landen.

So füttert man Datenkraken

Klicke ich dagegen regelmäßig Werbung an, liefere ich nach und nach ein Modell dafür, wie der Werbeerfolg von meiner Person abhängt. Auch wenn es anders wirkt, erfährt Google dabei immer noch wenig über mich. Google kann dann vorhersagen, wie meine Anwesenheit im Verglich zu anderen Nutzern oder zur Populationsstatistik das Relevanzmodell für Werbeeinblendungen in einem bestimmten Kontext modifiziert. Wenn Google sich anstrengt, gibt der Klassifikator vielleicht auch noch eine – für Googles Zwecke bedeutungslose und in der Begriffswelt des Klassifikators ausgedrückte – Erklärung seiner Entscheidung her. Um systematisch solche Erklärungen über mich zu erheben, müsste Google aber schon wieder zusätzliche Daten neben der Konfiguration des Klassifikators erfassen und speichern.

Zieloptimierte Werbung a la Google funktioniert also wahrscheinlich nicht so, wie es die naiven Modelle aus Folge 2 suggerieren. Wenn mein Verständnis richtig ist, gilt es gleichermaßen auch für andere personalisierte Funktionen und nicht nur für die Werbung. Im letzten Teil der Serie betrachten wir die Auswirkungen solcher Technologien auf den Datenschutz.

Datenkrake Google (5/7): Daten besiegen die Logik

März 2, 2012Datenkrake, Datenschutz, Forschung, Geschäft, Spackeria, WolkenkuckucksheimClassifier, Google, maschinelles Lernen, statistische InferenzSven Türpe

[Inhalt – Teil 1 – Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Die vorige Folge dieser Artikelserie behandelte die Frage, wie Maschinen lernen können. Diese Technik ist für Google ein zentrales und dienstübergreifendes Paradigma (freies PDF). Im Vorbeigehen bekommen wir damit eine Erklärung, warum die Metapher von Google+ als Facebook-Konkurrenz nicht funktioniert (vgl. Teil 1). Facebook (der Dienst) ist für Facebook (die Firma) der Kern des Geschäftsmodells. Für Google dagegen ist maschinelles Lernen aus allen Daten dieser Welt der Kern des Geschäftsmodells – und Google+ vor allem eine weitere Quelle interessanter Daten. Wer interagiert wie mit wem? Welche Inhalte verbreiten sich in welchen Kreisen? Wie reagieren Nutzer auf personalisierte Suchergebnisse? Welche Transformationen durchläuft ein Gerücht? Welche Merkmale unterscheiden ein Mem von einem Shitstorm? Alleine die Liste der Fragen, zu denen man mit Googles Philosophie der Datenverarbeitung in Google+ nach Antworten suchen könnte, scheint endlos. Mit Facebook hat Google+ deshalb nur einige oberflächliche Funktionen gemeinsam, es dient aber – mutmaßlich – einem ganz anderen Zweck.

Künstliche Intelligenz, diesmal richtig

Doch funktioniert das überhaupt? Ist die KI nicht tot? Das ist sie, aber Google macht gerade keine klassische KI. Anfangs versuchte man in der KI, alle wesentlichen Aspekte eines Problems in nachvollziehbare Regeln zu fassen. Man versuchte also, Gehirne sich selbst beschreiben zu lassen. Das war ungefähr so schlau wie der Versuch, eine Turing-Maschine Aussagen über Turing-Maschinen machen zu lassen, aber irgendwo musste man ja anfangen und das Internet als reichhaltige Datenquelle gab es auch noch nicht.

Letztlich geht es auch im Google-Ansatz um Regeln, aber formuliert werden sie nun unter Verwendung aller verfügbaren Daten und ohne die Notwendigkeit, dass ein Mensch diese Regeln nachvollziehen kann. Dass dabei bessere Regeln herauskommen können als aus menschlichen Gehirnen, gerade wenn das Problem kompliziert ist, zeigt ein Beispiel aus der IT-Sicherheit.

Bozorgi et al. beschäftigen sich in ihrem Paper Beyond Heuristics: Learning to Classify Vulnerabilities and Predict Exploits (freies PDF) mit der Vorhersage der Exploit-Wahrscheinlichkeit aus Verweundbarkeitsmeldungen. Gefundene Verwundbarkeiten in Software dokumentiert die Security-Community in Datenbanken, zum Beispiel der CVE oder der OSVDB. Ein Bewertungsschema für Verwundbarkeiten ist der CVSS-Score, ein Wert zwischen 0 und 10, der die Schwere des Problems angibt. 10 ist ganz schlimm, 0 völlig harmlos. Dieser Score wird auf eine nachvollziehbare und sinnvoll erscheinende Weise aus einer Reihe von Parametern gebildet. Für eine gegebene Verwundbarkeit in einer Software oder in einem System kann man sich den Score aus einigen Einschätzungen zusammenklicken und das Ergebnis stimmt meistens mit der Intuition des Fachmanns überein.

Computer schlägt Experten

Man sollte meinen, dass dieser Wert einen Anhaltspunkt liefert, ob ein Security-Bug nach seiner Entdeckung auch für Angriffe ausgenutzt wird – die mit dem Score 10 oft, die mit dem Score 0 nie. Bozorgi et al. zeigen jedoch, dass der CVSS-Score darüber wenig voraussagt, und stellen dem ihm einen angelernte Klassifikatoren gegenüber. Diese Klassifikatoren benutzt die gesamte Verwundbarkeitsdokumentation und liefert weit bessere Vorhersagen darüber, ob und wie schnell eine Verwundbarkeit ausgenutzt wird oder nicht.

Der verwendete Merkmalsraum hat 93.578 Dimensionen, die meisten abgeleitet aus Textfeldern wie den Namen der betroffenen Produkte oder den Freitextbeschreibungen des jeweiligen Sicherheitsproblems. Viele Dimensionen sind binär und geben einfach an, ob bestimmte Worte, zum Beispiel Buffer, in bestimmten Teilen eines Berichts vorkommen. Klassifikator lernt Cluster für ausgenutzte sowie für nicht ausgenutzte Verwundbarkeiten. Nebenbei liefert dieser Klassifikator noch einen Score, der sich daraus ergibt, wie weit eine Verwundbarkeitsmeldung nach der Merkmalsextraktion von der Clustergrenze entfernt liegt. Was tief im Cluster liegt, ist den anderen Punkten dort sehr ähnlich; was nahe der Grenze liegt, könnte nach kleinen Änderungen auch auf der anderen Seite, im anderen Cluster landen.

Das wirkt alles ein wenig wie Zauberei. Im Grunde genommen tut Google aber nichts anderes als unser Gehirn, nur ohne den Filter unserer Sinnesorgane, ohne Abgleich mit Lehrbuchwissen und mit viel mehr Daten und Aspekten dieser Daten als uns normalerweise bewusst werden. Google lernt Sprachen – oder Expertenintuition – wie wir, nur schneller und ohne den Umweg über Übungen und explizite Regeln direkt aus Beispielen und Feedback. Und wir sind die Lehrer.

Im nächsten Artikel werden wir uns damit beschäftigen, wie man mit lernenden Maschinen Werbeeinblendungen optimiert.

Datenkrake Google (4/7): Lernende Maschinen

März 1, 2012Datenkrake, Datenschutz, Forschung, Geschäft, Spackeria, WolkenkuckucksheimÜbersetzung, Classifier, Cluster, Daten, Google, maschinelles Lernen, statistische Inferenz, vieldimensionale RäumeSven Türpe

[Inhalt – Teil 1 – Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

In der dritten Folge der Artikelserie haben wir betrachtet, dass Google aus Crowdsourcing und Statistik nützliche Funktionen und Dienste baut und dabei aus dem Netz und von seinen Nutzern lernt. Wie funktioniert dieses Lernen?

Eine globale Tankstelle

Stell Dir vor, wir wären die Tankstelle der Welt. Wir verkaufen jede Sorte Treibstoff, die jemals irgendwo entwickelt, benannt und angeboten wurde, jeweils an einer eigenen Zapfsäule. Bei uns tanken deutsche Autofahrer Diesel, Super und Super Plus, Spanier 95 sin plomo und gasóleo, Japaner Hai-oku und Keiyu, Ossis in alten Trabis ihr Zweitaktgemisch VK 88 1:33 und afghanische Taliban brennbare Flüssigkeit aus Fässern und Flaschen.

Unsere Tankstelle ist riesig und unübersichtlich. Wie schicken wir jeden Fahrer mit seinem jeweiligen Fahrzeug an die richtige Säule? Wir könnten unsere Kunden nach ihren Wünschen fragen, aber dazu müssten wir all ihre Sprachen sprechen. Manche Kunden wüssten auch gar nicht, was sie tanken wollen, weil sie gerade in einem geliehenen Fahrzeug sitzen oder weil sie vergesslich sind oder weil ihre robuste russische Technik alles schluckt, was flüssig ist und brennt.

Unsere Kunden hätten zudem unterschiedliche Präferenzen, die teils mit ihren Fahrzeugen zusammenhängen, teils aber auch nicht. Während Mutti ihren Kleinwagen immer genau so betanken möchte, wie es ihr der nette Mann in der Werkstatt schon dreimal aus gegebenem Anlass erklärt hat, ist das Verhalten von Top-Verkäufer Johannes E. komplizierter. Gewohnheitsmäßig kippt er Super++ in seinen Audi, geht eh‘ auf Spesenrechnung und man gönnt sich ja sonst nichts. Ist er aber spät dran und ein Kunde wartet, nimmt er die erstbeste freie Säule, an der er sein Auto nicht kaputtmacht. Dann ist 95 sin plomo eine Alternative zur Schlange an der Super++-Säule, das kennt er aus seinem Urlaub auf Mallorca. Wenn Du mit Johannes E. redest, wirst Du davon allerdings nichts erfahren, weil ihm das selbst nicht so bewusst ist. Seine Bedürfnisse zeigen sich erst, wenn Du sein Verhalten beobachtest. Seine Verhaltensmuster können sich übrigens jederzeit ändern, zum Beispiel weil Johannes E. die Firma und damit den Firmenwagen gewechselt hat. Plötzlich sitzt Johannes E. in einem Mercedes und ein anderer in seinem Audi.

Eine Datenbank hilft uns nicht

Eine klassische Datenbank hilft uns in dieser Situation wenig. Führen wir sie über Fahrzeuge oder Fahrezugtypen, verlieren wir die Fahrerpräferenzen; führen wir sie über Fahrer, bekommen wir deren Wechsel vom Diesel zum Erdgas nicht mit. Bilden wir Paare von Auto und Fahrer, haben wir lauter Spezialfälle in der Datenbank und scheitern jedesmal, wenn eine unbekannte Paarung vorfährt, etwa weil Johannes E. eine Panne hatte und heute einen Mietwagen betankt. Was wir stattdessen haben wollen, ist ein Klassifikator, der fast immer die richtige Entscheidung trifft und dabei vorhandene Informationen generalisiert. Außerdem möchten wir, dass sich unser Klassifikator anpasst, wenn sich die Welt verändert. Wir möchten ihm nicht jede Woche die neuesten Gerüchte aus der Auto BILD und deren Auswirkungen auf seine Tätigkeit einprogrammieren, das soll er schön selbst lernen.

Merkmalsextraktion

Solch einen Klassifikator können wir bauen, und wir können ihn lernfähig machen. Dazu überlegen wir uns zunächst, welche beobachtbaren Merkmale ein Auto nebst Fahrer hat: Farbe, Kennzeichen, Abmessungen, Motor- und Fahrgeräusche, Felgen- und Reifentyp, Anhängerkupplung, Dachgepäckträger, Sauberkeit, Anzahl der Türen, Spoiler, Spracheinstellung des Navigationssystems, eingestellter Radiosender; beim Fahrer Hautfarbe, Körpergröße, Haarschnitt, Gesichtsbehaarung, Kleidung, Gesichtsausdruck und so weiter. Wir sammeln also erst mal alle Merkmale ein, die wir messen können. Welche dieser Daten wir am Ende wirklich brauchen, wissen wir noch nicht genau, voraussichtlich von allen ein bisschen.

Jedes messbare Merkmal liefert uns eine Dimension in einem vieldimensionalen Raum. Fährt ein Auto an unserer Tankstelle vor, können wir es in allen Dimensionen messen und danach als Punkt in diesem Raum darstellen. Kleine Abweichungen, zum Beispiel durch den Wechsel von Winter- zu Sommereifen, führen zu kleinen Verschiebungen im Raum. Große Unterschiede, etwa zwischen Muttis Kleinwagen und Bennos Umzugslaster mit ihren jeweiligen Fahrern, führen zu großen Abständen.

Klassifikator - Merkmalsextraktion — Merkmalsraum in den Dimensionen Farbe und Länge mit Datenpunkten für einige Fahrzeuge. In Wirklichkeit würde man die Farbe als Hue/Saturation/Value darstellen und zur Länge noch die Breite und die Höhe nehmen. Das wären bereits sechs Dimensionen und immer noch ein vereinfachtes Modell.

Unser Klassifikator soll uns zu jeder Eingabe – einem Punkt im Raum, der unsere Messwerte zu einem Fahrzeug repräsentiert – eine oder mehrere wahrscheinlich passende Zapfsäulen ausgeben.

Feedback

Wenn unsere Kunden mitdenken und ohne Einweisung oder nach einer falschen Empfehlung selbständig eine für sie richtige Zapfsäule aufsuchen, können wir ihr Verhalten beobachten und daraus lernen. Jedesmal wenn jemand bei uns tankt, bekommen wir ein Datensample, einen Punkt im Raum und die für diesen Punkt richtige Entscheidung. Diese Samples sammeln wir sortiert nach richtigen Entscheidungen. Diese Sammlung könnten wir uns noch als Datenbank vorstellen, in der für jede Zapfsäule sämtliche Merkmale der dort beim Tanken gesehenen Auto-Fahrer-Paare hinterlegt sind. Das sind aber nur Rohdaten und wir werden gleich sehen, dass wir sie gar nicht auf Vorrat in einer Datenbank speichern müssen.

Automatische Verallgemeinerung

Unser Klassifikator soll diese Rohdaten generalisieren können, das heißt auch für solche Datenpunkte gute Entscheidungen treffen, für die bisher keine Beobachtungen vorliegen. Repräsentiert unser Datenraum alle oder die meisten für die Klassifikation relevanten Merkmale, so bilden die Rohdaten zu jeder möglichen Entscheidung einen Cluster: sie liegen näher beieinander als sie zu den Datenpunkten anderer Cluster liegen. In den Randbereichen kann es zu Überschneidungen kommen. Das liegt entweder an verrauschten Daten aufgrund von Messfehlern, oder an fehlenden Merkmalen. Beispielsweise könnten uns einige Parameter fehlen, die das Verhalten unseres Tankchaoten Johannes E. erklären würden, weil wir seinen Terminkalender nicht kennen.

Die maßgebliche Nachbarschaft zwichen den Datenpunkten eines Clusters besteht dabei oft nur in ausgewählten Merkmalsdimensionen, da nicht alle Merkmale gleichermaßen relevant sind. Welche Dimensionen das sind, kann sich von Cluster zu Cluster unterscheiden. Wir könnten an unserer Tankstelle zum Beispiel beobachten, dass rote deutsche Sportwagen fast immer Super tanken, während Lkw sowie silbergraue und schwarze Mittelklassewagen Diesel bevorzugen. Dieser Cluster ließe sich mit den Merkmalen Farbe und Größe recht genau beschreiben. Gleichzeitig könnten wir beobachten, dass Japaner unabhängig von Autotyp und Farbe stets die Säule Hai-oku bevorzugen, weil es ihnen als unhöflich gilt, öffentlich billigen Diesel zu tanken. Daraus ergibt sich wiederum für die anderen Cluster, dass dort das Merkmal Nationalität eine Rolle spielt, und sei es nur die, Japaner aus dem Cluster auszuschließen.

Repräsentanten für Cluster

Damit unser Klassifikator gut funktioniert, benötigt er Beschreibungen der einzelnen Cluster, ihrer Clustergrenzen und ggf. der Überschneidungen mehrerer Cluster. Um einen Datenpunkt zu klassifizieren, also eine Entscheidung zu treffen, müssen wir ihn dem passendsten Cluster zuordnen. Erweist sich eine Klassifikation als falsch, so wollen wir außerdem die betroffenen Clusterbeschreibungen anpassen, ohne uns jedoch von einzelnen Ausreißern unsere Statistik kaputtmachen zu lassen. Anstelle der Rohdaten im Datenbankformat verwendet man dafür Repräsentanten: für jeden Cluster bestimmt man einen Satz von Punkten, der diesen Cluster gut repräsentiert. Diese Repräsentanten liegen irgendwo zwischen den Rohdatenpunkten; ihre Anzahl ist in der Regel geringer.

Für das Beispiel von eben bekämen wir als Repräsentanten des Clusters zur Zapfsäule Hai-Oku gemittelte Erkennungsmerkmale japanischer Fahrer, für Super die gemittelten Merkmale von Sportwagen mit Fahrern, in deren Land Sportwagen Super tanken, und für Diesel gemittelte Merkmale von Lastern sowie von langweilig kolorierten Mittelklassewagen. Die Cluster können komplizierte Formen haben und müssen nicht zusammenhängen, deswegen mehrere Repräsentanten.

Klassifikator - Cluster-Repräsentanten — Repräsentanten der Klassen *Diesel* und *Super* im vereinfachten Merkmalsraum. Datenpunkte – durch Kreuze dargestellt – lassen sich anhand ihrer Entfernung zu den Repräsentanten einer Klasse zuordnen. Ein roter Kleinbus mit Anhänger würde an der Diesel-Säule landen.

Um einen neuen Datenpunkt zu klassifizieren, suchen wir uns den oder die n nächstgelegenen Repräsentanten zu diesem Punkt und bestimmt daraus die Wahrscheinlichkeit der Clusterzugehörigkeit. Wir schicken das Fahrzeug an die Zapfsäule, deren Cluster die höchste Wahrscheinlichkeit hat. Klasse (d.h. Zapfsäule) und Wahrscheinlichkeit die Ausgaben des Klassifikators. Erweist sich die Entscheidung als falsch, analyisieren wir den Fehler und berechnen Korrekturen für die betroffenen Repräsentanten. Diese Korrekturen halten wir klein, Repräsentanten werden nur ein Stückchen in die richtige Richtung verschoben. Das macht unseren Klassifikator robust gegen einzelne statistische Ausreißer. Erst wenn systematische Fehler auftreten, akkumulieren sich viele gleichartige Korrekturen zu einer nennenswerten Verschiebung der Repräsentanten und Clustergrenzen. Beginnen können wir mit zufällig verteilten Repräsentanten; unser Klassifikator wird dann anfangs viele Fehler machen und schnell lernen.

Die Nutzerdaten werfen wir weg

Die ursprünglich erfassten Rohdaten, die gemessenen Merkmalswerte, können wir nach Verwendung wegwerfen. Dass Mutti beim Betanken ihres Kleinwagens immer eine Alditüte mit Einkäufen auf dem Beifahrersitz liegen hat, geht vielleicht als Merkmal in die Klassifikation ein – steht am Ende aber in keiner Datenbank. Wir brauchen diese Information nicht, unseren Klassifikator interessiert nur, ob der das Merkmal Alditüte berücksichten muss und falls ja, was es über die Clusterzugehörigkeit aussagt.

Wer genauer wissen möchte, wie statistische Inferenz und maschinelles Lernen funktioniert, und sich von Formeln nicht abschrecken lässt, findet im Buch Information Theory, Inference, and Learning Algorithms von David MacKay eine hervorragende und umfangreiche Einführung; das komplette Buch mit seinen 600 Seiten gibt es online als PDF-Datei. [Bevor Ihr jetzt anfangt zu drucken: die Amazon-Lieferung dauert auch nicht viel länger.]

In der nächsten Folge schauen wir uns die Leistungsfähigkeit und einige Implikationen dieses Ansatzes an.

Datenkrake Google (3/7): Statistisches Crowdsourcing

Februar 29, 2012Datenkrake, Datenschutz, Forschung, Geschäft, Spackeria, WolkenkuckucksheimCloud, Crowdsourcing, Google, Sprachverarbeitung, statistische InferenzSven Türpe

[Inhalt – Teil 1 – Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Im vorigen Teil dieser Serie haben wir uns einige mentale Modelle angeschaut, die genau wie viele unserer Datenschutzkonzepte von der Informationstechnik des vorigen Jahrhunderts ausgehen. Jetzt nähern wir uns der Realität von heute, zunächst anhand einiger Dienste und Funktionen, die in Sachen Privatsphäre weniger kritisch sind.

Strategische Position

Google sitzt auf der Content-Schicht in der Mitte des Netzes. Alle online veröffentlichten Informationen kommen dort vorbei, und das inzwischen sehr schnell. Obendrein bietet Google mit der Suche einen Dienst an, den fast jeder Internet-Nutzer verwendet. Und die Google-Suche muss mit verrauschten Informationen umgehen können, um aus der Datenhalde Internet jeweils die relevanten Informationen herauszufiltern. Google setzt dafür auf Statistik, auf maschinelles Lernen und auf Crowdsourcing. Das illustrieren Funktionen der Suche sowie der Dienst Google Translate.

Wie baut man eine Rechtschreibkorrektur oder eine Suchbegriff-Autocompletion, wenn man in Googles Position ist? Wäre man Microsoft, würde man Wörterbücher und Grammatik-Engines in die Schachtel packen, in der man sein Office-Paket verkauft. Als Microsoft muss man alles vordenken, was der Nutzer jemals tun wird. Die einzigen Rückkanäle sind die Support-Hotline, gelegentliche Crash-Reports sowie der Markt. Ist man dagegen Google, so interagiert man bei jedem Tastendruck mit seinem Nutzer.

Homöopathisches Crowdsourcing

Darauf lassen sich Crowdsourcing-Modelle stützen. Crowdsourcing bedeutet in etwa andere arbeiten lassen. Das ist gar nicht so einfach wie es klingt. Verlangt man zu viel für zu wenig Gegenleistung, fühlen sich die anderen ausgenutzt und spielen nicht mit. Ein früher Versuch in dieser Richtung war Googles Image Labeler. Er verpackte das Finden von Schlagworten zu Bildern als Spiel – das schnell langweilig wurde. Am besten funktioniert andere arbeiten lassen, wenn die anderen damit gar keine Arbeit haben oder die Arbeit sowieso machen.

Eingabekorrekturen sind ein Beispiel. Wer sich vertippt und seinen Fehler bemerkt, der wird ihn korrigieren. Sind wir nun Google und haben wir einen interaktiven Kanal zu jedem einzelnen Internet-Nutzer, so bekommen wir täglich Millionen, vielleicht sogar Milliarden von Tippfehlern samt den zugehörigen Korrekturen frei Haus geliefert. Mit anderen Worten, Google erhält eine umfangreiche Tippfehler- und Korrekturstatistik über einen beachtlichen Teil der Weltbevölkerung. Der einzelne Fehler, die einzelne Korrektur oder auch das Profil eines einzelnen Nutzers sind dabei belanglos, während die Aggregation dieser Daten fast alles enthält, was man über Tippfehler und und ihre Berichtigungen wissen kann.

Wenn man Google ist, zapft man diese Datenquelle an und baut einen Mechanismus, der von den Nutzern lernt, wie Tippfehler zu korrigieren sind. [Das Teufelchen auf meiner linken Schulter unterbricht mich gerade und schlägt vor, einen Google-Korrektur-Flashmob zu organisieren, der Google einen falschen Korrekturvorschlag für Hommingberger Gepardenforelle antrainiert. Das Engelchen auf der rechten weint leise in einen Facepalm hinein.] Funktioniert so ein Mechanismus einmal, müssen wir uns um keine Rechtschreibreform mehr kümmern. Das übernehmen alles die Nutzer, indem sie sich ganz natürlich verhalten. Das ist etwas vereinfacht, weil Google außerdem auch noch das ganze Web kennt und auch daraus eine Menge über alle möglichen Sprachen lernen kann (freies PDF).

Welche Vervollständigungen für teilweise eingetippte Suchbegriffe in Frage kommen, können wir an Googles Stelle auf ähnliche Weise ermitteln. Wir beginnen mit einer Statistik über die eingegebenen Suchbegriffe und die Texte im Web und bieten Vervollständigungen an. Mit dem Nutzerfeedback – welche Vorschläge werden angeklickt? – verfeinern wir unser Modell. In diesem Fall ist es manchmal nützlich, zum Beispiel den ungefähren Aufenthaltsort des Nutzers genauer zu kennen, wie ihn die IP-Adresse oft verrät.

Von der EU lernen heißt Übersetzen lernen

Wie weit solche Ansätze der automatischen Sprachverarbeitung heute führen können, zeigt uns der Übersetzer Google Translate. Dessen Übersetzungen erfolgen nicht anhand von Regeln, die ein Programmierer vorgegeben hat. Das wäre die Microsoft-Methode für Firmen, die Software in Schachteln packen. Die Google-Methode funktioniert nach demselben Prinzip wie eben erläutert. Aus dem Web bekommt Google laufend Beispiele für Übersetzungen, etwa von der EU mit ihren 23 Arbeitssprachen, in die alle offiziellen Dokumente übersetzt werden. Diese Übersetzungen stammen von Menschen; Google lässt daraus Maschinen lernen.

Weil das alleine noch recht fehleranfällig ist, berücksichtigt Google wieder auch das Feedback von seinen Benutzern. Sie können für die Übersetzung einzelner Wörter oder Wortgruppen zwischen Alternativen wählen, eigene Korrekturen eingeben und die Übersetzung insgesamt bewerten:

Die Korrekturen und Bewertungen liefern Google auch hier eine Statistik zur Optimierung.

Verhaltensforschung ohne Privacy-Problem

Um solche Funktionen und Dienste realisieren zu können, muss Google seine Nutzer ein wenig beobachten. Google benötigt eine Aufzeichnung der Nutzerinteraktion über einen Nutzungskontext hinweg, der sich über eine Folge von Klicks (Nutzersicht) oder HTTP-Requests (Googlesicht) erstreckt. Informationen über den Nutzer als Person sind Google dabei egal, das beobachtete Nutzerverhalten liefert lediglich Datenpunkte für eine Statistik über die gesamte Nutzerpopulation. Google möchte an dieser Stelle nicht wissen, wer wir sind oder wofür wir uns interessieren, sondern welche Verhaltensweisen häufig und welche selten vorkommen.

Unerwünschte Nebenwirkungen, zum Beispiel das Erstellen persönlicher Rechtschreibprofile beim Dienstanbieter, sind nicht per se ausgeschlossen. Sie sind nur uninteressant und lassen sich durch mittlere Sorgfalt im Umgang mit Daten recht zuverlässig vermeiden. Unterwegs besteht noch das Risiko einer Datenverkehrsanalyse, aus der jemand trotz Verschlüsselung Rückschlüsse auf Eingaben ziehen könnte, aber das ist ein (kleines) inhärentes Risiko des Netzes, dafür kann Google nichts. Sollte so etwas als Angriffsszenario praktisch relevant werden, ließe es sich zudem technisch verhindern.

Google baut also Dienste, die mit implizitem Feedback aus dem statistischen Nutzerverhalten optimiert werden. In der nächsten Folge werden wir noch etwas tiefer in die Welt der lernenden Maschinen eintauchen. Es wird dann darum gehen, wie eine Maschine überhaupt lernen kann. Keine Angst, Formeln gibt es keine.

Datenkrake Google (2/7): Naive Modelle

Februar 28, 2012Datenkrake, Datenschutz, Forschung, Geschäft, Spackeria, WolkenkuckucksheimCloud, Datenbank, Einwilligung, mentales Modell, NutzerprofilSven Türpe

[Inhalt – Teil 1 – Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Im ersten Teil haben wir gesehen, dass Google häufig missverstanden wird, weil wir Metaphern aus unserer Erfahrungswelt auf Google anwenden und damit alles für erklärt halten. In Wirklichkeit funktionieren solche Metaphern aber nur für einige Oberflächenphänomene.

Google als Datenbank?

Ein vebreitetes Missverständnis betrifft die Sammlung, Speicherung und Verwendung personenbezogener Daten, landläufig als Nutzerprofile bezeichnet. Nutzerprofile kann sich jeder vorstellen, das sind, ganz klar, umfangreiche Datensätze in riesigen Datenbanken:

»Die Profile als solche sollen ja immer anonym sein, das heißt (sofern ich das richtig verstehe), dass das z. B. so aussieht:

Profilnummer: 1337

Interessen:

Urlaubsziele: Toscana, Sizilien

Hobbies: Arduino, Lockpicking

Essen: Hamburger, Grießbrei

…

Wenn jetzt jemand Werbung schalten möchte, geht derjenige zu Google und sagt: „Hey, Google, ich will für mein Grießbreiwettessen am Fuße des Ätna Werbung schalten. Bitte zeige also allen Grießbreiessern, die gerne nach Sizilien fahren oder dort wohnen, folgende Werbung:
‚[…]‘.“«

(Kommentar von Steven Koenig alias Kreuvf auf heise.de)

An diesem Modell orientieren sich unsere Ängste und Befürchtungen. Doch repräsentiert dieses Modell überhaupt die Realität? Es wirkt plausibel für den, der mal eine herkömmliche Datenbank gesehen hat, oder darauf basierende primitive Versuche der Datensammlung durch Abfrage beim Nutzer:

»Wer einen neuen Account im Internet anlegt – egal ob für die E-Mail, ein Webforum oder eine neue Shoppingseite – erlebt stets ein mühsames Prozedere: Zuerst muss man sich einen Nutzernamen und ein Passwort auswählen. Danach wird man über drei Seiten nach Details vom Geburtsdatum bis zu persönlichen Vorlieben befragt und muss die Anmeldung am Schluss per E-Mail absegnen.«

(Zeit Online: Stoppt die Datenkraken!)

Als Missbrauchsszenario stellen wir uns dazu gerne einen schwunghaften Handel mit solchen Datensätzen vor.

Andersdenkende

Google hat sich jedoch das Think Different! von Apple geborgt und tut Dinge gerne auf eine ganz andere Art als der gewöhnliche IT-Spießer. Mit lächerlichem Spielkram wie Datenbanken hält sich Google nicht auf. Der Grund dafür ist nicht etwa, dass Google nach der Weltherrschaft strebt, sondern dass Google die Herrschaft über ein Stück Welt besitzt: über einen riesigen, verteilten Computer, der fast alle. veröffentlichten Informationen zu sehen bekommt. Und damit etwas anfangen soll, trotz des Kauderwelschs aus einigen Hundert Sprachen und Dialekten. Dabei helfen Datenbanken nicht, die brauchen zu viele Menschen, die sich um sie kümmern.

Im oben zitierten Heise-Forum fragt User flare—-*: »Ein Mensch arbeitet, vergnügt sich, informiert sich, macht Unsinn. Wie will google das vernünftig trennen?« Die Antwort auf diese Frage lautet: Das weiß Google selbst nicht so genau. Die Geschichte von Google begann mit einer ähnlichen Frage und derselben Antwort: Wie können wir aus einem schlecht organisierten Haufen unstrukturierter, redundanter, fehlerhafter und mehrsprachigerTextdaten relevante Informationen herausfiltern? Googles Antwort lautete von Beginn an: Indem wir uns nicht um spezifische, ausformulierte Regeln kümmern, wie es etwa die Linguisten tun, sondern den Umgang der Nutzerpopulation mit den Daten statistisch auswerten. PageRank war eine Keimzelle der Google-Philosophie, die darin besteht, einen Computer mit allen möglichen Daten zu füttern und ihn die Antworten auf Fragen selbst finden zu lassen. Google ist ein Computer wie ihn Science-Fiction-Autoren jahrzehntelang beschrieben haben.

Datenschützer werfen Exceptions

Cloud Computing hat deshalb für Google eine Doppelbedeutung. Neben der landläufigen Interpretation als Verlagerung der IT vom Endgerät ins Netz bedeutet Cloud Computing für Google auch Statistik in vieldimensionalen Datenwolken zur Beantwortung von Fragen, kurz: statistische Inferenz und maschinelles Lernen.

Der herkömmliche Datenschutz tut sich schwer mit diesem Ansatz, denn er geht von den primitiven Modellen aus, die wir oben gesehen haben. So etwas wie Google ist in diesen Modellen nicht vorgesehen, und es gibt auch keinen Mechanismus im Datenschutz, der diesen Fehler erkennen und eine Excepton auslösen würde. Also wenden unsere Institutionen wacker die alten Begriffe auf eine neue Technik an. Das ist ungefähr so, als wollte man den heutigen Straßenverkehr mit Gesetzen aus der Ära der Postkutsche regeln. Formal ginge es irgendwie schon, wenn man Autos als pferdelose Wagen und Fahrräder als Drahtesel betrachtete, aber passend wären die Regeln nicht und es käme zu allerlei Absurditäten.

Dementsprechend knirscht es auch im Daten- und Privatsphärenschutz, wenn wir die Tradition mit der Moderne konfrontieren. Schwierigkeiten bereiten zum Beispiel:

Die binäre Unterscheidung zwischen personenbezogenen und anderen Daten, die Google bewusst und zweckdienlich vermischt
Die formalisierte Einwilligung des Individuums, das für Google eine Datenquelle in einem Kollektiv ist
Die Idee der Datensparsamkeit, die bei blinder und konsequenter Anwendung so etwas wie Google gar nicht zuließe, selbst wenn Google inhärent datensparsam wäre
Die Vorstellung einer feingranularen Zweckbindung etwa für das Datenfeld IP-Adresse, da solche Datenfelder nur in den Eingabedaten vorkommen

Google hat deswegen gar keine andere Möglichkeit als sich eine Generalklausel unterschreiben zu lassen, wenn Google Google bleiben will, unabhängig davon, ob Google mit unseren Daten gute oder böse Sachen macht.

Im nächsten Teil wird es darum gehen, wie Google aus Netzinhalten und Nutzerdaten nützliche Funktionen baut, ohne Privatsphären zu verletzen.

Datenkrake Google (1/7): Einleitung

Februar 26, 2012Datenkrake, Datenschutz, Forschung, Geschäft, Spackeria, WolkenkuckucksheimGoogle, Nutzerprofile, Postprivacy, PrivatsphäreSven Türpe

[Inhalt – Teil 1 – Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Google macht ein Riesengeschäft mit unseren Daten. Das stimmt. Google legt dazu gigantische Datenbanken an, aus denen man alles über uns herauslesen kann, und führt sie jetzt auch noch dienstübergreifend zusammen. Das stimmt so wahrscheinlich nicht, die Sache ist komplizierter.

Um Google ranken sich Mythen und Missverständnisse, manche halten Google gar für »eine der am meisten mißverstandenen Firmen auf diesem Planeten«. Diese Missverständnisse gehen oft darauf zurück, dass wir die einzelnen Ausprägungen von Google – Dienste wie die Suche, GMail, Google+ usw. – isoliert mit ihren jeweiligen Konkurrenten identifizieren, statt die Leitideen dahinter zu betrachten.

Repräsentativ für diese Art von Missverständnis ist die Betrachtung von Google+ als »Googles Angriff auf Facebook«, die uns oft Hand in Hand mit Untergangsprognosen begegnet. Dieselben Wahrsager können auch der Integration von Google+ und Google-Suche nichts abgewinnen. Doch im Google-Paradigma betrachtet ergibt alles einen Sinn: Google+ und die Dienstintegration liefert Google Daten genau jener Art, die Google braucht, um noch googliger zu werden. Womit wir wieder bei den Datenbanken wären, die Google nicht führt, weil Datenbanken ein Konzept aus der Welt vor Google sind.

Was also tut Google eigentlich mit unseren Daten? Diese Frage versucht meine Artikelserie zu beantworten. Sie wird aus aus öffentlichen Informationen und einer Portion Informatikerbauchgefühl ein Bild davon skizzieren, was Google (mutmaßlich) mit unseren Daten macht und wieso diese Nutzung nicht per se böse ist. Das soll weder eine Glorifizierung noch eine Verteufelung werden, sondern eine neutrale Darstellung technischer und philosophischer Aspekte sowie einiger daraus folgender Fragen zu unseren aus der Mainframe-und-PC-Ära überlieferten Datenschutzkonzepten. Um konstruktiv über Datenschutz-Fails, Post-Privacy und Spackeria-Positionen diskutieren zu können, brauchen wir korrekte Modelle dessen, worüber wir reden.

Wer eine Stunde Zeit hat, sich mit Googles unkommentierter Sicht der Dinge zu beschäftigen, dem sei der Vortrag »Secrets of Search« von Douglas Merrill empfohlen. Merrill erklärt darin, was Google mit den vielen Daten im Netz und von seinen Nutzern eigentlich tut. Meine Betrachtungen sind zum Teil spekulativ, wo sie über die Aussagen der verlinkten Quellen hinausgehen. Ich habe kein Insiderwissen und kann mich in meinen Schlussfolgerungen irren. Aber aus lückenhafter Dokumentation, beobachteten Verhaltensweisen und Experimenten Rückschlüsse auf die Funktionsweise von Systemen zu ziehen, ist schließlich mein Beruf. Auf technische Details kommt es mir hier nicht an, mir geht es um Funktionsprinzipien und Paradigmen, die Googles Herangehensweise zugrunde liegen.

Inhaltsverzeichnis

Einleitung
Naive Modelle
Statistisches Crowdsourcing
Lernende Maschinen
Daten besiegen die Logik
Und jetzt Werbung (und ein Nachtrag dazu)
Privatsphärenschutz in der Datenwolke

In Folge 2 werden wir landläufige Vorstellungen von Nutzerprofilen betrachten und die Exceptions skizzieren, die der Legacy-Code unseres Datenschutzes bei der Interaktion mit dem Phänomen Google wirft.

Sicher ist sicher?

Ängste, Risiken, Vorsorge und unser gestörtes Verhältnis zur IT