Schlagwort-Archive: Cloud

Scheinalternative Manufaktur-EDV

„Es gibt sie noch, die guten Dinge“, wirbt ein Einzelhändler, der sich auf altmodische, handgefertigte Haushaltswaren spezialisiert hat. Wer es geil findet, einen Tischfernsprecher W 48 – außen Bakelit®, innen solide Nachkriegselektrik, Digitalkonverter separat erhältlich – in sein Wohnzimmer zu stellen oder den Rasen seines Anwesens mit einem handbetriebenen Spindelmäher kurz zu halten, wird dort zu gesalzenen Preisen fündig.

Nüchtern betrachtet ergibt solch ein Kauf wenig Sinn. In derselben Preisklasse bekommt man als Gegenwartstechnik ein Smartphone oder einen Mähroboter und damit viel mehr Leistung für sein Geld. Der bloße Kauf eines altmodischen Manufakturprodukts mag noch wie eine Geschmackssache wirken, in der man sich willkürlich so oder so entscheiden kann. Doch über die Nutzungsdauer betrachtet zahlt man beim Manufakturprodukt verglichen mit seinen zeitgemäßen Nachfolgern fortwährend drauf. Deswegen kaufen Menschen nur dann „die guten Dinge“, wenn ihnen diese Folgekosten egal sind, etwa weil es sich um ein Geschenk mit externalisierten Kosten handelt oder weil sie mit einem Statussymbol unaufdringlich Vermögen demonstrieren möchten.

„Es gibt sie noch, die guten Dinge“, behaupten auch Technik- und Kulturpessimisten, denen der Fortschritt zu schnell fortschreitet und ob das denn nötig sei und nicht am Ende unsere Jugend verdürbe. Die guten Dinge, das sind ihnen Telefonate statt Videokonferenzen, selbst betriebene Open-Source-Anwendungen, Endgeräte und Anwendungen ohne Telemetrie und dergleichen mehr. Der Rest der Welt hat sich derweil an Videokonferenzen gewöhnt, wartet sehnlichst darauf, dass öffentliche Einrichtungen wie Schulen und Ämter endlich in der IT-Gegenwart ankommen, und nutzt selbstverständlich Anwendungen und Plattformen aus der Steckdose.

Die angeblich guten Dinge ähneln ihren Vorbildern aus dem Reich der Haushaltswaren. Wäre das Telefon eine ebenbürtige Alternative zur Videokonferenz, gäbe niemand Geld für Videokonferenzdienste aus. Dass es doch alle tun, liegt daran, dass es sich eben nicht nur um eine Art Bildtelefon handelt, sondern um Anwendungen für multimediale 1:n- und m:n-Kommunikation. Wo das Telefon genügt, greifen Menschen von alleine zu diesem, aber das Telefon kann im Vergleich zur Videokonferenz ungefähr so viel wie ein Tischfernsprecher W 48 im Vergleich zum Smartphone.

Auch Telemetrie und Cloud Computing entspringen nicht etwa einem gemeinen Weltherrschaftsplan amerikanischer Überwachungskapitalisten, sondern schlicht technisch-ökonomischem Fortschritt, der selbst und autark betriebene Anwendungen nach und nach zu einem Thema für die Geschichtsbücher macht. Dahinter steckt ein Prozess der Kommoditisierung, den jede Infrastrukturinnovation durchläuft. Anwendungen wandern im aus denselben Gründen von eigenen Servern in die Cloud, aus denen einst Dampfmaschinen in Kraftwerke und die Inhalte von Sparstrümpfen auf Bankkonten wanderten: Weil es möglich wurde und sich als effizienter erwies.

Die Vorteile sind offensichtlich. Dieses Blog hier zum Beispiel läuft komplett in der Cloud, bei wordpress.com. Ich muss mich um nichts anderes kümmern als die Inhalte: keine Server betreiben, keine Software installieren, keine Updates einspielen, kein Backup machen, nicht nach Einbrüchen aufräumen. Ich muss mir nur mein Passwort merken und, wenn ich es schön haben möchte, jedes Jahr ein paar Euro bezahlen. Alles selbst zu machen, wäre in der Summe teurer bei einem schlechteren Ergebnis, deshalb lasse ich das.

Dass dieses Geschäft funktioniert, liegt an Skaleneffekten: Durch Massenproduktion sinken die Kosten pro Stück. WordPress.com betreibt mein Blog nicht auf dieselbe Weise, wie ich es tun würde, also mit einem dedizierten und individuell administrierten Server, sondern auf einer eine Plattform mit Millionen von Blogs und Benutzern. Die Grenzkosten für ein einzelnes Blog verschwinden praktisch. Deshalb kann wordpress.com jeden Aufwand unterbieten, den ich für die Leistung „funktionierendes Blog“ in derselben Qualität betreiben müsste. Manufaktur ist teurer als Massenproduktion, in der Anschaffung wie im Betrieb.

Der Trend zum Software-Service betrifft nicht nur Anwendungen, sondern auch das, was wir früher Betriebssystem nannten und was heute den Charakter eine Managed Platform hat. Früher baute man seine Computersysteme selbst: schaffte Hardware an, installierte Betriebssysteme darauf und schließlich Anwendungsprogramme, organisierte den Betrieb des teuren Geräts zum Beispiel mit regelmäßigen Datensicherungen und Virenscans. Wer wollte, konnte den Computer später für einen anderen Zweck verwenden, indem er diesen Prozess mit demselben oder einem anderen Betriebssystem und neuen Anwendungen erneut begann.

Heute sind Geräte austauschbar und Betriebssysteme eine Dienstleistung. Wir haben Benutzerkonten bei Apple/Google/Microsoft, die wir mal mit diesem, mal mit jenem Gerät nutzen. Kommt mal ein Gerät weg, tritt man es online aus allen Diensten raus, stellt ein neues hin und macht dort weiter, wo man aufgehört hatte. An der Software der Endgeräte herumzubasteln, macht noch weniger Sinn als ein eigener Anwendungsbetrieb.

Themen wie Telemetrie in Windows und Office oder auch Apples automatischer Sicherheitscheck beim Programmstart, der neulich einen kurzen Aufruhr auslöste, muss man in diesem Kontext betrachten. Es hat keinen Sinn mehr, sich über „nach Hause telefonierende“ Software zu erregen. Der Normalfall ist, dass Software in der Cloud läuft und dort betreut und weiterentwickelt wird; teilautonome Endgeräte werden stattdessen als Näherungslösung so an die Cloud angeschlossen, dass man ihren Benutzern trotzdem Stress mit der Systemadministration ersparen kann. Und das ist gut, denn inzwischen kann man auch Laien einen Internetapparat anvertrauen, ohne ständig auf sie aufpassen zu müssen.

In der konsequentesten Umsetzung bekommt man am Ende einen Thin Client wie Googles Chromebook als Interface zur Cloud, bei dem lokale Anwendungen keine Rolle mehr spielen. Dann bereitet das einzelne Gerät praktisch keinen Administrationsaufwand mehr, weil es nur noch einen Browser booten muss, der durch ein Benutzerlogin an einem Cloudservice personalisiert wird. Damit lässt sich zum Beispiel ein Laptopverleih organisieren, wie ihn die ULB Darmstadt anbietet. Einige sind der Ansicht, dass dies auch für den Schulbetrieb genau der richtige Ansatz sei.

Wer unbedingt in einem Gefühl digitaler Souveränität schwelgen möchte, kann das alles auch nachbauen. Das wird jedoch voraussichtlich ein teures und zeitraubendes Projekt. Man bekommt eben nicht dasselbe, indem man mal schnell einen Linux-Server mit ein paar Open-Source-Paketen aufsetzt, sondern müsste schon das ganze System und dessen Betrieb replizieren und außerdem in die Weiterentwicklung investieren wie ein etablierter Cloudversorger. Das kann man tun, aber es ist nicht die beste Idee, wenn man gerade etliche Jahre verschlafen hat und einen nun auch noch eine Viruspandemie zu schnellem Handeln zwingt. Obendrein hält ein in der Hinterhofwerkstatt aus Subprime-Software zusammengefrickeltes System in Sachen SIcherheit und Datenschutz nicht unbedingt, was seine Verfechter versprechen. So fiel die häufig genannte Videokonferenzsoftware Big Blue Button kürzlich mit langen Reaktionszeiten auf gemeldete Sicherheitsmängel auf. Dort hätte man also nachzuarbeiten.

Es gibt sie noch, die guten Dinge, doch sie sind gar nicht gut, sondern alt, rückständig, umständlich produziert. Dennoch empfohlen werden sie als Scheinalternative von Akteuren, denen niemand die Kosten ihrer Ratschläge in Rechnung stellt, die sich jedoch eigene – nicht-monetäre – Gewinne erhoffen. Datenschutzbeauftragte sollen schnellen Fortschritt in der IT nicht fördern, sondern bremsen und ihre Arbeit beruht auf Gesetzen und Traditionen, welche die Datenverarbeitung unter den Generalverdacht der Grundrechtsgefährdung stellen. Vereinsinformatiker können sich umso wichtiger fühlen, je komplizierter Informationstechnik zu nutzen ist, je exklusiver also ihre Expertise bleibt. Verbraucherschützer benötigen einen Antagonisten, und sei es ein erfundener wie die „Prägung“ von Schülerinnen und Schülern auf Microsoft-Produkte und die angebliche Vermarktung ihrer Verhaltensdaten durch Microsoft. All jene, die tatsächliche Kosten gegen den tatsächlichen Nutzen abwägen müssen, sind mit zeitgemäßen Services besser bedient als mit Manufakturalternativen. Wer nicht möchte, dass deren Anbieter Microsoft oder Google heißen, muss konkurrenzfähige Alternativen als Dienstleistung anbieten und nicht Software zum Selbermachen empfehlen.

Von der Datentransaktion zur Datenemission

Datenschutz ist regelmäßig ein Thema in diesem Blog, denn seine Schutzziele und Mechanismen überschneiden sich mit denen der IT-Sicherheit oder stehen mit ihnen in Wechselwirkung. Datenschutz ist auch regelmäßig der Gegenstand öffentlicher Debatten. Das ist einerseits verständlich, denn wir sind heute überall von vernetzter IT umgeben. Andererseits verlaufen solche Debatten oft bizarr, weil der Datenschutz politisch instrumentalisiert und mit sachfremden Aspekten vermischt wird. Dabei ist die Frage für sich und ohne Ballast schon schwer genug: Was soll, was kann, was bedeutet Datenschutz heute und in Zukunft?

Mit einem Aspekt dieser Frage habe ich mich zusammen mit Jürgen Geuter und Andreas Poller in einem Beitrag zur Konferenz Die Zukunft der informationellen Selbstbestimmung des Forums Privatheit Ende 2015 beschäftigt, der jetzt endlich im Konferenzband erschienen ist. Wir beschäftigen uns darin mit der Frage, wie sich die Paradigmen der Informationstechnologie seit der Entstehungszeit des deutschen Datenschutzrechts verändert haben und unter welchen Bedingungen Persönlichkeitsrechte im Zusammenhang mit der Datenverarbeitung heute geschützt werden sollen.

Der Datenschutz hat seine Wurzeln in den 1970er und 1980er Jahren. Das vorherrschende Verarbeitungsparadigma der EDV, wie man die IT damals nannte, war das der Datenbank. Darauf sind die Regeln des BDSG erkennbar zugeschnitten; sie geben der Datenerfassung und -verarbeitung ein Gerüst aus expliziten Transaktionen zwischen Betroffenen und verarbeitenden Stellen, mit denen die Betroffenen ihr Recht auf informationelle Selbstbestimmung wahrnehmen.

Heute prägen andere Paradigmen die Informationstechnik: die allgegenwärtige Vernetzung, die eine detaillierte Kontrolle durch explizite Transaktionen unpraktikabel macht, und das maschinelle Lernen, welches das Verständnis der Verarbeitungsvorgänge und die Einflussnahme darauf erschwert. Die Vorstellung einer expliziten Datenerhebung nebst informierter Einwilligung passt deshalb nicht mehr zur Technik und ihren vielfältigen Anwendungen.

Wir haben die neuen Bedingungen in eine Emissionsmetapher gepackt: Jeder von uns sendet fortlaufend Daten aus, die sich im Netz verbreiten und dort von verschiedenen Akteuren aufgefangen und verarbeitet werden, vergleichbar der Art und Weise, wie sich Licht von einer Lichtquelle im Raum ausbreitet. Das schließt Eingriffe nicht aus, aber sie müssen auf diese Verhältnisse zugeschnitten sein. Eine umfassende Lösung dafür können wir nicht präsentieren, aber wir diskutieren einige Ansätze.

Der ganze Beitrag:

Sven Türpe; Jürgen Geuter; Andreas Poller: Emission statt Transaktion: Weshalb das klassische Datenschutzparadigma nicht mehr funktioniert. In: Friedewald, M.; Roßnagel, A.; Lamla, J. (Hrsg.) (2017): Informationelle Selbstbestimmung im digitalen Wandel. Wiesbaden: Springer Vieweg DOI: 10.1007/978-3-658-17662-4_14, © Springer.

Datenkrake Google (3/7): Statistisches Crowdsourcing

[InhaltTeil 1 Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Im vorigen Teil dieser Serie haben wir uns einige mentale Modelle angeschaut, die genau wie viele unserer Datenschutzkonzepte von der Informationstechnik des vorigen Jahrhunderts ausgehen. Jetzt nähern wir uns der Realität von heute, zunächst anhand einiger Dienste und Funktionen, die in Sachen Privatsphäre weniger kritisch sind.

Strategische Position

Google sitzt auf der Content-Schicht in der Mitte des Netzes. Alle online veröffentlichten Informationen kommen dort vorbei, und das inzwischen sehr schnell. Obendrein bietet Google mit der Suche einen Dienst an, den fast jeder Internet-Nutzer verwendet. Und die Google-Suche muss mit verrauschten Informationen umgehen können, um aus der Datenhalde Internet jeweils die relevanten Informationen herauszufiltern. Google setzt dafür auf Statistik, auf maschinelles Lernen und auf Crowdsourcing. Das illustrieren Funktionen der Suche sowie der Dienst Google Translate.

Wie baut man eine Rechtschreibkorrektur oder eine Suchbegriff-Autocompletion, wenn man in Googles Position  ist? Wäre man Microsoft, würde man Wörterbücher und Grammatik-Engines in die Schachtel packen, in der man sein Office-Paket verkauft. Als Microsoft muss man alles vordenken, was der Nutzer jemals tun wird. Die einzigen Rückkanäle sind die Support-Hotline, gelegentliche Crash-Reports sowie der Markt. Ist man dagegen Google, so interagiert man bei jedem Tastendruck mit seinem Nutzer.

Homöopathisches Crowdsourcing

Darauf lassen sich Crowdsourcing-Modelle stützen. Crowdsourcing bedeutet in etwa andere arbeiten lassen. Das ist gar nicht so einfach wie es klingt. Verlangt man zu viel für zu wenig Gegenleistung, fühlen sich die anderen ausgenutzt und spielen nicht mit. Ein früher Versuch in dieser Richtung war Googles Image Labeler. Er verpackte das Finden von Schlagworten zu Bildern als Spiel – das schnell langweilig wurde. Am besten funktioniert andere arbeiten lassen, wenn die anderen damit gar keine Arbeit haben oder die Arbeit sowieso machen.

Eingabekorrekturen sind ein Beispiel. Wer sich vertippt und seinen Fehler bemerkt, der wird ihn korrigieren. Sind wir nun Google und haben wir einen interaktiven Kanal zu jedem einzelnen Internet-Nutzer, so bekommen wir täglich Millionen, vielleicht sogar Milliarden von Tippfehlern samt den zugehörigen Korrekturen frei Haus geliefert. Mit anderen Worten, Google erhält eine umfangreiche Tippfehler- und Korrekturstatistik über einen beachtlichen Teil der Weltbevölkerung. Der einzelne Fehler, die einzelne Korrektur oder auch das Profil eines einzelnen Nutzers sind dabei belanglos, während die Aggregation dieser Daten fast alles enthält, was man über Tippfehler und und ihre Berichtigungen wissen kann.

Wenn man Google ist, zapft man diese Datenquelle an und baut einen Mechanismus, der von den Nutzern lernt, wie Tippfehler zu korrigieren sind. [Das Teufelchen auf meiner linken Schulter unterbricht mich gerade und schlägt vor, einen Google-Korrektur-Flashmob zu organisieren, der Google einen falschen Korrekturvorschlag für Hommingberger Gepardenforelle antrainiert. Das Engelchen auf der rechten weint leise in einen Facepalm hinein.] Funktioniert so ein Mechanismus einmal, müssen wir uns um keine Rechtschreibreform mehr kümmern. Das übernehmen alles die Nutzer, indem sie sich ganz natürlich verhalten. Das ist etwas vereinfacht, weil Google außerdem auch noch das ganze Web kennt und auch daraus eine Menge über alle möglichen Sprachen lernen kann (freies PDF).

Welche Vervollständigungen für teilweise eingetippte Suchbegriffe in Frage kommen, können wir an Googles Stelle auf ähnliche Weise ermitteln. Wir beginnen mit einer Statistik über die eingegebenen Suchbegriffe und die Texte im Web und bieten Vervollständigungen an. Mit dem Nutzerfeedback – welche Vorschläge werden angeklickt? – verfeinern wir unser Modell. In diesem Fall ist es manchmal nützlich, zum Beispiel den ungefähren Aufenthaltsort des Nutzers genauer zu kennen, wie ihn die IP-Adresse oft verrät.

Von der EU lernen heißt Übersetzen lernen

Wie weit solche Ansätze der automatischen Sprachverarbeitung heute führen können, zeigt uns der Übersetzer Google Translate. Dessen Übersetzungen erfolgen nicht anhand von Regeln, die ein Programmierer vorgegeben hat. Das wäre die Microsoft-Methode für Firmen, die Software in Schachteln packen. Die Google-Methode funktioniert nach demselben Prinzip wie eben erläutert. Aus dem Web bekommt Google laufend Beispiele für Übersetzungen, etwa von der EU mit ihren 23 Arbeitssprachen, in die alle offiziellen Dokumente übersetzt werden. Diese Übersetzungen stammen von Menschen; Google lässt daraus Maschinen lernen.

Weil das alleine noch recht fehleranfällig ist, berücksichtigt Google wieder auch das Feedback von seinen Benutzern. Sie können für die Übersetzung einzelner Wörter oder Wortgruppen zwischen Alternativen wählen, eigene Korrekturen eingeben und die Übersetzung insgesamt bewerten:

Die Korrekturen und Bewertungen liefern Google auch hier eine Statistik zur Optimierung.

Verhaltensforschung ohne Privacy-Problem

Um solche Funktionen und Dienste realisieren zu können, muss Google seine Nutzer ein wenig beobachten. Google benötigt eine Aufzeichnung der Nutzerinteraktion über einen Nutzungskontext hinweg, der sich über eine Folge von Klicks (Nutzersicht) oder HTTP-Requests (Googlesicht) erstreckt. Informationen über den Nutzer als Person sind Google dabei egal, das beobachtete Nutzerverhalten liefert lediglich Datenpunkte für eine Statistik über die gesamte Nutzerpopulation. Google möchte an dieser Stelle nicht wissen, wer wir sind oder wofür wir uns interessieren, sondern welche Verhaltensweisen häufig und welche selten vorkommen.

Unerwünschte Nebenwirkungen, zum Beispiel das Erstellen persönlicher Rechtschreibprofile beim Dienstanbieter, sind nicht per se ausgeschlossen. Sie sind nur uninteressant und lassen sich durch mittlere Sorgfalt im Umgang mit Daten recht zuverlässig vermeiden. Unterwegs besteht noch das Risiko einer Datenverkehrsanalyse, aus der jemand  trotz Verschlüsselung Rückschlüsse auf Eingaben ziehen könnte, aber das ist ein (kleines) inhärentes Risiko des Netzes, dafür kann Google nichts. Sollte so etwas als Angriffsszenario praktisch relevant werden, ließe es sich zudem technisch verhindern.

Google baut also Dienste, die mit implizitem Feedback aus dem statistischen Nutzerverhalten optimiert werden. In der nächsten Folge werden wir noch etwas tiefer in die Welt der lernenden Maschinen eintauchen. Es wird dann darum gehen, wie eine Maschine überhaupt lernen kann. Keine Angst, Formeln gibt es keine.

Datenkrake Google (2/7): Naive Modelle

[InhaltTeil 1Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Im ersten Teil haben wir gesehen, dass Google häufig missverstanden wird, weil wir Metaphern aus unserer Erfahrungswelt auf Google anwenden und damit alles für erklärt halten. In Wirklichkeit funktionieren solche Metaphern aber nur für einige Oberflächenphänomene.

Google als Datenbank?

Ein vebreitetes Missverständnis betrifft die Sammlung, Speicherung und Verwendung personenbezogener Daten, landläufig als Nutzerprofile bezeichnet. Nutzerprofile kann sich jeder vorstellen, das sind, ganz klar, umfangreiche Datensätze in riesigen Datenbanken:

»Die Profile als solche sollen ja immer anonym sein, das heißt (sofern ich das richtig verstehe), dass das z. B. so aussieht:

  • Profilnummer: 1337
  • Interessen:
    • Urlaubsziele: Toscana, Sizilien
    • Hobbies: Arduino, Lockpicking
    • Essen: Hamburger, Grießbrei

Wenn jetzt jemand Werbung schalten möchte, geht derjenige zu Google und sagt: „Hey, Google, ich will für mein Grießbreiwettessen am Fuße des Ätna Werbung schalten. Bitte zeige also allen Grießbreiessern, die gerne nach Sizilien fahren oder dort wohnen, folgende Werbung:
‚[…]‘.“«

(Kommentar von Steven Koenig alias Kreuvf  auf heise.de)

An diesem Modell orientieren sich unsere Ängste und Befürchtungen. Doch repräsentiert dieses Modell überhaupt die Realität? Es wirkt plausibel für den, der mal eine herkömmliche Datenbank gesehen hat, oder darauf basierende primitive Versuche der Datensammlung durch Abfrage beim Nutzer:

»Wer einen neuen Account im Internet anlegt – egal ob für die E-Mail, ein Webforum oder eine neue Shoppingseite – erlebt stets ein mühsames Prozedere: Zuerst muss man sich einen Nutzernamen und ein Passwort auswählen. Danach wird man über drei Seiten nach Details vom Geburtsdatum bis zu persönlichen Vorlieben befragt und muss die Anmeldung am Schluss per E-Mail absegnen.«

(Zeit Online: Stoppt die Datenkraken!)

Als Missbrauchsszenario stellen wir uns dazu gerne einen schwunghaften Handel mit solchen Datensätzen vor.

Andersdenkende

Google hat sich jedoch das Think Different! von Apple geborgt und tut Dinge gerne auf eine ganz andere Art als der gewöhnliche IT-Spießer. Mit lächerlichem Spielkram wie Datenbanken hält sich Google nicht auf. Der Grund dafür ist nicht etwa, dass Google nach der Weltherrschaft strebt, sondern dass Google die Herrschaft über ein Stück Welt besitzt: über einen riesigen, verteilten Computer, der fast alle. veröffentlichten Informationen zu sehen bekommt. Und damit etwas anfangen soll, trotz des Kauderwelschs aus einigen Hundert Sprachen und Dialekten. Dabei helfen Datenbanken nicht, die brauchen zu viele Menschen, die sich um sie kümmern.

Im oben zitierten Heise-Forum fragt User flare—-*: »Ein Mensch arbeitet, vergnügt sich, informiert sich, macht Unsinn. Wie will google das vernünftig trennen?« Die Antwort auf diese Frage lautet: Das weiß Google selbst nicht so genau. Die Geschichte von Google begann mit einer ähnlichen Frage und derselben Antwort: Wie können wir aus einem schlecht organisierten Haufen unstrukturierter, redundanter, fehlerhafter und mehrsprachigerTextdaten relevante Informationen herausfiltern? Googles Antwort lautete von Beginn an: Indem wir uns nicht um spezifische, ausformulierte Regeln kümmern, wie es etwa die Linguisten tun, sondern den Umgang der Nutzerpopulation mit den Daten statistisch auswerten. PageRank war eine Keimzelle der Google-Philosophie, die darin besteht, einen Computer mit allen möglichen Daten zu füttern und ihn die Antworten auf Fragen selbst finden zu lassen. Google ist ein Computer wie ihn Science-Fiction-Autoren jahrzehntelang beschrieben haben.

Datenschützer werfen Exceptions

Cloud Computing hat deshalb für Google eine Doppelbedeutung. Neben der landläufigen Interpretation als Verlagerung der IT vom Endgerät ins Netz bedeutet Cloud Computing für Google auch Statistik in vieldimensionalen Datenwolken zur Beantwortung von Fragen, kurz: statistische Inferenz und maschinelles Lernen.

Der herkömmliche Datenschutz tut sich schwer mit diesem Ansatz, denn er geht von den primitiven Modellen aus, die wir oben gesehen haben. So etwas wie Google ist in diesen Modellen nicht vorgesehen, und es gibt auch keinen Mechanismus im Datenschutz, der diesen Fehler erkennen und eine Excepton auslösen würde. Also wenden unsere Institutionen wacker die alten Begriffe auf eine neue Technik an. Das ist ungefähr so, als wollte man den heutigen Straßenverkehr mit Gesetzen aus der Ära der Postkutsche regeln. Formal ginge es irgendwie schon, wenn man Autos als pferdelose Wagen und Fahrräder als Drahtesel betrachtete, aber passend wären die Regeln nicht und es käme zu allerlei Absurditäten.

Dementsprechend knirscht es auch im Daten- und Privatsphärenschutz, wenn wir die Tradition mit der Moderne konfrontieren. Schwierigkeiten bereiten zum Beispiel:

  • Die binäre Unterscheidung zwischen personenbezogenen und anderen Daten, die Google bewusst und zweckdienlich vermischt
  • Die formalisierte Einwilligung des Individuums, das für Google eine Datenquelle in einem Kollektiv ist
  • Die Idee der Datensparsamkeit, die bei blinder und konsequenter Anwendung so etwas wie Google gar nicht zuließe, selbst wenn Google inhärent datensparsam wäre
  • Die Vorstellung einer feingranularen Zweckbindung etwa für das Datenfeld IP-Adresse, da solche Datenfelder nur in den Eingabedaten vorkommen

Google hat deswegen gar keine andere Möglichkeit als sich eine Generalklausel unterschreiben zu lassen, wenn Google Google bleiben will, unabhängig davon, ob Google mit unseren Daten gute oder böse Sachen macht.

Im nächsten Teil wird es darum gehen, wie Google aus Netzinhalten und Nutzerdaten nützliche Funktionen baut, ohne Privatsphären zu verletzen.