Archiv der Kategorie: IT

Information Technology

Ersatzdroge Blockchaincoin

Warum fallen neben den üblichen Opfern von Anlagebetrügern auch Unternehmen und Politik auf Märchen von den wunderbaren Kryptowährungen und der revolutionären Blockchaintechnologie herein? Vielleicht deshalb, weil sie auf Entzug sind und nach einer Ersatzdroge gieren. Eine These:

Hinter uns liegt der bessere Teil einer dritten industriellen Revolution, getrieben vom Mikrochip als Technik- und vom Internet als Infrastrukturinnovation. Gerade der Siegeszug des Internets in den vergangenen dreißig Jahren hat ähnlich atemberaubende Auswirkungen wie einst die Entstehung von Industriebetrieben und Eisenbahnnetzen oder später die Elektrifizierung. Eine ganze Generation hat sich daran gewöhnt, in schneller Folge mit digitalen Neuheiten beglückt zu werden und mit Investitionen in Digitales fast immer Gewinne zu machen.

Die Digitale Revolution ist noch lange nicht an ihrem Ende angelangt, doch das Tempo hat sich spürbar verlangsamt. Dies löst Entzugserscheinungen bei denen aus, die bisher fette Gewinne einfuhren, und Torschlusspanik bei jenen, die nicht dabei waren und Versäumtes gerne nachholen würden. Beide suchen eifrig nach dem Next Big Thing, um von Anfang an dabei zu sein. Bei den einen kommen dabei müde Geschäftsideen von Taxiplattformen über Elektrotretrollerverleih bis zur Saftplattform Juicero heraus, die anderen hoffen wie die Bundesregierung mit ihrem Schlagwort „Industrie 4.0“ auf eine weitere, vierte industrielle Revolution.

In diesem Klima fällt die Behauptung der Blockchaincoinszene auf fruchtbaren Boden, man arbeite hier an einer revolutionären Technologie, die jeden Moment einen neuen Schub von Innovation und Disruption auslösen müsse. Das kommt ihnen gerade recht, darauf haben sie gewartet, da wollen sie auf jeden Fall dabei sein. Ob bewusst oder zufällig, die Blockchainszene erzählt ihnen genau das, was sie hören möchten. Auf eine echte Revolution zu warten, wie sie sich alle hundert Jahre mal ereignet, dauert ihnen zu lange und es ist ja auch riskant: Was, wenn man dann wieder zu spät dran ist?

Das heißt leider auch, dass das Problem nicht verschwindet, wenn sich der Marktpreis von Blockchaincoins und -token eines Tages ihrem tatsächlichen Wert angleicht. Sie werden sich dann nur ein neues Thema suchen, auf das sie ihre Hoffnungen projizieren können – mit Ökostrom erzeugten Wasserstoff zum Beispiel – und daran weiter träumen. Damit sich das ändert, brauchen wir jetzt mal dreißig Jahre Langeweile und ein paar Rückschläge. Das Gute daran: Während dieser Zeit könnten wir auch unseren Rückstand aufholen.

A (Trolley Problem) Trolley Problem

Algorithm ethics as a trolley problem:

There is a runaway trolley barrelling down the railway tracks. Ahead, on the tracks, there is a trolley problem waiting. The trolley is headed straight for it, burdening you with an ethical dilemma to decide:

[There is a runaway trolley barrelling down the railway tracks. Ahead, on the tracks, there are five people tied up and unable to move. The trolley is headed straight for them. You are standing some distance off in the train yard, next to a lever. If you pull this lever, the trolley will switch to a different set of tracks. However, you notice that there is one person on the side track. You have two options: (1) Do nothing and allow the trolley to kill the five people on the main track. (2) Pull the lever, diverting the trolley onto the side track where it will kill one person. What is the right thing to do?]

You are standing some distance off in the train yard, next to a lever. If you pull this lever, the trolley will switch to a different set of tracks. However, you notice that there is an equivalent trolley problem on the side track. This other trolley probem will be decided not by you, it will be decided by an algorithm.

You have two options:

  1. Do nothing and allow the trolley to make you the sad hero of a trolley problem.
  2. Pull the lever, diverting the trolley onto the side track where an algorithm will take care of the problem job for you.

What is the right thing to do?

(Trolley problem description based on Wikipedia. Reductio ad absurdum inspired by this tweet.)

Open Source staatlich fördern?

In einem Beitrag auf Heise Online plädiert Julia Reda für eine europäische Förderung von Open-Source-Soft- und Hardware. Die Sprunginnovationsagentur pflichtet ihr bei und verweist auf ihr Förderprojekt Sovereign Cloud Stack. Open-Source-Projekte zu fördern, ist eine gute Idee, aber die damit verbundenen Erwartungen erscheinen mir überhöht und nicht klar genug. Open Source soll die Sicherheit verbessern, Europa unabhängiger von großen, ausländischen IT-Unternehmen machen, Alternativen zu erfolgreichen Onlinediensten von Cloud Computing bis Videokonferenzen bereitstellen und Demokratiebewegungen in anderen Ländern unterstützen [Klarstellung dazu]. In diesem Potpourri liegt die Gefahr, sich zu verzetteln und Blütenträume zu fördern.

Open-Source-Produkte nehmen wie ihre kommerziellen Konkurrenten auf der Angebotsseite am Marktgeschehen teil. Zwar kann man sie einsetzen, ohne eine Lizenzgebühr zu zahlen, doch steht die Wahl auf der Nachfrageseite jedem Anwender frei. Vernünftig handelnde Anwender werden sich für diejenige Lösung entscheiden, die gemessen an ihren Bedürfnissen das beste Kosten-Nutzen-Verhältnis verspricht. Repräsentiert das beobachtete Marktgeschehen die Ergebnisse vernünftiger Entscheidungen, können wir die Faktoren analysieren, die zu diesen Entscheidungen beitragen.

Der Markt zeigt immer wieder, dass Open-Source-Anwendungen nur in Nischen konkurrenzfähig sind. OpenOffice, Firefox, Linux als Desktop-Betriebssystem oder der Messenger Signal sind verfügbar, doch ihre Nutzerzahlen bleiben überschaubar, von Marktführerschaft keine Spur. Der Anonymisierungsdienst Tor zielt gar von vornherein auf eine Nische, er ist nur für Randgruppen relevant und für die Mehrheit nicht alltagstauglich. Besser schlägt sich Open-Source-Software dort, wo sie Anwender nicht zu Gesicht bekommen: Als Softwareinfrastruktur in Anwendungen verborgen und in Entwicklerwerkzeugen spielen Open-Source-Projekte wie Linux, die Apache-Projekte, OpenSSL, Eclipse und viele andere eine bedeutende Rolle. Das ist kein Zufall.

Der Markt für Softwareinfrastruktur lässt wenig Raum für dauerhafte Konkurrenz verschiedener Anbieter vergleichbarer Produkte, etwa verschiedener Webserver oder Unix-Kernel. Standardisierung, zum Beispiel von Protokollen, lässt wenig Raum für sinnvolle Produktdifferenzierungen. Zugleich bringen konkurrierende ähnliche Produkte kostspielige Kompatibilitätsprobleme mit sich, die wiederum zu Standardisierungsversuchen führen. Wer einmal Software zwischen verschiedenen Unix-Variantenportiert hat, kann ein Lied davon singen. Auch in der Qualität können sich unterschiedliche Anbieter nicht nennenswert voneinander abheben, weil die Anforderungen an alle dieselben sind.

Jede konzeptionell weitgehend ausentwickelte Komponente nur einmal statt in mehreren unabhängigen Varianten zu pflegen, ist deshalb optimal. Nicht optimal wären jedoch Herstellermonopole, die für das einzige Produkt seiner Art Mondpreise kassieren. Deshalb ist es für alle besser, Komponenten der Softwareinfrastruktur als eine Art Allmende zu behandeln, die allen zur Verfügung steht und alle zur Mitarbeit einlädt. Weil alle davon profitieren, gibt es wenig Förderbedarf. Es ist der Markt, der Open-Source-Software hier zum Erfolg führt. Die Linux-Foundation zum Beispiel wird von großen IT-Unternehmen und der Fondsgesellschaft BlackRock finanziert.

Anders funktioniert der Markt für Anwendungen und anwendungsnahe Dienste, denn sie bieten in vielen Merkmalen Differenzierungspotenzial und damit Raum für Konkurrenz. Deswegen kann man ERP-Systeme von SAP oder von Oracle kaufen, Browser von Google, Microsoft, Mozilla oder Brave, Office-Software von Microsoft oder Google und so weiter. Zu den wichtigen Merkmalen zählt nicht zuletzt der Preis, genauer die Gesamtkosten der Nutzung. Dass sich Open-Source-Alternativen hier selten durchsetzen können, deutet darauf hin, dass sie in der Gesamtsicht nicht das attraktivste Produkt liefern. Besonders deutlich wird dies, wo selbst betriebene Open-Source-Software gegen kommerzielle Anwendungsdienste antreten, etwa Jitsi und BigBlueButton gegen Zoom, aber auch im Vergleich verschiedener Dienste wie Signal gegen WhatsApp.

Von den Verfechtern der OSS-Alternativen gerne ignoriert oder kleingeredet, zeigen sich in vielerlei Hinsicht Defizite. So hinkte Signal im Funktionsumfang WhatsApp hinterher und ging seinen Nutzern auf die Nerven. Selbst gehostete Videokonferenzdienste verursachen Arbeitsaufwand und brauchen eine Vorlaufzeit, bis sie einsatzfähig sind, während man mit Zoom auf der Stelle loslegen kann. Ob man mit den Alternativen wirklich sicherer ist, liegt auch nicht so klar auf der Hand. Wer nüchtern hinschaut, findet die Gründe dafür, dass die Open-Source-Alternativen alternativ bleiben. Daran kann auch OMG-ihr-bezahlt-mit-euren-Daten!!1-Rhetorik bei kostenlos angebotenen Diensten nichts ändern, denn das ist offensichtlich für viele ein fairer Deal.

Analog gilt dies auch für hochwertige Clouddienste a.k.a. Platform as a Service (PaaS). Dort bekommt man für sein Geld nicht einfach Software, sondern eine Plattform, welche die Entwicklung und den Betrieb von Anwendungen erleichtert und den Einsatz von IT-Ressourcen flexibel anpassbar macht. Software ist dafür nur Mittel zum Zweck und die Dienstleistung steckt nicht im Programmcode.

Um es mit den etablierten kommerziellen Anbietern von Anwendungsdiensten und Cloudplattformen aufnehmen zu können, müsste man überlegene Dienste anbieten, ähnlich wie Airbus einst ein fortschrittliches Flugzeug auf den Markt gebracht hat. Open-Source-Software kann dafür Basiskomponenten gemäß dem oben skizzierten Allmendemodell bereitstellen, aber diese Baseline ist alleine gerade nicht konkurrenzfähig, sondern ein allgemein verfügbarer kleinster gemeinsamer Nenner. Den kann man lange fördern, ohne dass er sich je von irgend etwas positiv abhebt.

In keinem der beiden Segmente kann eine großzügige staatliche Förderung von Open-Source-Projekten den Markt umkrempeln. Stattdessen bekäme man künstliche Open-Source-Projekte wie die AusweisApp2 oder die Corona-Warn-App, die zwar Einblicke in den Quelltext und die Entwicklung gewähren sowie Community-Kontakte pflegen, letztlich aber Auftragsarbeiten bleiben. Das heißt nicht, dass es falsch wäre, öffentliche Entwicklungsprojekte so weit wie möglich zu öffnen, aber das bleibe eine eigene Spielart von Open Source.

Die Hoffnung, mit staatlich geförderten Open-Source-Projekten endlich die technologische Lücke von 1969 zu schließen, wird sich nicht erfüllen. Dennoch gibt es Potenziale für sinnvolle staatliche Förderungen. Die Strategien ergeben sich aus den beiden diskutierten Modellen.

Auf dem Gebiet der Softwareinfrastruktur kann der Staat als Stakeholder für wünschenswerte Eigenschaften wie Qualität, Sicherheit und Weiterentwicklung auftreten. Das FOSSA-Projekt der EU passt genau in dieses Muster. Europäische Alternativen und Europäische Souveränität entstehen dadurch jedoch nicht. Im Gegenteil, solange sich IT und Internet im Industriemaßstab eher außerhalb als innerhalb Europas abspielen, handelt es sich tendenziell um ein Geschenk an die Konkurrenz. Bleiben lassen muss man es deswegen nicht, aber mit realistischen Erwartungen herangehen.

Bei den Anwendungen und anwendungsnahen Diensten hat Förderung nur einen Sinn, wenn sie auf konkurrenzfähige Angebote zielt. Open Source wird dabei zum Nebenaspekt, im Vordergrund steht das Produkt aus Anwenderperspektive, das besser und kostengünstiger sein muss. Wer also Zoom oder WhatsApp doof findet, muss objektiv bessere Dienste objektiv preiswerter anbieten (und im Fall von WhatsApp noch mit den unvermeidlichen Netzwerkeffekten fertig werden). Es gibt sogar noch ein Spielfeld, auf dem es eher auf die Software als auf die Dienstleistung ankommt: Webbrowser. Chrome ist zurzeit unangefochtener Marktführer, Mozilla siecht dahin. Ein solide finanzierter unabhängiger Browser mit allem, was daran hängt, bleibt dringend nötig. Nebenbei bekäme man einen Träger für Datenschutztechnik, die uns das unsägliche Zustimmungsgeheische im Web erspart, und könnte bei der Webstandardisierung mitreden.

Keimzelle einer neuen europäischen Informationstechnikbranche wäre auch das nicht, aber es wäre sinnvoll. Im Gegensatz zum Versuch, spezifisch und strategielos das Attribut „Open Source“ zu fördern.

#GaiaXFakten

Gaia-X soll der Chuck Norris unter den Clouds – nein, das passt nicht, zu wenig europäische Werte. Gaia-X soll die Abteilung für Informationswiederbeschaffung unter den Clouds werden, der Goldstandard, die digitale Mondrakete. Wäre Elon Musk Europäer, hätte er statt eines Tesla Gaia-X ins All geschossen. Gaia-X war einziger Teilnehmer eines Wettbewerbs der Agentur für Sprunginnovation und schloss diesen mit einem überdurchschnittlichen Ergebnis ab. Gaia-X heilt Krebs. Chatbots werden mit Gaia-X zu geistreichen Gesprächspartnern. Gaia-X wird alle Versionen des Trolley-Problems in einem Tweet lösen. Gaia-X transzendiert Raum, Zeit, Rechenzentren und Unternehmen. Gaia-X läuft nicht in der Cloud, sondern die Cloud läuft in Gaia-X. Gaia-X braucht kein Geschäftsmodell, sondern Geschäftsmodelle brauchen Gaia-X. Amazon kauft bei Gaia-X ein. Uber lässt sich von Gaia-X ein Taxi rufen. Gaia-X sitzt in den Aufsichtsräten aller europäischen Internet-Konzerne. Mit Gaia-X wird Deutschland E-Government-Weltmeister. Die Büros von Gaia-X arbeiten papierlos. Gaia-X hatte seine Corona-App schon vor der Schweinegrippe fertig. Die Konferenz der unabhängigen Datenschutzbehörden des Bundes und der Länder empfiehlt Videokonferenzen per Gaia-X als Alternative zur Briefpost.

PS (2020-06-11): Die Fortsetzung gibt’s häppchenweise bei Twitter.

Zehnerlei Corona-App

Als Phantom ist „die“ Corona-App in aller Munde, nein, Medien. Sie inszeniert sich als Gegenstand eines Expertenstreits um die Frage, welche Architektur den technischen Datenschutz am besten gewährleiste, eine „zentrale“ oder eine „dezentrale“, und wer narzisstische Bestätigung sucht, schlägt sich öffentlich auf die eine oder die andere Seite. Dreihundert Informatikprofessoren zum Beispiel sehen sich ihrer Bedeutung beraubt, weil ihren Rat gerade niemand schätzt, und die Aktivistenclubs, die auch sonst zu jedem Thema die Hand heben, stehen ihnen in nichts nach.

Ihr Horizont bleibt eng und technisch, und so meiden sie neben der grundlegenden konzeptionellen Frage, was eine Corona-App überhaupt zu leisten hätte, sogar den rechtlichen und institutionellen Teil der Datenschutz-Debatte. Auf Ideen wie die einer spezifischen rechtlichen Regelung oder einer vertrauenswürdigen Institution zur Überwachung der außerordentlichen Datenverarbeitung aus besonderem Anlass kommen sie schon nicht mehr. Letztlich wollen nur sie bei einigen technischen Entscheidungen mitreden und führen dazu den Vorwand ins Feld, genau diese Entscheidungen seien essenziell für das Vertrauen der Nutzerinnen und Nutzer.

Mit App-Konzepten und Anwendungsszenarien aus anderen Ländern haben sich diese Diskursschauspieler offenbar so wenig auseinandergesetzt wie mit Institutionskonstrukten à la Stasi-Unterlagen-Behörde, mit einer umfassenden Anforderungsanalyse so wenig wie mit dem Verlauf von Entwurfs- und Entwicklungsprozessen. Sie zweifeln nicht am Projekt der automatisierten Kontaktverfolgung, das sie ohne Diskussion als einziges denkbares Funktionsprinzip einer Corona-App annehmen, sondern sie möchten diese Kontaktverfolgung in einigen willkürlich gewählten technischen Dimensionen perfektionieren. Erwägungen jenseits der Technik beschränken sich auf die Mahnung, „die“ App müsse auf jeden Fall nur freiwillig zu verwenden sein.

Über diese Debatteninszenierung haben wir ganz vergessen, grundlegende Fragen zu klären. Tatsächlich gibt es „die“ App gar nicht, sondern ganz verschiedene Zwecke und Konzepte des App-Einsatzes in der Seuchenbekämpfung. Eine Auswahl:

(1) Kontaktverfolgung – Smartphones als persönliche und häufig am Körper getragene Geräte erfassen Daten über das Verhalten ihrer Träger, mit denen sich im Fall einer Infektion Kontaktpersonen der oder des Infizierten leichter oder zuverlässiger ermitteln lassen. Sowohl die Datenerfassung als auch ihre spätere Verwendung kann man unterschiedlich gestalten. Daten können (1.a.I) automatisch erhoben oder wie in den ersten Versionen von Stopp Corona  (1.a.II) manuell erfasst werden. Ebenso lassen sich die aufgenommenen Daten (1.b.I) automatisch verwenden, um erfasste Kontaktpersonen über eine Infektion zu informieren, oder (1.b.II) menschlichen Kontaktverfolgern anbieten, um deren Arbeit zu unterstützen. Allein daraus ergeben sich vier Kombinationsmöglichkeiten; für welche man sich entscheidet, bestimmt die Erfolgsaussichten wie auch die Art der zu erhebenden Daten.

(2) Statistische Erhebungen – Die Smartphones der App-Nutzer und daran angeschlossene Geräte wie Fitness-Armbänder und Digitaluhren werden zu einem Netz verteilter Sensoren, dessen Daten ohne Personenbezug zu wissenschaftlichen und statistischen Zwecken ausgewertet werden. Die Corona-Datenspende-App des RKI setzt dieses Konzept um.

(3) Selbstdiagnose – Eine App oder Website fragt bei Infektionsverdacht Symptome und Risikofaktoren ab und gibt daraufhin Verhaltensempfehlungen, etwa den Rat, einen Arzt anzurufen oder ein Testzentrum aufzusuchen. Zusätzlich können die gewonnenen Daten analog zu (2) der Forschung und Statistik dienen. Die Nutzung kann (3.a) freiwillig und anonym erfolgen wie bei der Website Covid-Online (zurzeit in Überarbeitung) des Marburger Universitätsklinikums und der Philipps-Universität oder (3.b) verpflichtend im Rahmen einer flächendeckenden Früherkennung.

(4) Quarantäneüberwachung – Quarantänepflichtige Personen weisen ihren Aufenthalt regelmäßig mit Hilfe Smartphones nach. Dazu muss zum einen die Bewegung des Geräts überwacht werden, zum anderen die räumliche Nähe zwischen Gerät und Besitzer. Die digitale Quarantäneüberwachung lässt Schlupflöcher, erleichtert jedoch gegenüber anderen Formen der Überwachung – zum Beispiel häufigen Hausbesuchen – die Arbeit der Gesundheits- und Ordnungsbehörden. Nutzerinnen und Nutzer müssen kooperationsbereit sein.

(5) Digitale Seuchenpässe – Das Smartphone wird zum Speicher und Träger von Nachweisen, nach deren Kontrolle Privilegien gewährt werden können. Nachgewiesen werden kann einerseits (5.a) der (wahrscheinliche) Infektionsstatus, etwa durch die Zeitpunkte und Ergebnisse von Tests oder Selbstdiagnosen (siehe Nr. 3) und das Nichtbestehen einer Quarantäneanordnung. Diesem Ansatz folgt der chinesische Health Code. Andererseits ließe sich auch (5.b) der Immunstatus nach überstandener Infektion oder später nach einer Schutzimpfung auf diese Weise bescheinigen. Dies jedoch ist umstritten, einmal aus medizinischen Erwägungen, da die Frage der Immunität nach einer Infektion noch nicht ausreichend geklärt ist, aber auch praktischen und ethischen Gründen, da ein Immunitätspass ohne verfügbare Schutzimpfung einen Anreiz schaffen kann, sich absichtlich zu infizieren oder sich auf unlautere Weise einen falschen Nachweis zu verschaffen.

Das sind fünf verschiedene Anwendungen in insgesamt zehn Varianten und diese Aufzählung erhebt keinen Anspruch auf Vollständigkeit. In fast allen Fällen muss man sich rechtzeitig Gedanken über Alternativen für Menschen ohne geeignetes Smartphone machen. Genuin technisch und die Besonderheiten der Plattform „Smartphone“ ausnutzend erscheinen (1), (2), und (4). Können wir jetzt endlich die Phantomdiskussion um eine zentrale oder dezentrale automatisierte Kontaktverfolgung beenden und debattieren, ob und wie wir die Bekämpfung des Coronavirus digital unterstützen möchten? Danke.

Making Sense of Blockchain Mania

A spectre is haunting the Internet – the spectre of blockchain. Some claim it to be a disruptive technology, others think it is bullshit. In favor of the bullshit point of view the blockchain narrative lacks convincing use cases and looks like a solution in search of problems. On the other hand, a number of reputable companies seem to believe that this blockchain thing does somehow matter. Are we witnessing a mass delusion or is there more to it?

In a recent post, Peak Blockchain, I argued that that blockchain craze has a lot in common with the way Second Life, an online 3D toy world, was being hyped and then forgotten a little more than a decade ago. Perhaps there is more to this analogy than just the way attention rises and then drops in both cases, blockchain and Second Life. A real but boring trend may lure behind the exciting (at least to some) surface and its catchy name.

Second Life reached its peak of attention during the first half of 2007. Conceptually it never made sense: Except for certain types of computer games and some special-purpose applications, 3D worlds rarely make for usable user interfaces. Just imagine having to browse the shelves of a virtual 3D library instead of just googling or having to use an on-screen replica of a good old typewriter to write a letter instead of using a word processor – a user interface should support relevant task rather than needlessly replicate constraints of the physical world.

Despite the obvious flaws of Second Life as a tool and platform for anything, many well-known companies fell for the hype and built experimental presences in this virtual world. At least one of them, IBM, went even further and attempted to turn Second Life into a collaboration support business. Was everyone crazy?

Not entirely. The 3D toy environment of Second Life was merely the bullshit version of a real trend. Around 2007 the web had evolved from a distributed hypertext system into an interactive application platform (“Web 2.0”). Blogs had appeared on the scene (e.g., WordPress – 2003, wordpress.com – 2005). Cloud computing was on the rise, although nobody called it so yet (e.g., Google Docs/Sheets/Slides – 2006, Dropbox – 2007). Social networks and media were evolving (Myspace – 2003, Facebook – 2004, Twitter – 2006). While Second Life itself did not make much sense, it symbolized in its over-the-top manner what was going on as a proxy instance and gave it a name.

Looking at the recent blockchain mania from this angle, today’s trend-behind-the-craze might be the automated interaction of networked artifacts in emergent systems of systems. The evolution of the Internet has not stopped after turning all our computers, tablets, phones, and watches into cloudtop devices, user interfaces to (collections of) services that reside on the network.

Today we are moving toward an Internet of Things (IoT) where thing means anything that is a computer without looking like one. Networked computers come in a variety of shapes today. At home we find entertainment devices streaming audio and video into our living rooms, voice assistants that let us talk to the Internet, and home automation letting us control anything from lights to heating through our smartphones. Then there are connected and increasingly, autonomous cars as well as charging infrastructure for electric vehicles. Manufacturing equipment from machines and robots to entire factories continues to be automated and networked, as does agriculture.

Trend graphs showing search interest over time
Search trends for “blockchain” (blue) and “IoT” (red) over the past five years

Technically these cyber-physical systems are networked computers as we know them. However, they consist of increasingly autonomous entities forming emergent systems of (semi-)autonomous systems. On the one hand, autonomy is the key feature in cases like autonomous driving or autonomous robots. On the other hand, many IoT devices lack traditional user interfaces and their ability to interact with users in other ways than over the Internet remains rather limited.

As a consequence, IoT devices need the capability to interact with cloud services and with each other without requiring human intervention and perhaps also to make transactions autonomously. For example, one blockchain application that has been mentioned is charging of autonomous electric cars – a car buying electricity from a charger. This interaction must be secure, whatever this may mean in the particular case, and there is no such thing as a PGP key signing party for IoT devices.

Blockchains and cryptocurrencies are unlikely to solve any of the pertinent problems, but the problems are real: transactions between devices, managing access to continuously produced machine data, keeping manufacturing instructions under control while getting them where they are being needed, and so on. I suspect this is the grain of truth in blockchain mania. At some point everyone will drop the burnt term but continue to work on the actual problems and actual solutions.

Daten-Bank

Banken haben einen schlechten Ruf. Trotzdem lassen wir alle unser Geld dort. Meistens funktioniert das auch und wir bekommen unser Geld später zurück, in guten Zeiten sogar mit Zinsen. Unser Geld stapeln die Banken nicht einfach im Keller, sondern sie arbeiten damit und erwirtschaften Gewinne. Am Ende hat jeder einen Nutzen davon, mit Ausnahme einiger bedauerlicher Einzelfälle.

Cloud-Dienste haben einen schlechten Ruf. Trotzdem lassen wir alle unsere Daten dort. Meistens funktioniert das auch und wir bekommen unsere Daten ohne Nebenwirkungen zurück, in guten Diensten sogar mit Zusatznutzen. Unsere Daten lagern die Cloud-Dienste nicht einfach auf Speichermedien, sondern sie arbeiten damit und erwirtschaften Gewinne. Am Ende hat jeder einen Nutzen davon, mit Ausnahme einiger bedauerlicher Einzelfälle.

Hände weg von Ostwind: Was Herr Weichert vom Wetterbericht lernen kann

Das Wetter passiert einfach und wir passen uns an, damit es uns wenig beeinträchtigt. Meteorologen helfen uns dabei, indem sie das Wetter beobachten und uns Berichte und Vorhersagen liefern. So weiß ich heute schon, ob ich morgen mit dem Fahrrad zur Arbeit fahren möchte oder lieber nicht, und der Kollege vom THW kann einschätzen, ob er morgen zur Arbeit fährt oder mit Sandsäcken zum Deich. Datenschützer versuchen, anders zu orbeiten, doch das ergibt keinen Sinn.

Dem Gesetz nach ist der Datenschutz präventiv: personenbezogene Daten zu verarbeiten ist erst einmal verboten, solange nicht eine Reihe von Anforderungen erfüllt sind. In der Karteikarten-IT der 70er, in der er seine Wurzeln hat, war das kein Problem. Damals gab es noch kein Internet mit emergenten Diensten für Milliarden von Nutzern, experimenteller Softwareentwicklung im Produktivbetrieb, mit sozialen Graphen und statistischen Inferenzmodellen über große Datenmengen. Als riskant galt die damals noch junge elektronische Datenverarbeitung als solche, der man folglich personenbezogene Daten nur bedingt und kontrolliert zugänglich machen wollte.

Dem Internet konsequent Daten vorzuenthalten, ist heute weder praktikabel noch nützlich: nicht praktikabel, weil das Internet nichts anderes tut als Daten zur Verarbeitung an einen anderen Ort zu transportieren, und nicht nützlich, weil übertriebene Datensparsamkeit das persönliche Lebensrisikoprofil nur geringfügig beeinflusst. Umfang und Vielfalt der Datenverarbeitung laufen der bedächtigen Abwägung von Nutzen und Risiken in immer schnelleren Schritten davon – ohne dass wir deswegen alle stürben.

An die bloße Tatsache, dass Daten anfallen und genutzt werden, können wir unser Risikomanagement nicht mehr anknüpfen, sonst würden wir uns zu oft und zu lange mit Irrelevantem beschäftigen. Stattdessen müssen wir schnell und effizient tatsächliche Risiken identifizieren, den Rest vorerst ignorieren und Einschätzungsfehler später erkennen und behandeln. Das wäre ein beobachtender, risikoorientierter Datenschutz, der die Verarbeitung personenbezogener Daten grundsätzlich als gegeben hinnimmt und – abgesehen von einigen Grundregeln zur Abwicklung – nur dort eingreift, wo sich besondere Risiken zeigen.

Datenverarbeitung im Internet findet wie das Wetter einfach statt und lässt sich nur begrenzt beeinflussen oder gar verbieten. Wo sie uns stark beeinträchtigt, müssen wir etwas tun (oder lassen). Überall sonst können wir sie einfach hinnehmen.

In ihrer Öffentlichkeitsarbeit gehen prominente Datenschützer längst reaktiv vor: je offensiver die Facebooks und Googles dieser Welt eine Neuerung bewerben, desto lauter werden auch die amtlichen Warnungen. Der Ansatz ist richtig, aber fehlerhaft umgesetzt. Risikoorientierte Reaktionen müssen dort ansetzen, wo sich relevante und beeinflussbare Risiken empirisch zeigen. Wir haben keine Anhaltspunkte dafür, dass die PR bekannter Internet-Unternehmen mit diesen Risiken korreliert ist und sich als Auslöser für Datenschutzreaktionen gut eignet. Im Gegenteil, wir bekommen vom immer dieselbe Information: Hier ist etwas neu, seht Euch vor!

Man stelle sich vor, Wettervorhersagen gäbe es nur bei Ostwind sowie bei Sprühregen, und jedesmal erklärte uns ein Wetterbeauftragter, welche Gefahren das Wetter so mit sich bringt. Solche Wetterberichte wären nutzlos, sie kämen zur falschen Zeit und mit dem falschen Inhalt. Datenschützer informieren mich an zufälligen Zeitpunkten über allgemeine Gefahrensvisionen. Damit kann ich nichts anfangen.

Anstelle solcher Nachrichten vom Redundanzbeauftragten bekäme ich gerne eine Risikobewertung für mein Nutzungsprofil. Was droht mir voraussichtlich, wenn ich das Internet so nutze, wie ich es eben tue? Wie groß ist das Risiko absolut und im Vergleich? Welche Entscheidungsoptionen haben den größten Einfluss auf meine Risiken? Welche Risiken sind hoch, ohne dass ich sie beeinflussen kann? Statt nachrichtengetriggert immer denselben Teufel an die Wand zu malen, der in meinem Alltag keine Entsprechung findet, könnten sich Datenschützer nützlich machen, indem sie mir regelmäßig fundierte Bewertungen liefern, die ich auf mich und mein Tun beziehen kann.

Meteorologen informieren mich heute darüber, mit welchen Bedingungen ich morgen zu rechnen habe. Manchmal warnen sie auch; dann haben sie dafür einen Anlass und sie stufen ihre Warnung je nach Risiko ab. Diese Art der regelmäßigen Information ist nützlich für mich. Als Grundlage meiner informationellen Selbstbestimmung benötige ich ähnliche Nachrichten. Ich möchte wissen, wie sich einige grundlegende Parameter voraussichtlich entwickeln, um mich darauf einstellen zu können. Warnungen und besondere Unterstützung brauche ich nur im Ausnahmefall; dann, und nicht bei Sprühregen oder Ostwind, darf von mir aus gerne das Cyber-THW mit Datensandsäcken anrücken.

Datenkrake Google (7/7): Privatsphärenschutz in der Datenwolke

[InhaltTeil 1 Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Wir haben uns in den Artikeln dieser Serie ein Modell gebildet, was Google mit Daten macht, welche Prinzipien dahinter stecken und wie daraus optimierte und partiell personalisierte Funktionen werden. Wir haben gesehen, dass naive Vorstellungen von Nutzerprofilen wahrscheinlich falsch sind. In Wirklichkeit betreibt Google automatisierte Verhaltensforschung im Industriemaßstab, bezogen auf spezifische Funktionen wie Eingabekorrektur, Übersetzung oder Werbeoptimierung. Als Ergebnis gewinnt Google populationsstatistische Aussagen, die individuell beziehungsweise nach impliziter Gruppenzugehörigkeit modifiziert werden können; eine klare Grenze zwischen diesen Aggregationsgraden gibt es nicht. Erfasst und gespeichert sind Googles Erkenntnisse in den Konfigurationen aufgabenspezifischer Klassifikatoren, die laufend dem globalen Verhalten der Nutzerpopulation angepasst werden. Die naiven Modelle aus Folge 2 passen nicht so recht dazu, auch wenn Google selbst manchmal anderes suggeriert:

Wer ein Google+-Profil hat und mit Google nach seinem eigenen Namen sucht, bekommt vielleicht diese Aufforderung zu sehen. Gemeint sind die expliziten und freiwilligen Angaben im Profil, nicht der Durchleuchtungsgrad der Person.

Damit es keine Missverständnisse gibt: Google besteht nicht nur aus lernenden Maschinen, viele Funktionen und Dienste nutzen auch herkömmliche Verfahren. Welche Termine in meinem Google-Kalender stehen, wen ich in Google+ in welchen Circles habe und welche Nachrichten in meinem GMail-Account liegen, speichert und verarbeitet Google (auch) ganz normal im Klartext, wie es jeder SaaS-Anbieter in der Cloud tun würde. Darauf mag man alle etablierten Begriffe und Modelle des Datenschutzes anwenden, wenngleich sie sich vielleicht aus anderen Gründen als unpassend erweisen. Ich behandle hier die Angstfunktion Daten sammeln und auswerten. Daten einfach zu sammeln lohnt sich im Google-Maßstab nicht, weil man mit einer Datenhalde wenig anfangen kann. Nach meinem Modell nutzt Google umfangreiche Daten, um damit einen Satz an Betriebsparametern fortlaufend zu optimieren und dem Lauf der Welt anzupassen. Die Optimierung und Anpassung erfolgt interaktiv, Google lernt von seinen Nutzern, was richtig und was falsch ist, was ähnlich und was verschieden. Das ist etwas anderes als das elektronische Profil, das Thilo Weichert sich vorstellt und es hat Folgen, die er sich nicht vorstellt.

Was ist anders?

Ein Klassifikator häuft nicht einfach Daten an. Er besitzt eine Konfiguration und zwei Grundfunktionen, Lernen und Klassifizieren. In der Funktion Klassifizieren erhält er einen Datensatz als Eingabe und gibt eine Entscheidung oder Entscheidungsempfehlung aus. In der Funktion Lernen passt er seine Konfiguration an, um die Rate der Fehlentscheidungen zu reduzieren. Die Konfiguration des Klassifikators gibt nicht die einzelnen Eingabedaten wieder, sondern ein davon abgeleitetes Modell. Darin unterscheidet sich dieser Ansatz von der Karteikarten-IT herkömmlicher Datenbanken, die alle Eingaben wörtlich abspeichern und als Ausgabefunktion im wesentlichen das Herausfiltern der jeweils gesuchten Daten anbieten. Welche Daten ein Klassifikator nutzt und was er über uns weiß, sind zwei Paar Schuhe. Wir können einen Klassifikator nicht danach befragen, welche Eingabedaten er zu einer Person erhalten hat.

Das führt zu interessanten Folgerungen für den Privatsphärenschutz:

  1. Verhaltensbeobachtung und -auswertung bedeutet nicht zwingend eine Verletzung der Privatsphäre. Beispiele dafür sind die Korrekturfunktionen in der Google-Suche und in Google Translate, die aus dem Benutzerverhalten lernen. Google beobachtet bestimmte Aspekte des Nutzerverhaltens über eine Folge von Vorgängen hinweg, interessiert sich am Ende aber vor allem für statistische Aussagen.
  2. Ein Kontinuum an Personenbezug. Ein Klassifikator kann personenbezogene Entscheidungen treffen, er muss es aber nicht. Er wird Entscheidungen nach den Kriterien treffen, die in der Vergangenheit erfolgreich waren. Da die Konfiguration des Klassifikators variabel ist, kann sich der personenbezogene Entscheidungsanteil laufend ändern. Nützlich ist ein Klassifikator vor allem dort, wo es verallgemeinerbare Zusammenhänge in den Daten gibt – Verallgemeinerung ist das Gegenteil von persönlichen Profilen. Die vielen Einzeldaten braucht man , weil man die Verallgemeinerungsregeln vorher nicht kennt.
  3. Einzelne Merkmale – IP-Adresse, Cookies, Geburtsdatum und so weiter – sind wenig relevant. Klassifikatoren arbeiten in vieldimensionalen Merkmalsräumen und bei guter Konstruktion tragen alle Dimensionen zur Klassifikationsleistung bei. Lässt man eine Merkmalsdimension weg, bleiben (n-1) übrig, für ein ziemlich großes n. Die Klassifikationsleistung verringert sich dadurch nur wenig, zumal in den verwendeten Daten Korrelationen zwischen mehreren Dimensionen auftreten können. Das heißt auch: ein Klassifikator kann relativ robust gegen gelöschte Cookies sein.
  4. Der Grad der Personalisierung hängt auch vom Nutzerfeedback ab. Wie stark die Entscheidungen eines Klassifikators personalisiert sind, hängt davon ab, welches Feedback der Nutzer zu diesen Entscheidungen gibt. Wer viel Werbung anklickt, personalisiert seine Werbeeinblendungen damit, falls dieses Feedback mit Personen- oder Pseudonymbezug zum Lernen verwendet wird.
  5. Klassifikator-Modelle sind inhärent zweckgebunden. Ein Klassifikator wird für eine bestimmte Aufgabe entworfen und trainiert. Zwar kann man die dabei entstehende Konfiguration als Modell der Problemlösung untersuchen und dabei Interessantes herausfinden. Jedoch lässt sich ein Klassifikator nicht einfach für etwas anderes verwenden. Einen universellen Klassifikator, der »alles« kann, gibt es nicht; jedes Optimierungsverfahren benötigt Annahmen über das Problem. Man kann freilich einen Klassifikator mit Personen als Ausgabeklassen bauen, wenn man Feedback über die Richtigkeit der Zuordnung bekommt.
  6. Löschen geht nicht – aber Personenbezüge können verblassen. Sind Daten über einen Nutzer in die Konfiguration eines Klassifikators eingeflossen und dort mit anderen Daten verschmolzen, lässt sich dieser Vorgang nicht sinnvoll rückgängig machen. Liefert ein Nutzer keine neuen Daten nach, werden seine Einflüsse jedoch nach und nach von anderen überlagert. Ein fortwährend trainierter Klassifikator in einer veränderlichenUmgebung verliert im Laufe der Zeit seine Fähigkeit, auf diesen Nutzer personalisierte Entscheidungen zu treffen – er vergisst, ohne auf den Innenminister und dessen Ideenwettbewerb zu warten.

Solche Phänomene sind in unseren überlieferten Datenschutz-Konzepten nicht vorgesehen. Wir können auf verschiedene Arten damit umgehen. Wir können auf die Einhaltung formaler Vorschriften aus einer anderen Zeit pochen und Bürokratie als Selbstzweck vollziehen. Dann ist Google verboten, bis jeder Nutzer eine Generalvollmacht erteilt hat und ab und zu gibt es einen Shitstorm. Oder wir erinnern uns daran, dass Datenschutz als Mittel zum Zweck unserer Selbstbestimmung über unsere Privatsphäre dienen soll. Dann müssen wir bei diesem Ziel ansetzen und uns neu überlegen, wie die Technik es bedroht und wie vielleicht auch nicht.

Datenschutzreformen

Juristen diskutieren seit geraumer Zeit über Datenschutzreformen. Thomas Stadler berichtete zum Beispiel in seinem Blog über ein Thesenpapier zur Datenschutzreform (hier gibt’s einen Aufsatz dazu). In der Rechtsanwendung gibt es noch einmal ganz eigene Probleme. Aus Amerikanisch-Kanadischer Sicht beschäftigt sich Tara Whalen mit der Frage, wie man den Personenbezug sinnvoll definieren sollte und fasst im Artikel This Time, It’s Personal. Recent Discussions on Concepts of Personal Information (paywalled) den Stand der Debatte zusammen.

Als Informatiker kann ich dort nicht qualifiziert mitreden. Mir stellen sich andere, aber verwandte Fragen: Wie sieht wirksamer Privatsphärenschutz in heutigen und künftigen soziotechnischen Systemen aus? Von welchen Bedrohungsmodellen muss er ausgehen und wie kann er die Evolution der Technik zulassen und begleiten?

Cookies, IP-Adressen und die Datenübermittlung in andere Länder nützen uns als Diskussionsrahmen wenig. Die Radikallösung, Teile des Netzes ungenutzt zu lassen, ist wegen seines großen Nutzens keine realistische Option. Interessanter ist, wer uns anhand welcher Daten wehtun kann, wie wahrscheinlich das ist, und welche wirksamen Maßnahmen es dagegen gibt.

Die Abstraktion des personenbezogenen Datums und der Entscheidung des Betroffenen, wer dieses Datum haben darf, stammt aus einer anderen Ära der Informationstechnik. Unabhängig davon, in welchem Maße Techniken wie die von Google eingesetzten unsere Privatsphäre bedrohen oder nicht, können wir mit der Freigabe einzelner Datensätze und Datenfelder keinen sinnvollen Einfluss auf eventuelle Risiken nehmen. Vielleicht müssen wir uns gänzlich von der Idee lösen, dass es auf Daten ankäme, und uns damit beschäftigen, was daraus gemacht wird.

Die individuellen und gesellschaftlichen Privatsphären-Interessen müssen wir außerdem abwägen gegen das berechtigte Interesse einer Firma wie Google, technische Details für sich zu behalten. Bessere Klassifikatoren zu bauen als der Rest der Welt gehört zu Googles Kerngeschäft. Andererseits sollte die Technik so transparent sein, dass sie informierte Entscheidungen unterstützt, wobei es auf die Entscheidungen ank0mmt und nicht auf deren formalisierte Niederlegung im Vertragsstil. Mit diesem Spannungsfeld sowie mit realistischen Bedrohungsmodellen muss sich der organisierte Datenschutz beschäftigen, wenn er in Zukunft relevant bleiben möchte. Laut über Daten-Schmu zu schimpfen und dann weiter alte Modelle auf neue Technik anzuwenden, bringt uns keinen Schritt weiter.

Schlusswort

Google ist im wahrsten Sinn des Wortes ein Elektronengehirn, wie es die Science Fiction einst beschrieb. Wer um jeden Preis Angst haben möchte, stellt sich unter Google am besten so etwas wie HAL 9000 vor, hochskaliert auf einen Planeten anstelle eines Raumschiffs. Google verhielte sich ähnlich, zöge man ihm nach und nach die Speichermodule raus – Google würde nach und nach verblöden.

The famous red eye of HAL 9000 by Cryteria, CC-BY 3.0 unported

Unter dieser Prämisse lautet die Grundsatzfrage: Welche Denkverbote müssen wir so einem Computer auferlegen und welche nicht? Wie formulieren wir solche Denkverbote, wenn wir den größtmöglichen Nutzen behalten wollen? Oder brauchen wir in Wirklichkeit gar keine Denkverbote für Elektronengehirne, sondern angemessene Denkweisen und Begriffe für uns selbst als Individuen und als Gesellschaft? Fürs erste tut es auch eine kleinere Frage: Wie machen wir eine Datenverarbeitung transparent für Nutzer, die komplizierter ist als die gute alte Datenbank? Ein Stück Verständnis hat Google mit seiner aufgeräumten Datenschutzerklärung schon mal effektiv vermittelt, nämlich dass seine einzelnen Dienste nur Sichten auf ein System  sind. Das haben jetzt alle verstanden.

Zum Download. Eine Ergänzung zu Teil 6

[InhaltTeil 1 Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag)Teil 7]

Eben bin ich noch über diese schöne Illustration zu Teil 6 von Datenkrake Google gestolpert:

Die obere Anzeige betitelt ihren Link einfach mit Zum Download. Genau danach habe ich gesucht, nach einem Download, diese Anzeige wird an dieser Stelle sicher hervorragend funktionieren, gerade weil nicht aus ihr hervorgeht, was sich eigentlich dahinter verbirgt.  Für so eine Optimierung braucht man gewissenloses, nüchtern-rationales Personal, zum Beispiel einen Computer, dessen einzige Mission in der Klickratenoptimierung besteht.

Über mich weiß Google offensichtlich, dass ich Deutsch spreche. Das erzählt mein Browser allerdings jeder Website und ich mache auch sonst kein Geheimnis daraus.

Datenkrake Google (6/7): Und jetzt Werbung

[InhaltTeil 1 Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Über die bisherigen Folgen dieser Serie haben wir ein Modell von Google als lernender Maschine etabliert. Vermutlich ist dieses Modell nicht die reine Lehre hinter Googles Werbediensten, da Google vor einigen Jahren Doubleclick und damit fremde Technologie gekauft hat. Gleichwohl lohnt es sich, anhand unseres Modells über optimierte (volkstümlich: personalisierte) Werbung nachzudenken. Weit hergeholt wird es nicht sein; dass Google Techniken wie die skizzierten zur Optimierung von Suchergebnissen und Empfehlungen einsetzt, können wir mit unserem Vorwissen aus den Changelogs herauslesen. Technisch macht es keinen großen Unterschied, ob wir das beste Suchergebnis, die beste Empfehlung zu irgend etwas oder die beste Werbung für einen Anzeigekontext suchen. Aber der Reihe nach.

Personalisierung ist Optimierung

Werbung ist ein Optimierungsproblem. Ziel des Werbers ist, genau dort aufzutreten, wo seine Werbung wirkt, und auch nur dafür zu bezahlen. Klassisch, ob offline oder online, tut man dies, indem man Zielgruppen klassifiziert und seine Werbung bzw. sein Produkt einerseits und die verfügbaren Medien andererseits in dieses Modell abbildet. Erreicht ein Medium möglichst genau die anzusprechende Zielgruppe, schaltet man seine Werbung dort. So kommt die Telefonsexwerbung ins Nachtprogramm von Privatsendern, die Werbung für Pay-TV-Sportsender in die Sportzeitschrift und das ThinkGeek-Banner auf Slashdot. Erscheinen die Streuverluste zu hoch, versucht man die Zielgruppendefinition zu verfeinern. Dieses Vorgehen entspricht dem regelgestützten Ansatz der klassischen KI.

Gemäß der Google-Philosphie würde man hingegen aus allen verfügbaren Daten über die Werbung, den Anzeigekontext und, soweit verfügbar, den Nutzer vor dem Bildschirm alle denkbaren Merkmale extrahieren. In diesem Datenraum würde man einen lernenden Klassifikator auf die Frage ansetzen, welche Cluster die Klickrate als Hilfsmetrik oder besser noch die werbebezogenen Umsätze des Kunden maximieren. Man würde also das tun, was ich in Folge 4 beschrieben habe, nur mit einem Pool von Anzeigen anstelle von Tanksäulen und Abrufereignissen anstelle von Autos mit Fahrern.  Seinen Kunden würde man ein Interface zur Verfügung stellen, mit dem sie neue Zapfsäulen aufstellen und bezahlen können. Selbst müsste man nur noch seine Einnahmen kassieren und verbuchen und alte Zapfsäulen wegräumen. Alles andere liefe komplett automatisch ab.

Die tatsächlichen Regeln, nach denen die Einblendung erfolgt, wären wieder Sache des Klassifikators und von Fall zu Fall verschieden. Zur Entscheidung könnte der Inhalt der Anzeige ebenso beitragen wie der Kontext der Einblendung oder Informationen über den Nutzer. Vielleicht sind Anzeigen mit bestimmten Merkmalen besonders erfolgreich bei europäischen Nutzern des Browsers Firefox ohne Flash Player zwischen 19:23 Uhr und 20:42 Uhr an Samstagen, sofern diese Nutzer nicht in ihren Google-Account eingeloggt sind, die Werbeeinblendung auf einer bestimmten Website erfolgt und der Nutzer diese Anzeige zuvor höchstens zweimal gesehen hat. Eine andere Anzeige könnte bei Nutzern aus einem bestimmten Universitätsnetz gut ankommen, unabhängig vom verwendeten Browser und der Uhrzeit, eine weitere in einem bestimmten Anzeiogekontext gut funktionieren. Dem lernenden Klassifikator ist egal, ob solche Regeln für uns einen Sinn ergeben. Er optimiert stur auf die Daten, die man ihm zeigt.

Textanzeigen enthalten dabei genau jene Art von Merkmalen, mit denen Google ohnehin bereits gut umgehen kann. Für Werbebanner wird man etwas länger nachdenken müssen, welche Merkmale nützlich sind. Wer weiß, vielleicht hat ja die Blinkfrequenz einen Einfluss auf die Klickrate, oder Metadaten aus der klassichen Zielgruppendefinition erweisen sich als nützlich. Grundsätzlich funktioniert das Prinzip auch dann, wenn wir die verschiedenen Anzeigen lediglich unterscheiden können und sonst keine Einzelheiten kennen. Ein Klassifikator hätte dann kein Ähnlichkeitsmaß für Anzeigen zur Verfügung, könnte aber immer noch lernen, unter welchen Begleitumständen Anzeige Nummer 703744 am besten funktioniert.

Was führt zum Klick?

Alltagsbeobachtungen sind mit diesem Erklärungsmodell kompatibel. Nehmen wir zum Beispiel tortoisesvn.net. TortoiseSVN ist ein SVN-Client für den Windows-Explorer; die Website besuchen vermutlich viele Leute, die diesen Client erstmals oder als Update herunterladen möchten. Google blendet dazu Werbung für andere SVN-Clients ein. Was’n Quatsch?! Gar kein Quatsch, sondern folgerichtig.

Screenshot von http://tortoisesvn.net/downloads.html mit Google-Werbung

Wer sich die Seite durch seine Usability-Brille anschaut, wird schnell bemerken, dass ihr Design einige Schwächen hat. Diese Schwächen führen dazu, dass der Nutzer von der Downloadfunktion ab- und auf die Werbung hingelenkt wird. Die echten Download-Buttons sind die grünen Kästen unten. Die wirken in ihrem Format und in ihrer knalligen, vom Rest der Seite abweichenden Farbe optisch wie ein typisches Werbebanner. Das Web hat uns über Jahre darauf trainiert, typische Werbebanner mental auszublenden und zu ignorieren. Hinzu kommt, dass über den Google-AdSense-Anzeigen der Titel Downloads steht und dann außer den Anzeigen kein Inhalt folgt, und die dass Anzeigen farblich der Seitengestaltung angepasst sind. Ist unter den Anzeigen nun noch eine, die einen SVN-Client anbietet, liegt ein versehentlicher Klick auf die Anzeige nahe – alles wirkt auf den Nutzer so, als könne er damit sein Ziel erreichen.

Nach einigen zufälligen Einblendungen, die zu Klicks führen, lernt das auch ein Klassifikator, der Klickraten optimiert. Stehen ihm die nötigen Parameter zur Verfügung, wird er fortan in diesem Kontext bevorzugt Werbung für SVN-Clients anzeigen, falls er welche im Pool hat. Über den einzelnen Nutzer muss er dazu nichts wissen, er lernt nur etwas über eine spezifische Auswirkung allgemeiner Psychologie in einem spezifischen Kontext. Auf ähnliche Weise dürfte SEO-Werbung in einen SEO-Artikel gelangen:

Screenshot: SEO-Artikel auf t3n mit SEO-Werbung

Persönliche Informationen über den Betrachter sind für diese Einblendungen nicht erforderlich – sie können jedoch jederzeit in die Entscheidung einfließen, wenn sie verfügbar und relevant sind. Ob und wo das der Fall ist, erfährt Google nach unserem Modell aber nicht aus den Daten, die wir uns als unser Nutzerprofil vorstellen, sondern aus unseren Werbeklicks. Wer nie Werbung anklickt, schafft keine Möglichkeit zur Personalisierung; Google muss sich dann auf eine optimierte und automatisierte Anwendung der herkömmlichen Targeting-Praktiken beschränken. Zwar werden die Eingabedaten in den Klassifikator genauer, je mehr Google vorher über mich weiß. Google kann aber nicht herausfinden, ob mich diese Details im Hinblick auf das Klassifikationsziel von anderen Teilen der Population unterscheiden. Mit jedem Nichtklick übermittle ich dem Klassifikator nur die Information: »Sorry, das war nicht die richtige Lösung.« Ich bekomme meine Werbung dann gemäß der Populationsstatistik so wie diejenigen die in denselben Clustern landen.

So füttert man Datenkraken

Klicke ich dagegen regelmäßig Werbung an, liefere ich nach und nach ein Modell dafür, wie der Werbeerfolg von meiner Person abhängt. Auch wenn es anders wirkt, erfährt Google dabei immer noch wenig über mich. Google kann dann vorhersagen, wie meine Anwesenheit im Verglich zu anderen Nutzern oder zur Populationsstatistik das Relevanzmodell für Werbeeinblendungen in einem bestimmten Kontext modifiziert. Wenn Google sich anstrengt, gibt der Klassifikator vielleicht auch noch eine – für Googles Zwecke bedeutungslose und in der Begriffswelt des Klassifikators ausgedrückte – Erklärung seiner Entscheidung her. Um systematisch solche Erklärungen über mich zu erheben, müsste Google aber schon wieder zusätzliche Daten neben der Konfiguration des Klassifikators erfassen und speichern.

Zieloptimierte Werbung a la Google funktioniert also wahrscheinlich nicht so, wie es die naiven Modelle aus Folge 2 suggerieren. Wenn mein Verständnis richtig ist, gilt es gleichermaßen auch für andere personalisierte Funktionen und nicht nur für die Werbung. Im letzten Teil der Serie betrachten wir die Auswirkungen solcher Technologien auf den Datenschutz.

Datenkrake Google (5/7): Daten besiegen die Logik

[InhaltTeil 1 Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Die vorige Folge dieser Artikelserie behandelte die Frage, wie Maschinen lernen können. Diese Technik ist für Google ein zentrales und dienstübergreifendes Paradigma (freies PDF). Im Vorbeigehen bekommen wir damit eine Erklärung, warum die Metapher von Google+ als Facebook-Konkurrenz  nicht funktioniert (vgl. Teil 1). Facebook (der Dienst) ist für Facebook (die Firma) der Kern des Geschäftsmodells. Für Google dagegen ist maschinelles Lernen aus allen Daten dieser Welt der Kern des Geschäftsmodells – und Google+ vor allem eine weitere Quelle interessanter Daten. Wer interagiert wie mit wem? Welche Inhalte verbreiten sich in welchen Kreisen? Wie reagieren Nutzer auf personalisierte Suchergebnisse? Welche Transformationen durchläuft ein Gerücht? Welche Merkmale unterscheiden ein Mem von einem Shitstorm? Alleine die Liste der Fragen, zu denen man mit Googles Philosophie der Datenverarbeitung in Google+ nach Antworten suchen könnte, scheint endlos. Mit Facebook hat Google+ deshalb nur einige oberflächliche Funktionen gemeinsam, es dient aber – mutmaßlich – einem ganz anderen Zweck.

Künstliche Intelligenz, diesmal richtig

Doch funktioniert das überhaupt? Ist die KI nicht tot? Das ist sie, aber Google macht gerade keine klassische KI. Anfangs versuchte man in der KI, alle wesentlichen Aspekte eines Problems in nachvollziehbare Regeln zu fassen. Man versuchte also, Gehirne sich selbst beschreiben zu lassen. Das war ungefähr so schlau wie der Versuch, eine Turing-Maschine Aussagen über Turing-Maschinen machen zu lassen, aber irgendwo musste man ja anfangen und das Internet als reichhaltige Datenquelle gab es auch noch nicht.

Letztlich geht es auch im Google-Ansatz um Regeln, aber formuliert werden sie nun unter Verwendung aller verfügbaren Daten und ohne die Notwendigkeit, dass ein Mensch diese Regeln nachvollziehen kann. Dass dabei bessere Regeln herauskommen können als aus menschlichen Gehirnen, gerade wenn das Problem kompliziert ist, zeigt ein Beispiel aus der IT-Sicherheit.

Bozorgi et al. beschäftigen sich in ihrem Paper Beyond Heuristics: Learning to Classify Vulnerabilities and Predict Exploits (freies PDF) mit der Vorhersage der Exploit-Wahrscheinlichkeit aus Verweundbarkeitsmeldungen. Gefundene Verwundbarkeiten in Software dokumentiert die Security-Community in Datenbanken, zum Beispiel der CVE oder der OSVDB. Ein Bewertungsschema für Verwundbarkeiten ist der CVSS-Score, ein Wert zwischen 0 und 10, der die Schwere des Problems angibt. 10 ist ganz schlimm, 0 völlig harmlos. Dieser Score wird auf eine nachvollziehbare und sinnvoll erscheinende Weise aus einer Reihe von Parametern gebildet. Für eine gegebene Verwundbarkeit in einer Software oder in einem System kann man sich den Score aus einigen Einschätzungen zusammenklicken und das Ergebnis stimmt meistens mit der Intuition des Fachmanns überein.

Computer schlägt Experten

Man sollte meinen, dass dieser Wert einen Anhaltspunkt liefert, ob ein Security-Bug nach seiner Entdeckung auch für Angriffe ausgenutzt wird – die mit dem Score 10 oft, die mit dem Score 0 nie. Bozorgi et al. zeigen jedoch, dass der CVSS-Score darüber wenig voraussagt, und stellen dem ihm einen angelernte Klassifikatoren gegenüber. Diese Klassifikatoren benutzt die gesamte Verwundbarkeitsdokumentation und liefert weit bessere Vorhersagen darüber, ob und wie schnell eine Verwundbarkeit ausgenutzt wird oder nicht.

Der verwendete Merkmalsraum hat 93.578 Dimensionen, die meisten abgeleitet aus Textfeldern wie den Namen der betroffenen Produkte oder den Freitextbeschreibungen des jeweiligen Sicherheitsproblems. Viele Dimensionen sind binär und geben einfach an, ob bestimmte Worte, zum Beispiel Buffer, in bestimmten Teilen eines Berichts vorkommen. Klassifikator lernt Cluster für ausgenutzte sowie für nicht ausgenutzte Verwundbarkeiten. Nebenbei liefert dieser Klassifikator noch einen Score, der sich daraus ergibt, wie weit eine Verwundbarkeitsmeldung nach der Merkmalsextraktion von der Clustergrenze entfernt liegt. Was tief im Cluster liegt, ist den anderen Punkten dort sehr ähnlich; was nahe der Grenze liegt, könnte nach kleinen Änderungen auch auf der anderen Seite, im anderen Cluster landen.

Das wirkt alles ein wenig wie Zauberei. Im Grunde genommen tut Google aber nichts anderes als unser Gehirn, nur ohne den Filter unserer Sinnesorgane, ohne Abgleich mit Lehrbuchwissen und mit viel mehr Daten und Aspekten dieser Daten als uns normalerweise bewusst werden. Google lernt Sprachen – oder Expertenintuition – wie wir, nur schneller und ohne den Umweg über Übungen und explizite Regeln direkt aus Beispielen und Feedback. Und wir sind die Lehrer.

Im nächsten Artikel werden wir uns damit beschäftigen, wie man mit lernenden Maschinen Werbeeinblendungen optimiert.

Datenkrake Google (4/7): Lernende Maschinen

[InhaltTeil 1 Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

In der dritten Folge der Artikelserie haben wir betrachtet, dass Google aus Crowdsourcing und Statistik nützliche Funktionen und Dienste baut und dabei aus dem Netz und von seinen Nutzern lernt. Wie funktioniert dieses Lernen?

Eine globale Tankstelle

Stell Dir vor, wir wären die Tankstelle der Welt. Wir verkaufen jede Sorte Treibstoff, die jemals irgendwo entwickelt, benannt und angeboten wurde, jeweils an einer eigenen Zapfsäule. Bei uns tanken deutsche Autofahrer Diesel, Super und Super Plus, Spanier 95 sin plomo und gasóleo, Japaner Hai-oku und Keiyu, Ossis in alten Trabis ihr Zweitaktgemisch VK 88 1:33 und afghanische Taliban brennbare Flüssigkeit aus Fässern und Flaschen.

Unsere Tankstelle ist riesig und unübersichtlich. Wie schicken wir jeden Fahrer mit seinem jeweiligen Fahrzeug an die richtige Säule? Wir könnten unsere Kunden nach ihren Wünschen fragen, aber dazu müssten wir all ihre Sprachen sprechen. Manche Kunden wüssten auch gar nicht, was sie tanken wollen, weil sie gerade in einem geliehenen Fahrzeug sitzen oder weil sie vergesslich sind oder weil ihre robuste russische Technik alles schluckt, was flüssig ist und brennt.

Unsere Kunden hätten zudem unterschiedliche Präferenzen, die teils mit ihren Fahrzeugen zusammenhängen, teils aber auch nicht. Während Mutti ihren Kleinwagen immer genau so betanken möchte, wie es ihr der nette Mann in der Werkstatt schon dreimal aus gegebenem Anlass erklärt hat, ist das Verhalten von Top-Verkäufer Johannes E. komplizierter. Gewohnheitsmäßig kippt er Super++ in seinen Audi, geht eh‘ auf Spesenrechnung und man gönnt sich ja sonst nichts. Ist er aber spät dran und ein Kunde wartet, nimmt er die erstbeste freie Säule, an der er sein Auto nicht kaputtmacht. Dann ist 95 sin plomo eine Alternative zur Schlange an der Super++-Säule, das kennt er aus seinem Urlaub auf Mallorca. Wenn Du mit Johannes E. redest, wirst Du davon allerdings nichts erfahren, weil ihm das selbst nicht so bewusst ist. Seine Bedürfnisse zeigen sich erst, wenn Du sein Verhalten beobachtest. Seine Verhaltensmuster können sich übrigens jederzeit ändern, zum Beispiel weil Johannes E. die Firma und damit den Firmenwagen gewechselt hat. Plötzlich sitzt Johannes E. in einem Mercedes und ein anderer in seinem Audi.

Eine Datenbank hilft uns nicht

Eine klassische Datenbank hilft uns in dieser Situation wenig. Führen wir sie über Fahrzeuge oder Fahrezugtypen, verlieren wir die Fahrerpräferenzen; führen wir sie über Fahrer, bekommen wir deren Wechsel vom Diesel zum Erdgas nicht mit. Bilden wir Paare von Auto und Fahrer, haben wir lauter Spezialfälle in der Datenbank und scheitern jedesmal, wenn eine unbekannte Paarung vorfährt, etwa weil Johannes E. eine Panne hatte und heute einen Mietwagen betankt. Was wir stattdessen haben wollen, ist ein Klassifikator, der fast immer die richtige Entscheidung trifft und dabei vorhandene Informationen generalisiert. Außerdem möchten wir, dass sich unser Klassifikator anpasst, wenn sich die Welt verändert. Wir möchten ihm nicht jede Woche die neuesten Gerüchte aus der Auto BILD und deren Auswirkungen auf seine Tätigkeit einprogrammieren, das soll er schön selbst lernen.

Merkmalsextraktion

Solch einen Klassifikator können wir bauen, und wir können ihn lernfähig machen. Dazu überlegen wir uns zunächst, welche beobachtbaren Merkmale ein Auto nebst Fahrer hat: Farbe, Kennzeichen, Abmessungen, Motor- und Fahrgeräusche, Felgen- und Reifentyp, Anhängerkupplung, Dachgepäckträger, Sauberkeit, Anzahl der Türen, Spoiler, Spracheinstellung des Navigationssystems, eingestellter Radiosender; beim Fahrer Hautfarbe, Körpergröße, Haarschnitt, Gesichtsbehaarung, Kleidung, Gesichtsausdruck und so weiter. Wir sammeln also erst mal alle Merkmale ein, die wir messen können. Welche dieser Daten wir am Ende wirklich brauchen, wissen wir noch nicht genau, voraussichtlich von allen ein bisschen.

Jedes messbare Merkmal liefert uns eine Dimension in einem vieldimensionalen Raum. Fährt ein Auto an unserer Tankstelle vor, können wir es in allen Dimensionen messen und danach als Punkt in diesem Raum darstellen. Kleine Abweichungen, zum Beispiel durch den Wechsel von Winter- zu Sommereifen, führen zu kleinen Verschiebungen im Raum. Große Unterschiede, etwa zwischen Muttis Kleinwagen und Bennos Umzugslaster mit ihren jeweiligen Fahrern, führen zu großen Abständen.

Merkmalsraum in den Dimensionen Farbe und Länge mit Datenpunkten für einige Fahrzeuge. In Wirklichkeit würde man die Farbe als Hue/Saturation/Value darstellen und zur Länge noch die Breite und die Höhe nehmen. Das wären bereits sechs Dimensionen und immer noch ein vereinfachtes Modell.

Unser Klassifikator soll uns zu jeder Eingabe – einem Punkt im Raum, der unsere Messwerte zu einem Fahrzeug repräsentiert – eine oder mehrere wahrscheinlich passende Zapfsäulen ausgeben.

Feedback

Wenn unsere Kunden mitdenken und ohne Einweisung oder nach einer falschen Empfehlung selbständig eine für sie richtige Zapfsäule aufsuchen, können wir ihr Verhalten beobachten und daraus lernen. Jedesmal wenn jemand bei uns tankt, bekommen wir ein Datensample, einen Punkt im Raum und die für diesen Punkt richtige Entscheidung. Diese Samples sammeln wir sortiert nach richtigen Entscheidungen. Diese Sammlung könnten wir uns noch als Datenbank vorstellen, in der für jede Zapfsäule sämtliche Merkmale der dort beim Tanken gesehenen Auto-Fahrer-Paare hinterlegt sind. Das sind aber nur Rohdaten und wir werden gleich sehen, dass wir sie gar nicht auf Vorrat in einer Datenbank speichern müssen.

Automatische Verallgemeinerung

Unser Klassifikator soll diese Rohdaten generalisieren können, das heißt auch für solche Datenpunkte gute Entscheidungen treffen, für die bisher keine Beobachtungen vorliegen. Repräsentiert unser Datenraum alle oder die meisten für die Klassifikation relevanten Merkmale, so bilden die Rohdaten zu jeder möglichen Entscheidung einen Cluster: sie liegen näher beieinander als sie zu den Datenpunkten anderer Cluster liegen. In den Randbereichen kann es zu Überschneidungen kommen. Das liegt entweder an verrauschten Daten aufgrund von Messfehlern, oder an fehlenden Merkmalen. Beispielsweise könnten uns einige Parameter fehlen, die das Verhalten unseres Tankchaoten Johannes E. erklären würden, weil wir seinen Terminkalender nicht kennen.

Die maßgebliche Nachbarschaft zwichen den Datenpunkten eines Clusters besteht dabei oft nur in ausgewählten Merkmalsdimensionen, da nicht alle Merkmale gleichermaßen relevant sind. Welche Dimensionen das sind, kann sich von Cluster zu Cluster unterscheiden. Wir könnten an unserer Tankstelle zum Beispiel beobachten, dass rote deutsche Sportwagen fast immer Super tanken, während Lkw sowie silbergraue und schwarze Mittelklassewagen Diesel bevorzugen. Dieser Cluster ließe sich mit den Merkmalen Farbe und Größe recht genau beschreiben. Gleichzeitig könnten wir beobachten, dass Japaner unabhängig von Autotyp und Farbe stets die Säule Hai-oku bevorzugen, weil es ihnen als unhöflich gilt, öffentlich billigen Diesel zu tanken. Daraus ergibt sich wiederum für die anderen Cluster, dass dort das Merkmal Nationalität eine Rolle spielt, und sei es nur die, Japaner aus dem Cluster auszuschließen.

Repräsentanten für Cluster

Damit unser Klassifikator gut funktioniert, benötigt er Beschreibungen der einzelnen Cluster, ihrer Clustergrenzen und ggf. der Überschneidungen mehrerer Cluster. Um einen Datenpunkt zu klassifizieren, also eine Entscheidung zu treffen, müssen wir ihn dem passendsten Cluster zuordnen. Erweist sich eine Klassifikation als falsch, so wollen wir außerdem die betroffenen Clusterbeschreibungen anpassen, ohne uns jedoch von einzelnen Ausreißern unsere Statistik kaputtmachen zu lassen. Anstelle der Rohdaten im Datenbankformat verwendet man dafür Repräsentanten: für jeden Cluster bestimmt man einen Satz von Punkten, der diesen Cluster gut repräsentiert. Diese Repräsentanten liegen irgendwo zwischen den Rohdatenpunkten; ihre Anzahl ist in der Regel geringer.

Für das Beispiel von eben bekämen wir als Repräsentanten des Clusters zur Zapfsäule Hai-Oku gemittelte Erkennungsmerkmale japanischer Fahrer, für Super die gemittelten Merkmale von Sportwagen mit Fahrern, in deren Land Sportwagen Super tanken, und für Diesel gemittelte Merkmale von Lastern sowie von langweilig kolorierten Mittelklassewagen. Die Cluster können komplizierte Formen haben und müssen nicht zusammenhängen, deswegen mehrere Repräsentanten.

Repräsentanten der Klassen Diesel und Super im vereinfachten Merkmalsraum. Datenpunkte – durch Kreuze dargestellt – lassen sich anhand ihrer Entfernung zu den Repräsentanten einer Klasse zuordnen. Ein roter Kleinbus mit Anhänger würde an der Diesel-Säule landen.

Um einen neuen Datenpunkt zu klassifizieren, suchen wir uns den oder die n nächstgelegenen Repräsentanten zu diesem Punkt und bestimmt daraus die Wahrscheinlichkeit der Clusterzugehörigkeit. Wir schicken das Fahrzeug an die Zapfsäule, deren Cluster die höchste Wahrscheinlichkeit hat. Klasse (d.h. Zapfsäule) und  Wahrscheinlichkeit die Ausgaben des Klassifikators. Erweist sich die Entscheidung als falsch, analyisieren wir den Fehler und berechnen Korrekturen für die betroffenen Repräsentanten. Diese Korrekturen halten wir klein, Repräsentanten werden nur ein Stückchen in die richtige Richtung verschoben. Das macht unseren Klassifikator robust gegen einzelne statistische Ausreißer. Erst wenn systematische Fehler auftreten, akkumulieren sich viele gleichartige Korrekturen zu einer nennenswerten Verschiebung der Repräsentanten und Clustergrenzen. Beginnen können wir mit zufällig verteilten Repräsentanten; unser Klassifikator wird dann anfangs viele Fehler machen und schnell lernen.

Die Nutzerdaten werfen wir weg

Die ursprünglich erfassten Rohdaten, die gemessenen Merkmalswerte, können wir nach Verwendung wegwerfen. Dass Mutti beim Betanken ihres Kleinwagens immer eine Alditüte mit Einkäufen auf dem Beifahrersitz liegen hat, geht vielleicht als Merkmal in die Klassifikation ein – steht am Ende aber in keiner Datenbank. Wir brauchen diese Information nicht, unseren Klassifikator interessiert nur, ob der das Merkmal Alditüte berücksichten muss und falls ja, was es über die Clusterzugehörigkeit aussagt.

Wer genauer wissen möchte, wie statistische Inferenz und maschinelles Lernen funktioniert, und sich von Formeln nicht abschrecken lässt, findet im Buch Information Theory, Inference, and Learning Algorithms von David MacKay eine hervorragende und umfangreiche Einführung; das komplette Buch mit seinen 600 Seiten gibt es online als PDF-Datei. [Bevor Ihr jetzt anfangt zu drucken: die Amazon-Lieferung dauert auch nicht viel länger.]

In der nächsten Folge schauen wir uns die Leistungsfähigkeit und einige Implikationen dieses Ansatzes an.

Datenkrake Google (3/7): Statistisches Crowdsourcing

[InhaltTeil 1 Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Im vorigen Teil dieser Serie haben wir uns einige mentale Modelle angeschaut, die genau wie viele unserer Datenschutzkonzepte von der Informationstechnik des vorigen Jahrhunderts ausgehen. Jetzt nähern wir uns der Realität von heute, zunächst anhand einiger Dienste und Funktionen, die in Sachen Privatsphäre weniger kritisch sind.

Strategische Position

Google sitzt auf der Content-Schicht in der Mitte des Netzes. Alle online veröffentlichten Informationen kommen dort vorbei, und das inzwischen sehr schnell. Obendrein bietet Google mit der Suche einen Dienst an, den fast jeder Internet-Nutzer verwendet. Und die Google-Suche muss mit verrauschten Informationen umgehen können, um aus der Datenhalde Internet jeweils die relevanten Informationen herauszufiltern. Google setzt dafür auf Statistik, auf maschinelles Lernen und auf Crowdsourcing. Das illustrieren Funktionen der Suche sowie der Dienst Google Translate.

Wie baut man eine Rechtschreibkorrektur oder eine Suchbegriff-Autocompletion, wenn man in Googles Position  ist? Wäre man Microsoft, würde man Wörterbücher und Grammatik-Engines in die Schachtel packen, in der man sein Office-Paket verkauft. Als Microsoft muss man alles vordenken, was der Nutzer jemals tun wird. Die einzigen Rückkanäle sind die Support-Hotline, gelegentliche Crash-Reports sowie der Markt. Ist man dagegen Google, so interagiert man bei jedem Tastendruck mit seinem Nutzer.

Homöopathisches Crowdsourcing

Darauf lassen sich Crowdsourcing-Modelle stützen. Crowdsourcing bedeutet in etwa andere arbeiten lassen. Das ist gar nicht so einfach wie es klingt. Verlangt man zu viel für zu wenig Gegenleistung, fühlen sich die anderen ausgenutzt und spielen nicht mit. Ein früher Versuch in dieser Richtung war Googles Image Labeler. Er verpackte das Finden von Schlagworten zu Bildern als Spiel – das schnell langweilig wurde. Am besten funktioniert andere arbeiten lassen, wenn die anderen damit gar keine Arbeit haben oder die Arbeit sowieso machen.

Eingabekorrekturen sind ein Beispiel. Wer sich vertippt und seinen Fehler bemerkt, der wird ihn korrigieren. Sind wir nun Google und haben wir einen interaktiven Kanal zu jedem einzelnen Internet-Nutzer, so bekommen wir täglich Millionen, vielleicht sogar Milliarden von Tippfehlern samt den zugehörigen Korrekturen frei Haus geliefert. Mit anderen Worten, Google erhält eine umfangreiche Tippfehler- und Korrekturstatistik über einen beachtlichen Teil der Weltbevölkerung. Der einzelne Fehler, die einzelne Korrektur oder auch das Profil eines einzelnen Nutzers sind dabei belanglos, während die Aggregation dieser Daten fast alles enthält, was man über Tippfehler und und ihre Berichtigungen wissen kann.

Wenn man Google ist, zapft man diese Datenquelle an und baut einen Mechanismus, der von den Nutzern lernt, wie Tippfehler zu korrigieren sind. [Das Teufelchen auf meiner linken Schulter unterbricht mich gerade und schlägt vor, einen Google-Korrektur-Flashmob zu organisieren, der Google einen falschen Korrekturvorschlag für Hommingberger Gepardenforelle antrainiert. Das Engelchen auf der rechten weint leise in einen Facepalm hinein.] Funktioniert so ein Mechanismus einmal, müssen wir uns um keine Rechtschreibreform mehr kümmern. Das übernehmen alles die Nutzer, indem sie sich ganz natürlich verhalten. Das ist etwas vereinfacht, weil Google außerdem auch noch das ganze Web kennt und auch daraus eine Menge über alle möglichen Sprachen lernen kann (freies PDF).

Welche Vervollständigungen für teilweise eingetippte Suchbegriffe in Frage kommen, können wir an Googles Stelle auf ähnliche Weise ermitteln. Wir beginnen mit einer Statistik über die eingegebenen Suchbegriffe und die Texte im Web und bieten Vervollständigungen an. Mit dem Nutzerfeedback – welche Vorschläge werden angeklickt? – verfeinern wir unser Modell. In diesem Fall ist es manchmal nützlich, zum Beispiel den ungefähren Aufenthaltsort des Nutzers genauer zu kennen, wie ihn die IP-Adresse oft verrät.

Von der EU lernen heißt Übersetzen lernen

Wie weit solche Ansätze der automatischen Sprachverarbeitung heute führen können, zeigt uns der Übersetzer Google Translate. Dessen Übersetzungen erfolgen nicht anhand von Regeln, die ein Programmierer vorgegeben hat. Das wäre die Microsoft-Methode für Firmen, die Software in Schachteln packen. Die Google-Methode funktioniert nach demselben Prinzip wie eben erläutert. Aus dem Web bekommt Google laufend Beispiele für Übersetzungen, etwa von der EU mit ihren 23 Arbeitssprachen, in die alle offiziellen Dokumente übersetzt werden. Diese Übersetzungen stammen von Menschen; Google lässt daraus Maschinen lernen.

Weil das alleine noch recht fehleranfällig ist, berücksichtigt Google wieder auch das Feedback von seinen Benutzern. Sie können für die Übersetzung einzelner Wörter oder Wortgruppen zwischen Alternativen wählen, eigene Korrekturen eingeben und die Übersetzung insgesamt bewerten:

Die Korrekturen und Bewertungen liefern Google auch hier eine Statistik zur Optimierung.

Verhaltensforschung ohne Privacy-Problem

Um solche Funktionen und Dienste realisieren zu können, muss Google seine Nutzer ein wenig beobachten. Google benötigt eine Aufzeichnung der Nutzerinteraktion über einen Nutzungskontext hinweg, der sich über eine Folge von Klicks (Nutzersicht) oder HTTP-Requests (Googlesicht) erstreckt. Informationen über den Nutzer als Person sind Google dabei egal, das beobachtete Nutzerverhalten liefert lediglich Datenpunkte für eine Statistik über die gesamte Nutzerpopulation. Google möchte an dieser Stelle nicht wissen, wer wir sind oder wofür wir uns interessieren, sondern welche Verhaltensweisen häufig und welche selten vorkommen.

Unerwünschte Nebenwirkungen, zum Beispiel das Erstellen persönlicher Rechtschreibprofile beim Dienstanbieter, sind nicht per se ausgeschlossen. Sie sind nur uninteressant und lassen sich durch mittlere Sorgfalt im Umgang mit Daten recht zuverlässig vermeiden. Unterwegs besteht noch das Risiko einer Datenverkehrsanalyse, aus der jemand  trotz Verschlüsselung Rückschlüsse auf Eingaben ziehen könnte, aber das ist ein (kleines) inhärentes Risiko des Netzes, dafür kann Google nichts. Sollte so etwas als Angriffsszenario praktisch relevant werden, ließe es sich zudem technisch verhindern.

Google baut also Dienste, die mit implizitem Feedback aus dem statistischen Nutzerverhalten optimiert werden. In der nächsten Folge werden wir noch etwas tiefer in die Welt der lernenden Maschinen eintauchen. Es wird dann darum gehen, wie eine Maschine überhaupt lernen kann. Keine Angst, Formeln gibt es keine.

Social Networks sind Multiplayer-Games

Isotopp schreibt über Gamification und wie sie an Nerds scheitert. Spiele sind so ein Thema, bei dem sich jeder kompetent fühlt, der mal eins gespielt hat. Spiele sind aber nicht einfach zu entwerfen, wie jeder weiß, der mal eins in die Ecke geworfen hat, das zu langweilig oder zu schwer war. Gamification in Anwendungen ist noch komplizierter. Warum Gamification-Ansätze oft hirntot enden, lässt sich erklären. Wer Anwendungen und Spiele verheiratet, muss im Entwurf einen Zielkonflikt zwischen Usability und Verkomplizierung lösen, damit es in der Benutzung nicht zu störenden Konflikten zwischen Anwendungs- und Spielzielen kommt. Beispiele für erfolgreiche Gamifications finden wir in Social Network Sites wie Google und Facebook.

Vor zehn Jahren habe ich mich mal kurz mit diesem Themen beschäftigt und die damals spärliche Literatur für einen Workshop aufbereitet. Damals erhoffte man sich Usability-Wunder davon, dass man Ideen aus Spielen in Anwendungen übernahm. Das Ergebnis naiver Versuche waren Studenten, die sich in ihren Studienarbeiten mit Quake vergnügten – als Teil eines Projekts über digitale Bibliotheken. Manche Leute müssen offenbar erst forschen um zu verstehen, dass eine 3D-Welt aus Bücherregalen als digitaler Bibliothekskatalog etwa so schlau ist wie eine Bildschirmtastatur mit anklickbaren Tasten sowie Papier- und TippEx-Simulation als Texteditor. Dennis Chao hat solche Arbeiten mit seinem Paper Doom as an Interface for Process Management (freies PDF) trefflich ad absurdum geführt. Jetzt also eine neue Runde, Gamification soll diesmal Nutzer anziehen und bei der Stange halten, also eine Persuasive Technology schaffen. Ganz in der Tradition dieses Blogs überlassen wir jedem selbst, ob er das evil finden möchte, und konzentrieren uns auf die Frage, ob und wo es überhaupt funktioniert.

Isotopp beschreibt Beispiele von simpel gestrickten Spielen, die sich schnell beenden lassen, wenn man Ziele außerhalb der Spielregeln verfolgt und die Spielregeln dazu als Werkzeug einsetzt. Er betrachtet diese Spiele als abstrakten Wettbewerbe und abstrakte Herausforderungen und liegt damit richtig. Er führt die Spielkonzepte ad absurdum, indem er durch kreative Regelinterpretation einen schnellen Weg zu einem Endzustand des Spiels geht und damit Ziele außerhalb des Spiels verfolgt. Stützt sich das Spiel auf ein einfaches Regelsystem, ist dieses Vorgehen nur einmal interessant, der Weg danach beliebig wiederholbar, die Herausforderung verloren.

Bessere Spiele stützen sich auf besser entworfene, nachhaltige Herausforderungen. Ego-Shooter im Death-Match-Modus sind ein Beispiel dafür. Sie bieten nachhaltigen Spielspaß, sofern die Maps was taugen und man jede Map nur so lange benutzt, bis die ersten Spieler für jeden Spawn-Point eine Optimierungsstrategie gefunden haben und das Spiel dominieren. Die Fähigkeiten der Mitspieler bestimmen dort das Niveau der Herausforderung, das Spiel selbst bietet eine Plattform dafür.

Andererseits darf das Spiel nicht zu schwer werden, weil dann die Chance auf Gewinne oder Belohnungen zu gering ist und die Motivation verloren geht. Deshalb machen Cheater ebenso wie große Niveauunterschiede der Spieler so ein Spiel kaputt, sie allokieren die Mehrzahl der Belohnungen auf eine Teilmenge der Spieler. Man könnte darauf reagieren, indem man das Belohnungssystem von den Skills der Mitspieler entkoppelt, aber das hätte wieder Auswirkungen auf den Schwierigkeitsgrad insgesamt.

Ein nachhaltig oder zumindest über eine gewisse Zeit funktionierendes Spiel ist also ein kompliziertes System, das sowohl die Motivation des Spielers in einem Zielkorridor halten muss. Ein Spiel darf weder zu leicht noch zu schwer sein. Ein Spiel muss den Spieler regelmäßig belohnen, aber nicht zu oft und nicht beliebig. Schlichteren Gemütern genügt dafür das Gold Farming als Aufgabe, das aber auch nur deshalb, weil sie sich darauf einlassen und sich keine Abkürzung kaufen.

Diese Balance kann man auch in Einweg-Spielen richtig hinbekommen, so dass sie über einen begrenzten, aber längeren Zeitraum funktionieren. Adventures sind ein Beispiel dafür. Hat man sie durchgespielt, sind sie erledigt, aber der Weg dorthin ist so mit Constraints und Aufgaben belegt, dass der Spieler weder frustriert aufgibt noch ohne Schwierigkeiten durchmarschiert.

In die Hose geht Gamification oft, wenn man sie naiv in einer Anwendung versucht, die irgendeinen anderen Zweck als das Spielen hat. In einer Anwendung haben wir andere Ziele, sie sollen irgendwas für ihren Benutzer erledigen und das möglichst einfach. Usability ist nicht nur ein Problem der Benutzeroberfläche, sondern des gesamten Anwendungsentwurfs. Gleichzeitig verlangt Gamification nach Herausforderungen, nach künstlichen Schwierigkeiten. Dieser Zielkonflikt ist selten anders zu lösen als durch eine klare Entscheidung. Antweder bauen wir eine Anwendung oder ein Spiel.

Von dieser Regel gibt es Ausnahmen. Erfolgreiche Gamifizierungen orientieren sich an Egoshootern im Mehrspielermodus. Nicht in den Oberflächenphänomenen allerdings, wie es Second Life mit seiner 3D-Welt relativ erfolglos versucht hat, sondern im Spielkonzept. Erfolgreiche Gamifizierungen lassen Menschen miteinander spielen und stellen mehr oder minder nützliche Funktionen bereit, die man sowohl zum Spielen als auch zum Arbeiten nutzen kann.

Erfolgreiche Gamifications sind beispielsweise Google+ und Facebook, die Ego-Shooter der Gamification mit dem Belohnungssystem eines Swingerclubs. Social Networks bieten Aufgaben und  Herausforderungen (»viele Follower sammeln«, »interessant sein«, »Trollen«, »Meme erfinden«, »in Fotos erkannt werden«) und Belohnungen (Kommentare, Likes, Reshares, neue Follower, Fototags). Parallel dazu stellen sie nützliche Funktionen bereit (interessanten Content und Contentempfehlungen, unkomplizierte Kommunikation, Selbstdarstellung und PR). Welche Spielziele ich mir stecke, überlassen sie mir. Vor allem aber setzen sie mir keine künstlichen Hürden, wie es die Rätsel in einem Adventure tun würden, sondern sie geben mir motivierende Belohnungen als inhärenten Teil meiner Interaktion mit den anderen Spielern. Wir können Facebook und Google+ auch einfach als Anwendungen nutzen, ohne über in diesem Kontext blödsinnige Spielelemente zu stolpern.

Datenkrake Google (2/7): Naive Modelle

[InhaltTeil 1Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Im ersten Teil haben wir gesehen, dass Google häufig missverstanden wird, weil wir Metaphern aus unserer Erfahrungswelt auf Google anwenden und damit alles für erklärt halten. In Wirklichkeit funktionieren solche Metaphern aber nur für einige Oberflächenphänomene.

Google als Datenbank?

Ein vebreitetes Missverständnis betrifft die Sammlung, Speicherung und Verwendung personenbezogener Daten, landläufig als Nutzerprofile bezeichnet. Nutzerprofile kann sich jeder vorstellen, das sind, ganz klar, umfangreiche Datensätze in riesigen Datenbanken:

»Die Profile als solche sollen ja immer anonym sein, das heißt (sofern ich das richtig verstehe), dass das z. B. so aussieht:

  • Profilnummer: 1337
  • Interessen:
    • Urlaubsziele: Toscana, Sizilien
    • Hobbies: Arduino, Lockpicking
    • Essen: Hamburger, Grießbrei

Wenn jetzt jemand Werbung schalten möchte, geht derjenige zu Google und sagt: „Hey, Google, ich will für mein Grießbreiwettessen am Fuße des Ätna Werbung schalten. Bitte zeige also allen Grießbreiessern, die gerne nach Sizilien fahren oder dort wohnen, folgende Werbung:
‚[…]‘.“«

(Kommentar von Steven Koenig alias Kreuvf  auf heise.de)

An diesem Modell orientieren sich unsere Ängste und Befürchtungen. Doch repräsentiert dieses Modell überhaupt die Realität? Es wirkt plausibel für den, der mal eine herkömmliche Datenbank gesehen hat, oder darauf basierende primitive Versuche der Datensammlung durch Abfrage beim Nutzer:

»Wer einen neuen Account im Internet anlegt – egal ob für die E-Mail, ein Webforum oder eine neue Shoppingseite – erlebt stets ein mühsames Prozedere: Zuerst muss man sich einen Nutzernamen und ein Passwort auswählen. Danach wird man über drei Seiten nach Details vom Geburtsdatum bis zu persönlichen Vorlieben befragt und muss die Anmeldung am Schluss per E-Mail absegnen.«

(Zeit Online: Stoppt die Datenkraken!)

Als Missbrauchsszenario stellen wir uns dazu gerne einen schwunghaften Handel mit solchen Datensätzen vor.

Andersdenkende

Google hat sich jedoch das Think Different! von Apple geborgt und tut Dinge gerne auf eine ganz andere Art als der gewöhnliche IT-Spießer. Mit lächerlichem Spielkram wie Datenbanken hält sich Google nicht auf. Der Grund dafür ist nicht etwa, dass Google nach der Weltherrschaft strebt, sondern dass Google die Herrschaft über ein Stück Welt besitzt: über einen riesigen, verteilten Computer, der fast alle. veröffentlichten Informationen zu sehen bekommt. Und damit etwas anfangen soll, trotz des Kauderwelschs aus einigen Hundert Sprachen und Dialekten. Dabei helfen Datenbanken nicht, die brauchen zu viele Menschen, die sich um sie kümmern.

Im oben zitierten Heise-Forum fragt User flare—-*: »Ein Mensch arbeitet, vergnügt sich, informiert sich, macht Unsinn. Wie will google das vernünftig trennen?« Die Antwort auf diese Frage lautet: Das weiß Google selbst nicht so genau. Die Geschichte von Google begann mit einer ähnlichen Frage und derselben Antwort: Wie können wir aus einem schlecht organisierten Haufen unstrukturierter, redundanter, fehlerhafter und mehrsprachigerTextdaten relevante Informationen herausfiltern? Googles Antwort lautete von Beginn an: Indem wir uns nicht um spezifische, ausformulierte Regeln kümmern, wie es etwa die Linguisten tun, sondern den Umgang der Nutzerpopulation mit den Daten statistisch auswerten. PageRank war eine Keimzelle der Google-Philosophie, die darin besteht, einen Computer mit allen möglichen Daten zu füttern und ihn die Antworten auf Fragen selbst finden zu lassen. Google ist ein Computer wie ihn Science-Fiction-Autoren jahrzehntelang beschrieben haben.

Datenschützer werfen Exceptions

Cloud Computing hat deshalb für Google eine Doppelbedeutung. Neben der landläufigen Interpretation als Verlagerung der IT vom Endgerät ins Netz bedeutet Cloud Computing für Google auch Statistik in vieldimensionalen Datenwolken zur Beantwortung von Fragen, kurz: statistische Inferenz und maschinelles Lernen.

Der herkömmliche Datenschutz tut sich schwer mit diesem Ansatz, denn er geht von den primitiven Modellen aus, die wir oben gesehen haben. So etwas wie Google ist in diesen Modellen nicht vorgesehen, und es gibt auch keinen Mechanismus im Datenschutz, der diesen Fehler erkennen und eine Excepton auslösen würde. Also wenden unsere Institutionen wacker die alten Begriffe auf eine neue Technik an. Das ist ungefähr so, als wollte man den heutigen Straßenverkehr mit Gesetzen aus der Ära der Postkutsche regeln. Formal ginge es irgendwie schon, wenn man Autos als pferdelose Wagen und Fahrräder als Drahtesel betrachtete, aber passend wären die Regeln nicht und es käme zu allerlei Absurditäten.

Dementsprechend knirscht es auch im Daten- und Privatsphärenschutz, wenn wir die Tradition mit der Moderne konfrontieren. Schwierigkeiten bereiten zum Beispiel:

  • Die binäre Unterscheidung zwischen personenbezogenen und anderen Daten, die Google bewusst und zweckdienlich vermischt
  • Die formalisierte Einwilligung des Individuums, das für Google eine Datenquelle in einem Kollektiv ist
  • Die Idee der Datensparsamkeit, die bei blinder und konsequenter Anwendung so etwas wie Google gar nicht zuließe, selbst wenn Google inhärent datensparsam wäre
  • Die Vorstellung einer feingranularen Zweckbindung etwa für das Datenfeld IP-Adresse, da solche Datenfelder nur in den Eingabedaten vorkommen

Google hat deswegen gar keine andere Möglichkeit als sich eine Generalklausel unterschreiben zu lassen, wenn Google Google bleiben will, unabhängig davon, ob Google mit unseren Daten gute oder böse Sachen macht.

Im nächsten Teil wird es darum gehen, wie Google aus Netzinhalten und Nutzerdaten nützliche Funktionen baut, ohne Privatsphären zu verletzen.

Datenkrake Google (1/7): Einleitung

[InhaltTeil 1 Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Google macht ein Riesengeschäft mit unseren Daten. Das stimmt. Google legt dazu gigantische Datenbanken an, aus denen man alles über uns herauslesen kann, und führt sie jetzt auch noch dienstübergreifend zusammen. Das stimmt so wahrscheinlich nicht, die Sache ist komplizierter.

Um Google ranken sich Mythen und Missverständnisse, manche halten Google gar für »eine der am meisten mißverstandenen Firmen auf diesem Planeten«. Diese Missverständnisse gehen oft darauf zurück, dass wir die einzelnen Ausprägungen von Google – Dienste wie die Suche, GMail, Google+ usw. – isoliert mit ihren jeweiligen Konkurrenten identifizieren, statt die Leitideen dahinter zu betrachten.

Repräsentativ für diese Art von Missverständnis ist die Betrachtung von Google+ als »Googles Angriff auf Facebook«, die uns oft Hand in Hand mit Untergangsprognosen begegnet. Dieselben Wahrsager können auch der Integration von Google+ und Google-Suche nichts abgewinnen. Doch im Google-Paradigma betrachtet ergibt alles einen Sinn: Google+ und die Dienstintegration liefert Google Daten genau jener Art, die Google braucht, um noch googliger zu werden. Womit wir wieder bei den Datenbanken wären, die Google nicht führt, weil Datenbanken ein Konzept aus der Welt vor Google sind.

Was also tut Google eigentlich mit unseren Daten? Diese Frage versucht meine Artikelserie zu beantworten. Sie wird aus aus öffentlichen Informationen und einer Portion Informatikerbauchgefühl ein Bild davon skizzieren, was Google (mutmaßlich) mit unseren Daten macht und wieso diese Nutzung nicht per se böse ist. Das soll weder eine Glorifizierung noch eine Verteufelung werden, sondern eine neutrale Darstellung technischer und philosophischer Aspekte sowie einiger daraus folgender Fragen zu unseren aus der Mainframe-und-PC-Ära überlieferten Datenschutzkonzepten. Um konstruktiv über Datenschutz-Fails, Post-Privacy und Spackeria-Positionen diskutieren zu können, brauchen wir korrekte Modelle dessen, worüber wir reden.

Wer eine Stunde Zeit hat, sich mit Googles unkommentierter Sicht der Dinge zu beschäftigen, dem sei der Vortrag »Secrets of Search« von Douglas Merrill empfohlen. Merrill erklärt darin, was Google mit den vielen Daten im Netz und von seinen Nutzern eigentlich tut. Meine Betrachtungen sind zum Teil spekulativ, wo sie über die Aussagen der verlinkten Quellen hinausgehen. Ich habe kein Insiderwissen und kann mich in meinen Schlussfolgerungen irren. Aber aus lückenhafter Dokumentation, beobachteten Verhaltensweisen und Experimenten Rückschlüsse auf die Funktionsweise von Systemen zu ziehen, ist schließlich mein Beruf. Auf technische Details kommt es mir hier nicht an, mir geht es um Funktionsprinzipien und Paradigmen, die Googles Herangehensweise zugrunde liegen.

Inhaltsverzeichnis

  1. Einleitung
  2. Naive Modelle
  3. Statistisches Crowdsourcing
  4. Lernende Maschinen
  5. Daten besiegen die Logik
  6. Und jetzt Werbung (und ein Nachtrag dazu)
  7. Privatsphärenschutz in der Datenwolke

In Folge 2 werden wir landläufige Vorstellungen von Nutzerprofilen betrachten und die Exceptions skizzieren, die der Legacy-Code unseres Datenschutzes bei der Interaktion mit dem Phänomen Google wirft.