Archiv der Kategorie: Geschäft

Business

Datenkrake Google (3/7): Statistisches Crowdsourcing

[InhaltTeil 1 Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Im vorigen Teil dieser Serie haben wir uns einige mentale Modelle angeschaut, die genau wie viele unserer Datenschutzkonzepte von der Informationstechnik des vorigen Jahrhunderts ausgehen. Jetzt nähern wir uns der Realität von heute, zunächst anhand einiger Dienste und Funktionen, die in Sachen Privatsphäre weniger kritisch sind.

Strategische Position

Google sitzt auf der Content-Schicht in der Mitte des Netzes. Alle online veröffentlichten Informationen kommen dort vorbei, und das inzwischen sehr schnell. Obendrein bietet Google mit der Suche einen Dienst an, den fast jeder Internet-Nutzer verwendet. Und die Google-Suche muss mit verrauschten Informationen umgehen können, um aus der Datenhalde Internet jeweils die relevanten Informationen herauszufiltern. Google setzt dafür auf Statistik, auf maschinelles Lernen und auf Crowdsourcing. Das illustrieren Funktionen der Suche sowie der Dienst Google Translate.

Wie baut man eine Rechtschreibkorrektur oder eine Suchbegriff-Autocompletion, wenn man in Googles Position  ist? Wäre man Microsoft, würde man Wörterbücher und Grammatik-Engines in die Schachtel packen, in der man sein Office-Paket verkauft. Als Microsoft muss man alles vordenken, was der Nutzer jemals tun wird. Die einzigen Rückkanäle sind die Support-Hotline, gelegentliche Crash-Reports sowie der Markt. Ist man dagegen Google, so interagiert man bei jedem Tastendruck mit seinem Nutzer.

Homöopathisches Crowdsourcing

Darauf lassen sich Crowdsourcing-Modelle stützen. Crowdsourcing bedeutet in etwa andere arbeiten lassen. Das ist gar nicht so einfach wie es klingt. Verlangt man zu viel für zu wenig Gegenleistung, fühlen sich die anderen ausgenutzt und spielen nicht mit. Ein früher Versuch in dieser Richtung war Googles Image Labeler. Er verpackte das Finden von Schlagworten zu Bildern als Spiel – das schnell langweilig wurde. Am besten funktioniert andere arbeiten lassen, wenn die anderen damit gar keine Arbeit haben oder die Arbeit sowieso machen.

Eingabekorrekturen sind ein Beispiel. Wer sich vertippt und seinen Fehler bemerkt, der wird ihn korrigieren. Sind wir nun Google und haben wir einen interaktiven Kanal zu jedem einzelnen Internet-Nutzer, so bekommen wir täglich Millionen, vielleicht sogar Milliarden von Tippfehlern samt den zugehörigen Korrekturen frei Haus geliefert. Mit anderen Worten, Google erhält eine umfangreiche Tippfehler- und Korrekturstatistik über einen beachtlichen Teil der Weltbevölkerung. Der einzelne Fehler, die einzelne Korrektur oder auch das Profil eines einzelnen Nutzers sind dabei belanglos, während die Aggregation dieser Daten fast alles enthält, was man über Tippfehler und und ihre Berichtigungen wissen kann.

Wenn man Google ist, zapft man diese Datenquelle an und baut einen Mechanismus, der von den Nutzern lernt, wie Tippfehler zu korrigieren sind. [Das Teufelchen auf meiner linken Schulter unterbricht mich gerade und schlägt vor, einen Google-Korrektur-Flashmob zu organisieren, der Google einen falschen Korrekturvorschlag für Hommingberger Gepardenforelle antrainiert. Das Engelchen auf der rechten weint leise in einen Facepalm hinein.] Funktioniert so ein Mechanismus einmal, müssen wir uns um keine Rechtschreibreform mehr kümmern. Das übernehmen alles die Nutzer, indem sie sich ganz natürlich verhalten. Das ist etwas vereinfacht, weil Google außerdem auch noch das ganze Web kennt und auch daraus eine Menge über alle möglichen Sprachen lernen kann (freies PDF).

Welche Vervollständigungen für teilweise eingetippte Suchbegriffe in Frage kommen, können wir an Googles Stelle auf ähnliche Weise ermitteln. Wir beginnen mit einer Statistik über die eingegebenen Suchbegriffe und die Texte im Web und bieten Vervollständigungen an. Mit dem Nutzerfeedback – welche Vorschläge werden angeklickt? – verfeinern wir unser Modell. In diesem Fall ist es manchmal nützlich, zum Beispiel den ungefähren Aufenthaltsort des Nutzers genauer zu kennen, wie ihn die IP-Adresse oft verrät.

Von der EU lernen heißt Übersetzen lernen

Wie weit solche Ansätze der automatischen Sprachverarbeitung heute führen können, zeigt uns der Übersetzer Google Translate. Dessen Übersetzungen erfolgen nicht anhand von Regeln, die ein Programmierer vorgegeben hat. Das wäre die Microsoft-Methode für Firmen, die Software in Schachteln packen. Die Google-Methode funktioniert nach demselben Prinzip wie eben erläutert. Aus dem Web bekommt Google laufend Beispiele für Übersetzungen, etwa von der EU mit ihren 23 Arbeitssprachen, in die alle offiziellen Dokumente übersetzt werden. Diese Übersetzungen stammen von Menschen; Google lässt daraus Maschinen lernen.

Weil das alleine noch recht fehleranfällig ist, berücksichtigt Google wieder auch das Feedback von seinen Benutzern. Sie können für die Übersetzung einzelner Wörter oder Wortgruppen zwischen Alternativen wählen, eigene Korrekturen eingeben und die Übersetzung insgesamt bewerten:

Die Korrekturen und Bewertungen liefern Google auch hier eine Statistik zur Optimierung.

Verhaltensforschung ohne Privacy-Problem

Um solche Funktionen und Dienste realisieren zu können, muss Google seine Nutzer ein wenig beobachten. Google benötigt eine Aufzeichnung der Nutzerinteraktion über einen Nutzungskontext hinweg, der sich über eine Folge von Klicks (Nutzersicht) oder HTTP-Requests (Googlesicht) erstreckt. Informationen über den Nutzer als Person sind Google dabei egal, das beobachtete Nutzerverhalten liefert lediglich Datenpunkte für eine Statistik über die gesamte Nutzerpopulation. Google möchte an dieser Stelle nicht wissen, wer wir sind oder wofür wir uns interessieren, sondern welche Verhaltensweisen häufig und welche selten vorkommen.

Unerwünschte Nebenwirkungen, zum Beispiel das Erstellen persönlicher Rechtschreibprofile beim Dienstanbieter, sind nicht per se ausgeschlossen. Sie sind nur uninteressant und lassen sich durch mittlere Sorgfalt im Umgang mit Daten recht zuverlässig vermeiden. Unterwegs besteht noch das Risiko einer Datenverkehrsanalyse, aus der jemand  trotz Verschlüsselung Rückschlüsse auf Eingaben ziehen könnte, aber das ist ein (kleines) inhärentes Risiko des Netzes, dafür kann Google nichts. Sollte so etwas als Angriffsszenario praktisch relevant werden, ließe es sich zudem technisch verhindern.

Google baut also Dienste, die mit implizitem Feedback aus dem statistischen Nutzerverhalten optimiert werden. In der nächsten Folge werden wir noch etwas tiefer in die Welt der lernenden Maschinen eintauchen. Es wird dann darum gehen, wie eine Maschine überhaupt lernen kann. Keine Angst, Formeln gibt es keine.

Social Networks sind Multiplayer-Games

Isotopp schreibt über Gamification und wie sie an Nerds scheitert. Spiele sind so ein Thema, bei dem sich jeder kompetent fühlt, der mal eins gespielt hat. Spiele sind aber nicht einfach zu entwerfen, wie jeder weiß, der mal eins in die Ecke geworfen hat, das zu langweilig oder zu schwer war. Gamification in Anwendungen ist noch komplizierter. Warum Gamification-Ansätze oft hirntot enden, lässt sich erklären. Wer Anwendungen und Spiele verheiratet, muss im Entwurf einen Zielkonflikt zwischen Usability und Verkomplizierung lösen, damit es in der Benutzung nicht zu störenden Konflikten zwischen Anwendungs- und Spielzielen kommt. Beispiele für erfolgreiche Gamifications finden wir in Social Network Sites wie Google und Facebook.

Vor zehn Jahren habe ich mich mal kurz mit diesem Themen beschäftigt und die damals spärliche Literatur für einen Workshop aufbereitet. Damals erhoffte man sich Usability-Wunder davon, dass man Ideen aus Spielen in Anwendungen übernahm. Das Ergebnis naiver Versuche waren Studenten, die sich in ihren Studienarbeiten mit Quake vergnügten – als Teil eines Projekts über digitale Bibliotheken. Manche Leute müssen offenbar erst forschen um zu verstehen, dass eine 3D-Welt aus Bücherregalen als digitaler Bibliothekskatalog etwa so schlau ist wie eine Bildschirmtastatur mit anklickbaren Tasten sowie Papier- und TippEx-Simulation als Texteditor. Dennis Chao hat solche Arbeiten mit seinem Paper Doom as an Interface for Process Management (freies PDF) trefflich ad absurdum geführt. Jetzt also eine neue Runde, Gamification soll diesmal Nutzer anziehen und bei der Stange halten, also eine Persuasive Technology schaffen. Ganz in der Tradition dieses Blogs überlassen wir jedem selbst, ob er das evil finden möchte, und konzentrieren uns auf die Frage, ob und wo es überhaupt funktioniert.

Isotopp beschreibt Beispiele von simpel gestrickten Spielen, die sich schnell beenden lassen, wenn man Ziele außerhalb der Spielregeln verfolgt und die Spielregeln dazu als Werkzeug einsetzt. Er betrachtet diese Spiele als abstrakten Wettbewerbe und abstrakte Herausforderungen und liegt damit richtig. Er führt die Spielkonzepte ad absurdum, indem er durch kreative Regelinterpretation einen schnellen Weg zu einem Endzustand des Spiels geht und damit Ziele außerhalb des Spiels verfolgt. Stützt sich das Spiel auf ein einfaches Regelsystem, ist dieses Vorgehen nur einmal interessant, der Weg danach beliebig wiederholbar, die Herausforderung verloren.

Bessere Spiele stützen sich auf besser entworfene, nachhaltige Herausforderungen. Ego-Shooter im Death-Match-Modus sind ein Beispiel dafür. Sie bieten nachhaltigen Spielspaß, sofern die Maps was taugen und man jede Map nur so lange benutzt, bis die ersten Spieler für jeden Spawn-Point eine Optimierungsstrategie gefunden haben und das Spiel dominieren. Die Fähigkeiten der Mitspieler bestimmen dort das Niveau der Herausforderung, das Spiel selbst bietet eine Plattform dafür.

Andererseits darf das Spiel nicht zu schwer werden, weil dann die Chance auf Gewinne oder Belohnungen zu gering ist und die Motivation verloren geht. Deshalb machen Cheater ebenso wie große Niveauunterschiede der Spieler so ein Spiel kaputt, sie allokieren die Mehrzahl der Belohnungen auf eine Teilmenge der Spieler. Man könnte darauf reagieren, indem man das Belohnungssystem von den Skills der Mitspieler entkoppelt, aber das hätte wieder Auswirkungen auf den Schwierigkeitsgrad insgesamt.

Ein nachhaltig oder zumindest über eine gewisse Zeit funktionierendes Spiel ist also ein kompliziertes System, das sowohl die Motivation des Spielers in einem Zielkorridor halten muss. Ein Spiel darf weder zu leicht noch zu schwer sein. Ein Spiel muss den Spieler regelmäßig belohnen, aber nicht zu oft und nicht beliebig. Schlichteren Gemütern genügt dafür das Gold Farming als Aufgabe, das aber auch nur deshalb, weil sie sich darauf einlassen und sich keine Abkürzung kaufen.

Diese Balance kann man auch in Einweg-Spielen richtig hinbekommen, so dass sie über einen begrenzten, aber längeren Zeitraum funktionieren. Adventures sind ein Beispiel dafür. Hat man sie durchgespielt, sind sie erledigt, aber der Weg dorthin ist so mit Constraints und Aufgaben belegt, dass der Spieler weder frustriert aufgibt noch ohne Schwierigkeiten durchmarschiert.

In die Hose geht Gamification oft, wenn man sie naiv in einer Anwendung versucht, die irgendeinen anderen Zweck als das Spielen hat. In einer Anwendung haben wir andere Ziele, sie sollen irgendwas für ihren Benutzer erledigen und das möglichst einfach. Usability ist nicht nur ein Problem der Benutzeroberfläche, sondern des gesamten Anwendungsentwurfs. Gleichzeitig verlangt Gamification nach Herausforderungen, nach künstlichen Schwierigkeiten. Dieser Zielkonflikt ist selten anders zu lösen als durch eine klare Entscheidung. Antweder bauen wir eine Anwendung oder ein Spiel.

Von dieser Regel gibt es Ausnahmen. Erfolgreiche Gamifizierungen orientieren sich an Egoshootern im Mehrspielermodus. Nicht in den Oberflächenphänomenen allerdings, wie es Second Life mit seiner 3D-Welt relativ erfolglos versucht hat, sondern im Spielkonzept. Erfolgreiche Gamifizierungen lassen Menschen miteinander spielen und stellen mehr oder minder nützliche Funktionen bereit, die man sowohl zum Spielen als auch zum Arbeiten nutzen kann.

Erfolgreiche Gamifications sind beispielsweise Google+ und Facebook, die Ego-Shooter der Gamification mit dem Belohnungssystem eines Swingerclubs. Social Networks bieten Aufgaben und  Herausforderungen (»viele Follower sammeln«, »interessant sein«, »Trollen«, »Meme erfinden«, »in Fotos erkannt werden«) und Belohnungen (Kommentare, Likes, Reshares, neue Follower, Fototags). Parallel dazu stellen sie nützliche Funktionen bereit (interessanten Content und Contentempfehlungen, unkomplizierte Kommunikation, Selbstdarstellung und PR). Welche Spielziele ich mir stecke, überlassen sie mir. Vor allem aber setzen sie mir keine künstlichen Hürden, wie es die Rätsel in einem Adventure tun würden, sondern sie geben mir motivierende Belohnungen als inhärenten Teil meiner Interaktion mit den anderen Spielern. Wir können Facebook und Google+ auch einfach als Anwendungen nutzen, ohne über in diesem Kontext blödsinnige Spielelemente zu stolpern.

Datenkrake Google (2/7): Naive Modelle

[InhaltTeil 1Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Im ersten Teil haben wir gesehen, dass Google häufig missverstanden wird, weil wir Metaphern aus unserer Erfahrungswelt auf Google anwenden und damit alles für erklärt halten. In Wirklichkeit funktionieren solche Metaphern aber nur für einige Oberflächenphänomene.

Google als Datenbank?

Ein vebreitetes Missverständnis betrifft die Sammlung, Speicherung und Verwendung personenbezogener Daten, landläufig als Nutzerprofile bezeichnet. Nutzerprofile kann sich jeder vorstellen, das sind, ganz klar, umfangreiche Datensätze in riesigen Datenbanken:

»Die Profile als solche sollen ja immer anonym sein, das heißt (sofern ich das richtig verstehe), dass das z. B. so aussieht:

  • Profilnummer: 1337
  • Interessen:
    • Urlaubsziele: Toscana, Sizilien
    • Hobbies: Arduino, Lockpicking
    • Essen: Hamburger, Grießbrei

Wenn jetzt jemand Werbung schalten möchte, geht derjenige zu Google und sagt: „Hey, Google, ich will für mein Grießbreiwettessen am Fuße des Ätna Werbung schalten. Bitte zeige also allen Grießbreiessern, die gerne nach Sizilien fahren oder dort wohnen, folgende Werbung:
‚[…]‘.“«

(Kommentar von Steven Koenig alias Kreuvf  auf heise.de)

An diesem Modell orientieren sich unsere Ängste und Befürchtungen. Doch repräsentiert dieses Modell überhaupt die Realität? Es wirkt plausibel für den, der mal eine herkömmliche Datenbank gesehen hat, oder darauf basierende primitive Versuche der Datensammlung durch Abfrage beim Nutzer:

»Wer einen neuen Account im Internet anlegt – egal ob für die E-Mail, ein Webforum oder eine neue Shoppingseite – erlebt stets ein mühsames Prozedere: Zuerst muss man sich einen Nutzernamen und ein Passwort auswählen. Danach wird man über drei Seiten nach Details vom Geburtsdatum bis zu persönlichen Vorlieben befragt und muss die Anmeldung am Schluss per E-Mail absegnen.«

(Zeit Online: Stoppt die Datenkraken!)

Als Missbrauchsszenario stellen wir uns dazu gerne einen schwunghaften Handel mit solchen Datensätzen vor.

Andersdenkende

Google hat sich jedoch das Think Different! von Apple geborgt und tut Dinge gerne auf eine ganz andere Art als der gewöhnliche IT-Spießer. Mit lächerlichem Spielkram wie Datenbanken hält sich Google nicht auf. Der Grund dafür ist nicht etwa, dass Google nach der Weltherrschaft strebt, sondern dass Google die Herrschaft über ein Stück Welt besitzt: über einen riesigen, verteilten Computer, der fast alle. veröffentlichten Informationen zu sehen bekommt. Und damit etwas anfangen soll, trotz des Kauderwelschs aus einigen Hundert Sprachen und Dialekten. Dabei helfen Datenbanken nicht, die brauchen zu viele Menschen, die sich um sie kümmern.

Im oben zitierten Heise-Forum fragt User flare—-*: »Ein Mensch arbeitet, vergnügt sich, informiert sich, macht Unsinn. Wie will google das vernünftig trennen?« Die Antwort auf diese Frage lautet: Das weiß Google selbst nicht so genau. Die Geschichte von Google begann mit einer ähnlichen Frage und derselben Antwort: Wie können wir aus einem schlecht organisierten Haufen unstrukturierter, redundanter, fehlerhafter und mehrsprachigerTextdaten relevante Informationen herausfiltern? Googles Antwort lautete von Beginn an: Indem wir uns nicht um spezifische, ausformulierte Regeln kümmern, wie es etwa die Linguisten tun, sondern den Umgang der Nutzerpopulation mit den Daten statistisch auswerten. PageRank war eine Keimzelle der Google-Philosophie, die darin besteht, einen Computer mit allen möglichen Daten zu füttern und ihn die Antworten auf Fragen selbst finden zu lassen. Google ist ein Computer wie ihn Science-Fiction-Autoren jahrzehntelang beschrieben haben.

Datenschützer werfen Exceptions

Cloud Computing hat deshalb für Google eine Doppelbedeutung. Neben der landläufigen Interpretation als Verlagerung der IT vom Endgerät ins Netz bedeutet Cloud Computing für Google auch Statistik in vieldimensionalen Datenwolken zur Beantwortung von Fragen, kurz: statistische Inferenz und maschinelles Lernen.

Der herkömmliche Datenschutz tut sich schwer mit diesem Ansatz, denn er geht von den primitiven Modellen aus, die wir oben gesehen haben. So etwas wie Google ist in diesen Modellen nicht vorgesehen, und es gibt auch keinen Mechanismus im Datenschutz, der diesen Fehler erkennen und eine Excepton auslösen würde. Also wenden unsere Institutionen wacker die alten Begriffe auf eine neue Technik an. Das ist ungefähr so, als wollte man den heutigen Straßenverkehr mit Gesetzen aus der Ära der Postkutsche regeln. Formal ginge es irgendwie schon, wenn man Autos als pferdelose Wagen und Fahrräder als Drahtesel betrachtete, aber passend wären die Regeln nicht und es käme zu allerlei Absurditäten.

Dementsprechend knirscht es auch im Daten- und Privatsphärenschutz, wenn wir die Tradition mit der Moderne konfrontieren. Schwierigkeiten bereiten zum Beispiel:

  • Die binäre Unterscheidung zwischen personenbezogenen und anderen Daten, die Google bewusst und zweckdienlich vermischt
  • Die formalisierte Einwilligung des Individuums, das für Google eine Datenquelle in einem Kollektiv ist
  • Die Idee der Datensparsamkeit, die bei blinder und konsequenter Anwendung so etwas wie Google gar nicht zuließe, selbst wenn Google inhärent datensparsam wäre
  • Die Vorstellung einer feingranularen Zweckbindung etwa für das Datenfeld IP-Adresse, da solche Datenfelder nur in den Eingabedaten vorkommen

Google hat deswegen gar keine andere Möglichkeit als sich eine Generalklausel unterschreiben zu lassen, wenn Google Google bleiben will, unabhängig davon, ob Google mit unseren Daten gute oder böse Sachen macht.

Im nächsten Teil wird es darum gehen, wie Google aus Netzinhalten und Nutzerdaten nützliche Funktionen baut, ohne Privatsphären zu verletzen.

Datenkrake Google (1/7): Einleitung

[InhaltTeil 1 Teil 2 – Teil 3 – Teil 4 – Teil 5 – Teil 6 (+Nachtrag) – Teil 7]

Google macht ein Riesengeschäft mit unseren Daten. Das stimmt. Google legt dazu gigantische Datenbanken an, aus denen man alles über uns herauslesen kann, und führt sie jetzt auch noch dienstübergreifend zusammen. Das stimmt so wahrscheinlich nicht, die Sache ist komplizierter.

Um Google ranken sich Mythen und Missverständnisse, manche halten Google gar für »eine der am meisten mißverstandenen Firmen auf diesem Planeten«. Diese Missverständnisse gehen oft darauf zurück, dass wir die einzelnen Ausprägungen von Google – Dienste wie die Suche, GMail, Google+ usw. – isoliert mit ihren jeweiligen Konkurrenten identifizieren, statt die Leitideen dahinter zu betrachten.

Repräsentativ für diese Art von Missverständnis ist die Betrachtung von Google+ als »Googles Angriff auf Facebook«, die uns oft Hand in Hand mit Untergangsprognosen begegnet. Dieselben Wahrsager können auch der Integration von Google+ und Google-Suche nichts abgewinnen. Doch im Google-Paradigma betrachtet ergibt alles einen Sinn: Google+ und die Dienstintegration liefert Google Daten genau jener Art, die Google braucht, um noch googliger zu werden. Womit wir wieder bei den Datenbanken wären, die Google nicht führt, weil Datenbanken ein Konzept aus der Welt vor Google sind.

Was also tut Google eigentlich mit unseren Daten? Diese Frage versucht meine Artikelserie zu beantworten. Sie wird aus aus öffentlichen Informationen und einer Portion Informatikerbauchgefühl ein Bild davon skizzieren, was Google (mutmaßlich) mit unseren Daten macht und wieso diese Nutzung nicht per se böse ist. Das soll weder eine Glorifizierung noch eine Verteufelung werden, sondern eine neutrale Darstellung technischer und philosophischer Aspekte sowie einiger daraus folgender Fragen zu unseren aus der Mainframe-und-PC-Ära überlieferten Datenschutzkonzepten. Um konstruktiv über Datenschutz-Fails, Post-Privacy und Spackeria-Positionen diskutieren zu können, brauchen wir korrekte Modelle dessen, worüber wir reden.

Wer eine Stunde Zeit hat, sich mit Googles unkommentierter Sicht der Dinge zu beschäftigen, dem sei der Vortrag »Secrets of Search« von Douglas Merrill empfohlen. Merrill erklärt darin, was Google mit den vielen Daten im Netz und von seinen Nutzern eigentlich tut. Meine Betrachtungen sind zum Teil spekulativ, wo sie über die Aussagen der verlinkten Quellen hinausgehen. Ich habe kein Insiderwissen und kann mich in meinen Schlussfolgerungen irren. Aber aus lückenhafter Dokumentation, beobachteten Verhaltensweisen und Experimenten Rückschlüsse auf die Funktionsweise von Systemen zu ziehen, ist schließlich mein Beruf. Auf technische Details kommt es mir hier nicht an, mir geht es um Funktionsprinzipien und Paradigmen, die Googles Herangehensweise zugrunde liegen.

Inhaltsverzeichnis

  1. Einleitung
  2. Naive Modelle
  3. Statistisches Crowdsourcing
  4. Lernende Maschinen
  5. Daten besiegen die Logik
  6. Und jetzt Werbung (und ein Nachtrag dazu)
  7. Privatsphärenschutz in der Datenwolke

In Folge 2 werden wir landläufige Vorstellungen von Nutzerprofilen betrachten und die Exceptions skizzieren, die der Legacy-Code unseres Datenschutzes bei der Interaktion mit dem Phänomen Google wirft.

Unterschätzte Risiken: Subventionen

If you’re not paying for it, you’re the product. Was uns bezogen auf Facebook eine Selbstverständlichkeit ist, gilt auch woanders. FAZ.NET berichtet über das Zugunglück in Buenos Aires:

»Das Eisenbahnnetz, das für den Transport Tausender Argentinier zwischen der Provinz Buenos Aires und der Hauptstadt Buenos Aires unentbehrlich ist, befindet sich seit Jahren in einem maroden Zustand. Die Linien wurden bisher vom Staat hoch subventioniert. Die Betreibergesellschaften investierten nur wenig in den Erhalt des Fahrzeugparks und noch weniger in die Modernisierung der Wagengarnituren.«

(FAZ.NET: Ungebremst in den Kopfbahnhof)

Wenn eine Eisenbahn vor allem vom Staat finanziert wird und nicht von ihren Fahrgästen, dann hat sie einen starken Anreiz, viele Leute mit wenig Aufwand in ihre Züge zu stopfen. Je mehr sie transportiert, desto leichter tut sich die Politik damit, weiter Geld hineinzustecken, die Wähler freut’s ja, falls sie’s überleben. In Sicherheit zu investieren lohnt sich für so ein Unternehmen nicht, das verursacht nur Kosten, ohne die Einnahmen zu beeinflussen. Hingen die Einnahmen hingegen komplett vom Kundeninteresse ab und böte der Markt diesen Kunden Alternativen, bedeutete ein Unglück für das Unternehmen ein beträchtliches unternehmerisches Risiko, in dessen Vermeidung zu investieren sich lohnte. Die Argentinische Regierung tut deshalb möglicherweise genau das richtige für die Sicherheit, wenn sie die Subventionen zusammenstreicht:

»Sein Nachfolger [Verkehrsstaatssekretär] Schiavi ist im Auftrag der Regierung der Präsidentin Cristina Kirchner damit befasst, die staatlichen Zuschüsse für die Eisenbahnen zu kappen, um die Staatskasse zu entlasten. Das dürfte für die Benutzer der Regionalbahn-Linien eine drastische Erhöhung der extrem günstigen Tarife bedeuten.«

(ebd.)

Märkte sind weder böse noch unheimlich, sie sind ein Instrument.

Betreutes Denken

Mein Kollege Jörn Eichler sucht Studenten, die unter seiner Betreuung ihre Abschlussarbeit zu einem der folgenden Themen schreiben möchten:

  • Modellgetriebene, sichere Konfiguration von Laufzeitumgebungen für elektronischer Prozesse
  • Entwicklung eines Werkzeugs für die Sicherheitsmodellierung elektronischer Prozesse
  • Modellgetriebenes Testen elektronischer Geschäftsprozesse

Rezeptdatenhandel

Wer Gesundheitsdaten missbraucht, will bestimmt Patientenprofile anlegen und damit irgend etwas böses tun. Das scheint plausibel, wenngleich irgend etwas böses selten klar definiert wird, und spielt im Bedrohungsmodell der mühsam im Inkubator am Leben gehaltenen Gesundheitskarte eine zentrale Rolle. Nur halten sich Angreifer nicht an Angreifermodelle:

»Mit den Rezeptdateien, die nicht anonymisiert worden waren, konnten die Unternehmen eventuell nachvollziehen, welche Medikamente von bestimmten Arztpraxen verschrieben wurden. Derartige Informationen würden es ermöglichen, die Arbeit von Außendienstmitarbeitern zu kontrollieren. So könnte man demnach überprüfen, ob Ärzte nach den Besuchen von Vertretern der Pharmaindustrie häufiger bestimmte Medikamente verschreiben.«

(Heise Online: Bericht: Illegaler Handel mit Rezeptdaten)

Warum das verboten ist, spielt keine so große Rolle. Interessanter finde ich die Frage, ob man solche Angriffe im Entwurf unserer Gesundheits-IT berücksichtigt hat. Mehrseitige Sicherheit ist ja kein völlig neues Konzept.

Das Personalchefargument

Kommentarrecycling (dort im Spamfilter hängengeblieben):

Aus Diskussionen über öffentliche persönliche Informationen ist der googelnde Personalchef kaum wegzudenken. Gestritten wird dann darüber, was er denn nun sehen oder nicht sehen soll, damit dem Verkäufer eigener Arbeitskraft nichts schlimmes passiere. Gerne malt man sich phantasievoll die möglichen Folgen verstaubter Partyfotos aus, das gehört zu den Standards solcher Diskussionen. Doch es gibt ein grundlegendes Problem mit dem googelnden Personalchef: das Personalchefargument ist falsch, weil es von falschen Voraussetzungen ausgeht. Auf die Feinheit, ob der Personalchef nun etwas finden soll oder lieber nicht, kommt es dabei nicht an. Im Gegenteil, die Beliebigkeit in diesem Aspekt deutet auf ein grundlegendes Problem in den Axiomen hin. Wer mit einem falschen Satz von Axiomen anfängt, kann damit bekanntlich alles und das Gegenteil begründen.

Das Personalchefargument unterstellt als – regelmäßig unausgesprochene – Voraussetzung ein Unterwerfungsverhältnis zwischen Unternehmen („Arbeitgebern“) und für sie Arbeitenden („Arbeitnehmern“). Der Arbeitnehmer habe sich dem Arbeitgeber wohlgefällig zu verhalten, folgt daraus. In dieser Einseitigkeit ist das Modell falsch. In Wirklichkeit gibt es einen Arbeitsmarkt. Wie jeder andere Markt führt der Arbeitsmarkt führt der Arbeitsmarkt Parteien zusammen, die jeweils ihre eigenen Interessen verfolgen, und lässt sie Geschäfte zum beiderseitigen Nutzen machen. Dabei muss jeder dem anderen entgegenkommen, um seinen angestrebten Nutzen zu realisieren. Ich muss Zeit opfern, um Geld zu verdienen; eine Firma muss Geld opfern, um meine Zeit und meine Fähigkeiten zu bekommen. In der Ökonomie drückt man alles in Geld aus; im richtigen Leben spielen Faktoren wie das Betriebsklima auch ohne explizite Umrechnung eine Rolle.

In einem idealen Markt gibt es keine Ungleichgewichte, keine Seite kann den Markt über ihre Teilnahme hinaus zugunsten der eigenen Interessen beeinflussen. In der Realität greift man zuweilen regulierend ein, wo sich ein Markt zu weit von diesem Ideal entfernt. Regulierende Eingriffe können auch deshalb nötig sein, weil einige der theoretischen Eigenschaften idealer Märkte gar nicht realisierbar sind, zum Beispiel unendlich viele Teilnehmer auf beiden Seiten.

Das Personalchefargument ignoriert die Gegenseitigkeit des marktwirtschaftlichen Austauschs. Es postuliert Verhaltensregeln für Arbeitende, aber keine für Unternehmen, als gäbe es ein Kartell der Arbeitgeber. In Wirklichkeit muss aber jede Seite der anderen entgegenkommen, sonst finden keine Geschäfte statt, und was in einer Paarung von Marktteilnehmern nicht funktioniert, kann in einer anderen zum guten Geschäft werden.

Es mag also durchaus vorkommen, dass Personalchefs Saufbilder aus dem Internet in ihren Entscheidungen berücksichtigen. So wie es auch vorkommt, dass Firmen ihre Entscheidungen auf Horoskope oder graphologische Gutachten stützen. Das bedeutet dann aber nicht, dass jemand keine Arbeit findet, sondern lediglich, dass in einer bestimmten Konstellation kein Geschäft zustandekommt. Sind die Gründe dafür irrational, so ist das sogar zum Schaden des irrational Handelnden.

Eine Voraussetzung für einen gut funktionierenden Markt ist übrigens Transparenz: jeder Teilnehmer soll alle für rationale Entscheidungen relevanten Preise und Qualitätsmerkmale kennen. Die richtige Schlussfolgerung aus dem Personalchefargument ist deshalb nicht, dass jeder Arbeitende sein Online-Image zu polieren habe, sondern dass neben unseren Saufbildern auch die Dreckecken der Unternehmen ins Netz gestellt gehören. Wenn ich mich bei einem Unternehmen bewerbe, bewirbt sich gleichzeitig das Unternehmen bei mir. Da möchte ich schon etwas über seine Vergangenheit erfahren, und die Sommerfeste und Weihnachtsfeiern sind dabei minder relevant.

Flawed Security Economics

I just stumbled upon a piece of economics-of-security reasoning that amazes me:

»Bank robbers steal approximately $100 million per year in the US. (…) To prevent this, banks spend $600 million per year on armored car services and $25 million per year on vault doors. The FBI spends $50 million per year investigating robberies. A good deal more is spent on security guards—approximately 1 million in the US, paid about $24 billion per year (outsourcing makes it difficult to say how many work for banks). In summary, the cost of protecting against bank robberies far exceeds the loss.«

(Michael Lesk, Cybersecurity and Economics, IEEE S&P Nov./Dec. 2011)

I don’t doubt the figures, but the conclusion does not make sense to me. Why should one put the cost of security measures in relation to the losses that they don’t prevent? The $100 million per year are the losses that remain after security. What the security investment prevents is the losses that would occur without it, not the losses that continue to occur despite the effort. I’d love to see an estimation of this quantity. The author even gives a hint towards the possible magnitude, as he continues:

»To look at a less safe society, in a single 2007 bank robbery in Baghdad, robbers made off with $280 million (it was an inside job).«

Perhaps it is even normal for the cost of security to exceed the losses that remain, once the security spending has been optimized?

Using an Inappropriate Classifier As a Security Mechanism

Zed Shaw has a story to tell about ACLs (Access Control Lists) as a common security mechanism and how they are incapable of modeling actual regulatory requirements:

http://vimeo.com/2723800
(Vimeo: The ACL is Dead)

It’s not really a talk about ACLs, it’s really about how companies work and how to survive and stay sane inside enterprises. I’ll focus here, however, on the technical issue that he uses as a hook.

He poses the technical problem as »ACLs not being Turing-complete«. According to my favorite abstraction of security mechanisms, the classifier model, ACL access control schemes are a type of classifier that does not fit the problem. All security mechanisms distinguish deny from allow, just in different sets of entities and with different boundaries between the two subsets. A low complexity classifier can handle only subsets with a simple boundary between them—most entities have only neighbors of the same class, and those near the boundary have other-class neighbors only in one direction—whereas a complex classifier can model more complex class distinctions. The most complex classification would be a random assignment of classes to entities.

Two things (at least) affect the complexity that a classifier can handle: classifier design and feature extraction. Classifier design defines the boundaries that a classifier can model. Feature extraction defines the parameters or dimensions available to the classifier, the degree of abstraction with which the classifier sees the world. Authentication for instance has a high degree of abstraction, it can distinguish entities but nothing else. Access control is richer in the parameters it uses, including besides the identity of entitites also properties of objects and actions. Yet, as the talk illustrates, these dimensions are not sufficient to properly express regulatory requirements. Whether this is a problem of the mechanism or a problem of the requirements I leave for the reader to ponder.

The Point of Penetration Testing

I’m glad to see that the community starts to acknowledge what penetration testing really means. We never encountered the empty hands issue as we never sold the let’s-see-if-we-can-hack-it kind of a penetration test. We carry out vulnerability assessments based on whichever information we can get about a system or product, the more the better, and use testing as a means of getting more, or clarifying information. The point of a penetration test is not to find and demonstrate one or a handful of arbitrary attacks, the point of a penetraion test is to identify vulnerabilities that need attention. Sure, it is fun to give an uberhacker demo after the test, and we do that, too, if we’ve found gaping security holes. But more important in a penetration test is good coverage of the potential vulnerabilities, and a sound assessment of their importance, relative to the purpose and risk profile of a system. I even remember pentesting projects where we found only a few relatively minor issues in a low-risk website – and made our clients happy by telling them just that. There is really no need to be disappointed if a penetration test ends without a root shell. There is no point in withholding information from testers, reducing their efficiency. And there is no point in testing just the infrastructure but not the applications.

Risikoanalyse für Gauner

FAZ.NET präsentiert in einer Galerie von Infografiken dieses schöne Stück, das die Aufklärungsquoten verschiedener Verbrechens- und Vergehensarten zeigt und ordnet. Demnach werden Geldfälscher, Geiselnehmer und Autohehler fast immer gefasst, Autoknacker sowie Auto- und Taschendiebe hingegen fast nie. Zur Berufsberatung für legalitätsflexible Arbeitssuchende fehlen jetzt noch analoge Aufstellungen der mittleren Gewinne pro Tat sowie der mittleren Strafe, falls man erwischt wird. Mit diesen Angaben könnten wir ausrechnen, welche Verbrechen sich lohnen. Falls jemand Zahlen hat oder Leute kennt, die Zahlen haben, her damit.

Identitätsmanagement für Dummies

Vergesst CardSpace, vergesst OpenID, vergesst den elektronischen Personalausweis. Den Identitäts- und Passwortmanager, auf den wir gewartet haben, gibt es in der Buchhandlung. Er läuft ohne Installation, out of the box, ja sogar ohne Strom, und hört auf den Namen Mein persönlicher Internet- und Passwort-Organizer:

Zuverlässig speichert er alle Benutzeraccounts alphabetisch sortiert für den schnellen Zugriff.

Bankdaten einschließlich des Passworts fürs Online-Banking können in einem eigenen Bereich abgelegt werden.

Eine Bedienungsanleitung erübrigt sich, dennoch ist eine Online-Hilfe mit Sicherheitshinweisen integriert.

Der Preis? Sagenhafte 7,99€. Ich habe mein Exemplar bei Hugendubel entdeckt und gekauft, bei Amazon gibt es ihn auch.

Expertentipps

FAZ.NET watscht die Dauernuckelfraktion und ihre Ratgeber ab: man möge doch einfach auf seinen Durst hören statt auf die Trinkmengenempfehlungen von Trinkmengenexperten. Solche Emfehlungen hätten keine wissenschaftliche Grundlage, übertriebener Trinkeifer könne sogar schaden.

So weit, so gut. Was die Autorin freilich unterschlägt, ist die Rolle der Medien in diesem Spiel. Es mag ja sein, dass die Mineralwasserabfüller zu schwarzer PR greifen, um mehr Wasser in Flaschen abzusetzen. Auch die beste PR braucht aber jemanden, der die Botschaft weiterträgt. Das tun Medien nur zu gerne und nennen es Service, praktische Lebenshilfe mit einfachen Empfehlungen auf berufenem Munde.

Servicethemen muss man kaum einem Medium aufdrängen, sie suchen selbständig danach, nicht nur in Serviceformaten, sondern praktisch immer, wenn sie einen Experten für irgend etwas vors Mikrofon bekommen. Der Experte darf gerne eine Weile erklären und einschätzen und abwägen, aber am Ende soll er dem Publikum bitteschön konkrete Tipps geben: Wie oft soll ich meine Unterhose wechseln? Womit kann ich mich vor Regen schützen? Wann kommt der Weihnachtsmann und biete ich ihm Kaffee an? Aber bitte ganz einfach, wir wollen das Publikum ja nicht überfordern.

So kommt es, dass die Medien voll sind von Expertentipps. Zeckenexperten geben Zeckenalarm und empfehlen Zeckenschutzzimpfungen, Fahrradhelmexperten empfehlen Styropor auf dem Kopf, IT-Sicherheitsexperten empfehlen Virenscanner und unrealistisch (und oft unnötig) komplizierte Passworte.

Das ist nicht nur eine Einladung an jeden PR-Arbeiter, seinen Mineralwasserexperten dort einzureihen, sondern auch ein Problem für echte Experten. Gewiss, ein paar einfache Tipps sind leicht formuliert. Nützlich und seriös werden sie aber erst, wenn sie auch eine nennenswerte Wirkung versprechen. Das tun einfache Tipps für komplizierte Probleme aber kaum. Ich kann niemandem in drei einfachen Tipps erklären, wie er Unfälle vermeidet, seine IT-Sicherheit erhält oder länger lebt.

Anders herum ausgedrückt, alle einfachen und verständlichen Tipps, die ich geben kann, werden in der Zielgruppe ohne messbare Wirkung bleiben. Mit einer Ausnahme. Wer dem Rat der Experten folgend etwas getan und vorgesorgt hat, fühlt sich besser, ganz gleich, was es wirklich bringt. Das ist der Service.

Unterschätzte Risiken: Politik

Wenn’s eine Privatbank wäre, könnten wir jetzt über die gierigen Spekulanten herziehen:

»Die EZB ist momentan mit dem 23-fachen ihres Eigenkapitals nahezu so gehebelt wie Lehman Brothers in den dunkelsten Zeiten (damals das 30-fache). (…) Die EZB hat aber nur 82 Mrd. Euro Eigenkapital und knapp 1900 Mrd. Euro Papiere auf ihrer Bilanz. Sie unterliegt keiner Aufsicht führenden Behörde.«

(Welt Online:
Euro-Zone: Griechen-Anleihen sind ein Fiasko für die EZB)

Ist aber keine, sondern das, was herauskommt, wenn wir nicht auf unsere Politiker aufpassen.

Greenpeace-Logik

Es gibt Menschen und Organisationen, für die sind beherrschbare Unfälle der größte anzunehmende Unfall:

»Sollte Tepco die Lage in Fukushima unter Kontrolle bekommen, könnte der falsche Eindruck entstehen, selbst schwere Atomunfälle seien vom Menschen beherrschbar.«

(Tagesspiegel: Fukushima: Kampf mit den Elementen)

Die träumen wohl weiter vom zweiten Tschernobyl. Gut, dass wir das endlich mal empirisch klären.