Schlagwort-Archive: Modell

Kreative Wissenschaft

Die Wissenschaften ergründen und beschreiben die Realität. Anders die Informatik: Sie schafft Realität. Computer und Programme sind Menschenwerk. Auch Menschenwerk kann man wissenschaftlich untersuchen – Historiker, Religionswissenschaftler und so weiter tun nicht anderes. Der objektive Blick auf eine selbst bearbeitete Realität fällt allerdings schwer, nicht nur Einzelnen, auch ganzen Gruppen. Wo hört die berechtigte gemeinsame Weltsicht auf, fängt die kollektive Täuschung an?

In der Theorie sind Theorie und Praxis gleich. In der Praxis sind sie es nicht. Einen Beleg liefert das Paper UML in Practice (DOI: 10.1109/ICSE.2013.6606618) von Marian Petre. Sie befragte 50 Softwareentwickler nach ihrer Nutzung der Unified Modeling Language (UML). Aus der wissenschaftlichen Literatur ist UML nicht wegzudenken. Sowohl die grafischen Notationen als auch die zugrundeliegenden formalen Modelle und Metamodelle werden für alles mögliche verwendet und sind auch selbst Untersuchungsgegenstand.

Von den 50 befragten Praktikern jedoch gaben 35 an, UML überhaupt nicht zu nutzen. Weitere 11 setzen (Teile von) UML zwar ein, jedoch informell als Kreativitäts-, Diskussions- und Kommunikationswerkzeug. Für die formalen Modelle unter der Haube interessiert sich diese Gruppe herzlich wenig und sie hält sich auch nicht daran. Statt im Metamodell Profile und Erweiterungen zu definieren, passen Praktiker die Modellierungssprache ad hoc ihren Bedürfnissen an.

Theoretikern gefällt UML, weil man darüber so viel schreiben und die praktische Bedeutung einfach unterstellen kann. Praktiker brauchen Tools, die ihnen objektiv bei der Arbeit helfen und lassen alles andere liegen.

Sicherheitsmetrik

Wir IT-Akademiker forschen gerne an Fragen herum, die einen vagen Relitätsbezug haben, die man aber in der Praxis pragmatisch handhabt. Nach ein paar Jahren haben wir die Lösungen der Pragmatiker formal dokumentiert und wissenschaftlich nachgewiesen, was die Kollegen immer schon wussten, nämlich dass das so tatsächlich funktioniert.

Sicherheitsmetriken sind ein Beispiel dafür: als Forschungsthema sehr dankbar, weil man sich immer neue Varianten ausdenken und sie akribisch untersuchen kann. Dummerweise verliert der Wissenschaftler dabei oft die Anforderungen der Praxis aus dem Auge und misst deshalb irgend etwas, weil es gerade messbar ist und ihm ins Modell passt, statt von einem Entscheidungsbedarf auszugehen und nach geeigneten Grundlagen zu suchen. Der Pragmatiker macht es umgekehrt:

»Neben anderen Integritätstests hatte wir in diesen Scripten in der Regel auch eine Prüfung drin, die festgestellt hat, wie sehr sich die Anzahl der Datensätze im Vergleich zum vorhergehenden Run geändert hatte. Wenn die Fluktuation bei mehr als 10% lag, hat das Script die Datei NEBEN der alten Datei installiert, aber nicht live geschaltet, sondern eine Mail an die Admins geschickt, damit die sich das Ding mal ansehen und es manuell live nehmen. Das hat uns mehr als einmal den Hintern gerettet.«

(Die wunderbare Welt von Isotopp: DENIC erklärt sich)

Die zehn Prozent sind  formal betrachtet völlig willkürlich gewählt, tatsächlich aber wohl ein Erfahrungswert, der sich aus informellen Beobachtungen typischer Vorgänge ergibt. So etwas würde ein Wissenschaftler nie zulassen.

57 Cent

Schön, dass wir das endlich empirisch geklärt haben. Siebenundfünfzig Cent kostet also ein Personendatensatz mit Bankverbindung.

»Die Bankdaten von rund 21 Millionen Menschen wurden Journalisten offenbar für knapp zwölf Millionen Euro angeboten.« (Welt Online)

Was folgt daraus? Als Wissenschaftler müssen wir uns das in Ruhe überlegen und dann auch noch prüfen, ob unsere Ideen richtig sind. Einige Überlegungen drängen sich auf:

  1. Technischer Datenschutz lohnt sich nur dort, wo viele Datensätze gemeinsam vorliegen oder weitaus detailliertere Informationen gespeichert sind.
  2. Wer mit  seinen Basisdaten – Name, Adresse, Telefonnummer, Geburtsdatum, Bankverbindung – so sorglos umgeht, wie wir das immer schon getan haben, liegt damit vollkommen richtig. Dass sich daran jemand 57 Cent verdient, können wir hinnehmen.
  3. Aber (2) ist nur die halbe Wahrheit. Der Schaden des Opfers muss nicht proportional sein zum Gewinn des Angreifers. Über die Schäden wissen wir zu wenig.
  4. Das macht aber nichts, denn (2) begrenzt den Aufwand für Gegenmaßnahmen: wir müssen den Aufwand pro Datensatz nur um höchstens 60 Cent (praktisch wohl weniger) erhöhen, dann lohnt sich die Sache nicht mehr.
  5. Oder die Daten werden dann um 60 Cent teurer und sonst ändert sich nichts.
  6. Aus dem Preis eines einzelnen Datensatzes oder der gesamten Sammlung können wir nicht schließen, wann sich die Nutzung der Daten lohnt. Dazu müssten wir wissen, was damit angestellt wird und welchen Gewinn es verspricht.
  7. Die Umrechnung des Preises auf einzelne Datensätze muss nicht sinnvoll sein. Vielleicht liegt der Wert gerade in der Sammlung.

Und nun? Nun sind wir auch nicht schlauer als vorher. Kennt jemand ein Modell, mit dem wir einschätzen können, wie schlimm so ein Datenhandel ist und unter welchen Umständen er sich für wen lohnt?

Ergänzung 2009-01-19: Datendealer kommen mit einer kleinen Geldstrafe davon.