Archiv der Kategorie: Archivierung

Strategischer Datenverlust

Ob das eine großer Vertuschung ist oder nur eine aufgeblasene Nebensächlichkeit, möchte ich nicht beurteilen, ebenso wenig ob es sich um Schlamperei oder Absicht handelt:

»The world’s source for global temperature record admits it’s lost or destroyed all the original data that would allow a third party to construct a global temperature record. The destruction (or loss) of the data comes at a convenient time for the Climatic Research Unit (CRU) in East Anglia – permitting it to snub FoIA requests to see the data.«

(The Register: Global Warming ate my data)

Eine interessante Anregung zum Risikomanagement ist es allemal. Vielleicht ist der erwartete Schaden ja geringer, wenn die Daten einfach weg sind.

Archive können täuschen

Und gleich noch ein Eintrag zum Thema Datenforensik. Im RISKS Digest vom 7. Januar 2008 (Volume 25, Issue 1) weist Fred Cohen auf die geringe Beweiskraft von HTML-Archiven hin. Konkret geht es um archive.org, auch bekannt als WayBack Machine. Das ist ein Dienst, der ab und zu Schnappschüsse von Seiten im Web nimmt und sie archiviert. Seine Nutzer können so einen Blick zurück in die Vergangenheit des Web werfen. Seiten in diesem Archiv kann Cohen nachweislich manipulieren. Seine Demonstration ist überzeugend: in einer archivierten Seite aus dem Jahr 1997 lässt er eine Grafik erscheinen, die damals noch ungeschehene Ereignisse wie 9/11 und Al Gores Nobelpreis nennt.

Der Trick ist so simpel, dass er gar keiner ist. Archiviert ist nämlich nur der HTML-Quelltext von damals. Enthält er Bildreferenzen, so zeigen diese nach wie vor auf die ursprüngliche Adresse. Jedoch garantiert nichts und niemand, dass dort noch dasselbe Bild liegt oder derselbe Server steht. Beim Anzeigen der archivierten Seite aber wird sich der Webbrowser nicht um solche Erwägungen kümmern, sondern die Referenz einfach verwenden und versuchen, von dort ein Bild zu laden. Hat er Erfolg, so zeigt er es auch an. Falls man statt eines Bildes JavaScript-Code in die archivierte Seite injizieren kann, was unter diesen Voraussetzungen nicht allzu schwer ist, dann hat man sogar den kompletten Inhalt unter Kontrolle.

Die Aussage des Archivs hängt also davon ab, unter welchen Randbedingungen man es auswertet. Einfach hinzuschauen genügt nicht. Man wird statt dessen sehr sorgfältig prüfen müssen, auf welche anderen Daten der archivierte HTML-Code verweist, welchen Einfluss diese Daten auf die Präsentation und damit den sinnlich wahrnehmbaren Seiteninhalt haben, und inwieweit sich aus dem archivierten Material eine aussagekräftige Ansicht rekonstruieren lässt. Im schlimmsten Fall, so ein Beispiel lässt sich konstruieren, genügt eine einzelne ungesicherte Referenz, das ganze archivierte Material für Beweiszwecke wertlos zu machen. Juristen dürfte das, je nach Rolle bzw. Mandat, entweder freuen oder ärgern.

Das Problem ist nicht neu, wir kennen es als das Präsentationsproblem von den digitalen Signaturen. Es betrifft viele moderne Datenformate, deren Interpretation von Randbedingungen abhängt.