Nachdem der Haushaltsausschuss des Bundestages für die Entwicklung der auf Algorithmen basierenden Lösung 6,3 Millionen Euro bewilligt hatte, erteilte die Bundesbehörde für die Unterlagen des Staatssicherheitsdienstes der ehemaligen DDR nun den Auftrag für das Pilotprojekt. Insgesamt müssen 600 Millionen Schnipsel aus über 16 000 Säcken zusammengesetzt werden.
Methodisch hat sich das Berliner Fraunhofer-Institut an Bildverarbeitungssystemen orientiert. Proprietäre Software erwies sich jedoch für das Mammutprojekt als nicht brauchbar. In einem ersten Verfahrensschritt werden die Papierfetzen beidseitig digitalisiert. Dazu steckt man sie in Folien, damit sie auf Transportbändern befördert werden können. Diesen Scanprozess mit einem Hochleistungsscanner übernimmt die zu Bertelsmann gehörende Arvato Direct Services. Das Gerät hat einen Durchsatz von mehreren tausend Schnipseln pro Stunde.
Eine spezielle Puzzlesoftware kombiniert zerrissene Stasi-Dokumente: Das System berechnet Merkmale wie Textur und Form – das reduziert den Suchraum. Dann beginnt in der verkleinerten Menge der virtuelle Puzzleprozess. Foto: Fraunhofer/Cao/Kandke
„Das virtuelle Puzzeln folgt der Logik des manuellen Puzzelns“, sagt Bertram Nickolay, Abteilungsleiter am IPK für Sicherheitstechnik. Mensch wie Maschine entscheiden in einer Vorauswahl anhand von Merkmalen wie Form, Farbe und Schrift, ob zwei Teile zueinander passen. „Das System berechnet verschiedene beschreibende Merkmale wie Form oder Textur, um den Suchraum zu reduzieren. Innerhalb dieser kleineren Menge erfolgt die eigentliche Rekonstruktion“, erklärt er. Dafür werden Schnipsel entlang ihrer Konturen auf Übereinstimmungen hin verglichen. Für jedes Merkmal gibt es einen eigenen Algorithmus. Selbst Stempel werden mittels einer solchen Berechnungsvorschrift erkannt. Eine exakte Erkennung von Schrifttypen, wie sie die Kriminalpolizei zur Identifizierung einzelner Schreibmaschinen einsetzt, ist jedoch nicht möglich. „Das würde unsere Rechenkapazität überfordern und zu lange dauern. Die Schnipsel sollen in wenigen Sekunden zugeordnet werden können“ , sagt IPK-Projektleiter Jan Schneider. Sind passende Teile gefunden, werden sie zu einem größeren Dokument zusammengefasst. Etwa 80 bis 90 Prozent der Bruchstücke lassen sich auf diese Weise maschinell zusammenfügen, der Rest muss manuell am Bildschirm nachbearbeitet werden.


