Please enable JavaScript.
Coggle requires JavaScript to display documents.
Übung 4 - Robuste Hashverfahren für Text
Entwerft ein einfaches System…
Übung 4 - Robuste Hashverfahren für Text Entwerft ein einfaches System, mit dem man einen robusten Hash eines Textes erstellen kann. Der Text soll dabei nicht als Bild interpretiert werden
- Wie berechnet sich der Hash?
- Wie ist das Größenverhätlnis zwischen Text und Hash?
- Wie robust ist der Hash gegen Veränderung?
Word > Bit
Das Ergebnis ist der Hash, welcher somit die eine Länger gleich der Wörter des Textes hat
-
Robusteheit gegen Veränderung ist hoch, da die UNterteilung in einzelne Blöcke Änderungen des Textes toleriert, da dennoch Treffer gefunden werden können
-
N-gramme > Hash
-
-
Robuste N-Gramme
Buchstabe-7-Gramme ohne Überschneidung, ein parity bit pro ASCII-Zeichen
-
-
-
Satz > Bit
-
-
- extrahiere jeden einzelnen Satz des Buches. Behalte die Reihenfolge bei
- zähle in jedem Satz die Anzahl von Wörtern
- bilde die Anzahl von Wörtern pro Satz auf einem Bit ab. Verwende dazu ein Hashverfahren und betrachte zum Beispiel immer das Least Significant Bit
-
Zum Vergleich zweier Hashes sucht man nach identischen Bitfolgen in zwei Hashes. Alternativ Hamming Distanz
Man muss einen Threshold definieren, ab dem man zwei Texte als identisch anerkennt
Angriffe überstehen
Rechtschreibfehler, Ersetzung einzelner Wörter, Löscung einzelner Sätze
-
-
Text > Hash
Simhash
berechner aus ähnlichen Texten, ähnliche Hashwerte
-
-