String-Ähnlichkeits-Rechner

Berechnen Sie die Levenshtein-Bearbeitungsdistanz und den Ähnlichkeitsprozentsatz zwischen zwei Zeichenketten. Ermitteln Sie die minimalen Bearbeitungen (Einfügungen, Löschungen, Ersetzungen), die erforderlich sind, um eine Zeichenkette in eine andere umzuwandeln.

String A

6 chars

String B

7 chars

Similarity Result

Edit Distance

operations

Similarity

57.14%

Partly similar

Character Diff

insertdeletesubstituteunchanged

sitting

1 insertions2 substitutions

So verwenden Sie String-Ähnlichkeits-Rechner

1Geben Sie zwei Zeichenketten zum Vergleichen in die Eingabefelder ein.
2Betrachten Sie die Levenshtein-Bearbeitungsdistanz und den Ähnlichkeitsprozentsatz.
3Betrachten Sie die Diff auf Zeichenebene und die Liste der Operationen (einfügen, löschen, ersetzen).

ZenovayAnalytics

Analytics, für Gründer gebaut.

Besucher-Tracking in Echtzeit
Datenschutz zuerst, kein Cookie-Banner
In zwei Minuten eingerichtet

Zenovay entdecken

Häufig gestellte Fragen

Was ist die Levenshtein-Distanz?▾

Die Levenshtein-Distanz (Bearbeitungsdistanz) ist die Mindestanzahl von Einzelzeichen-Bearbeitungen, die benötigt werden, um eine Zeichenkette in eine andere umzuwandeln. Die drei erlaubten Operationen sind: Einfügung (Zeichen hinzufügen), Löschung (Zeichen entfernen), Substitution (ein Zeichen durch ein anderes ersetzen). Beispiel: "Katze" in "Tatze" erfordert 1 Operation: K in T. Benannt nach Vladimir Levenshtein, der diesen Algorithmus 1965 beschrieb. Anwendungen: Rechtschreibprüfung, DNA-Sequenzausrichtung, NLP, unscharfes Zeichenkettenabgleich.

Wie wird der Ähnlichkeitsprozentsatz berechnet?▾

Ähnlichkeit % = (1 - Bearbeitungsdistanz / max(Länge1, Länge2)) x 100. Dies normalisiert die Distanz relativ zur längsten Zeichenkette. Beispiel: Distanz = 2, maximale Länge = 8 ergibt Ähnlichkeit = (1 - 2/8) x 100 = 75 %. Eine Distanz von 0 bedeutet identische Zeichenketten (100 % ähnlich). Andere Ähnlichkeitsmetriken umfassen Jaro-Winkler und Kosinus-Ähnlichkeit.

Was ist die Damerau-Levenshtein-Distanz?▾

Damerau-Levenshtein erweitert Levenshtein durch eine vierte Operation: Transposition (Tauschen zweier benachbarter Zeichen). Beispiel: "ab" und "ba" hat Levenshtein-Distanz 2 (löschen + einfügen), aber Damerau-Levenshtein-Distanz 1 (eine Transposition). Dies ist wichtig für Rechtschreibprüfung, da viele Tippfehler Transpositionen sind ("teh" statt "the"). Dieses Tool verwendet Standard-Levenshtein (ohne Transpositionen).

Was sind häufige Anwendungsgebiete der Bearbeitungsdistanz?▾

Rechtschreibprüfung: Wörter mit geringer Bearbeitungsdistanz zum falsch geschriebenen Wort vorschlagen. DNA-Sequenzierung: Nukleotidsequenzen ausrichten, um Mutationen zu finden. Versionsverwaltung: git diff verwendet Bearbeitungsdistanz-Algorithmen für zeilenweise Aenderungen. Betrugserkennungg: Namensvariationen erkennen (Tippoquatting, Identitätsbetrug). Record-Linkage: Datensätze aus verschiedenen Datenbanken zusammenführen, wenn Namen/Adressen leicht variieren.

Wie funktioniert der Wagner-Fischer-Algorithmus?▾

Der Wagner-Fischer-Algorithmus berechnet die Levenshtein-Distanz mit dynamischer Programmierung mit Zeitkomplexität O(m x n) und Raumkomplexität O(m x n), wobei m und n die Zeichenkettenlängen sind. Er baut eine Matrix auf, bei der Zelle [i][j] = Bearbeitungsdistanz zwischen den ersten i Zeichen von Zeichenkette 1 und den ersten j Zeichen von Zeichenkette 2. Der Raum kann auf O(min(m,n)) mit zwei Zeilen optimiert werden.

Bild-Tools