Calculatrice de similarité de chaîne

Calculez la distance d'édition de Levenshtein et le pourcentage de similarité entre deux chaînes. Trouvez les modifications minimales (insertions, suppressions, substitutions) nécessaires pour transformer une chaîne en une autre.

6 chars

7 chars

Similarity Result

Edit Distance

3

operations

Similarity

57.14%

Partly similar

Character Diff

insertdeletesubstituteunchanged

sitting
1 insertions2 substitutions

Comment utiliser Calculatrice de similarité de chaîne

  1. 1Entrez deux chaînes à comparer dans les champs d'entrée.
  2. 2Affichez la distance d'édition de Levenshtein et le pourcentage de similarité.
  3. 3Consultez la comparaison au niveau des caractères et la liste des opérations (insérer, supprimer, remplacer).
ZenovayAnalytics

Analytics pensé pour les fondateurs.

  • Suivi des visiteurs en temps réel
  • Vie privée d'abord, sans bandeau cookies
  • Installé en deux minutes
Découvrir Zenovay

Questions fréquemment posées

Qu'est-ce que la distance de Levenshtein ?
La distance de Levenshtein (distance d'édition) mesure le nombre minimum d'opérations de caractère à un seul caractère (insertions, suppressions, substitutions) nécessaires pour transformer une chaîne en une autre. « chaton » → « assis » : 3 substitutions, 1 insertion = distance 5. Un algorithme de programmation dynamique O(m×n) calcule cela efficacement. Utilisé dans les correcteurs orthographiques, la correction de fautes de frappe, les outils de diff et les systèmes de contrôle de version.
Qu'est-ce que la similarité de Jaccard ?
La similarité de Jaccard mesure le chevauchement entre deux ensembles : |A ∩ B| / |A ∪ B|. Pour les chaînes, les ensembles sont généralement des n-grammes de caractères (bigrammes, trigrammes). « chat » et « chas » partagent le bigramme « ch » et « ha », donc similarité = 2 / (bigrammes uniques dans les deux). Varie de 0 (aucun chevauchement) à 1 (identique). Moins sensible aux transpositions que la distance de Levenshtein.
Qu'est-ce que la similarité cosinus pour les chaînes ?
La similarité cosinus traite les chaînes comme des vecteurs dans l'espace des termes et mesure le cosinus de l'angle entre eux. Pour les chaînes, les vecteurs sont généralement des fréquences de caractères ou de mots. cos(θ) = (A·B) / (|A| × |B|). Varie de 0 (aucun chevauchement) à 1 (identique). Fonctionne bien pour comparer des documents ou des paragraphes où l'ordre des mots n'a pas d'importance.
Quelle métrique de similarité devrais-je utiliser ?
Distance de Levenshtein : meilleure pour la correction orthographique, la correspondance floue, les fautes de frappe. Similarité de Jaccard : meilleure pour les ensembles (balises, mots-clés), insensible à l'ordre. Similarité cosinus : meilleure pour les documents, le contenu de paragraphe. Distance de Hamming : uniquement pour les chaînes de même longueur (codes binaires, DNA). Correspondance de Jaro-Winkler : excellente pour les noms de personnes, les chaînes courtes. La plupart des outils de tri flou combinent plusieurs métriques.
Comment la similarité de chaînes est-elle utilisée dans la pratique ?
Correcteurs orthographiques (« Vouliez-vous dire... ? »). Déduplication de bases de données (trouver des enregistrements similaires). Détection du plagiat. Correspondance de noms (jointures floues dans les bases de données). Systèmes de recommandation (similitude de contenu). Contrôle de version (algorithmes diff). Reconnaissance d'entités nommées. Traduzione automatique (alignement). Débogage des tests (identifier les tests ayant échoué similaires). Moteurs de recherche (requête floue).