Detection de langues avec Python

Ce billet a simplement pour but de présenter le module Python oice.langdet sous licence GPL v3. Ce module permet de détecter la langue d’un texte (Anglais, Espagnol et Français). Comme vous pouvez le voir en suivant le lien précédent il est vraiment simple d’utilisation et les résultats sont assez bons. Je me suis dit que je pouvais tester ce module avec pyAggr3g470r sur la description des articles. Et en effet les résultats sont plutôt satisfaisants. Comme on peut le voir sur ces captures (1, 2, 3) sur 684 articles le module trouve 332 articles en anglais et 166 en français avec peu d’erreurs. Il faut préciser que pour diverses raisons (notamment de performances) je passe à l’algorithme uniquement les 80 premiers caractères. De plus certains articles n’ont pas de descriptions ou alors des descriptions exotiques du type mot clés…

Grâce à cela je vais maintenant pouvoir utiliser cette implémentation des soundex après avoir détecté la langue (afin d’avoir les codes caractères appropriés). De cette manière je pourrais rechercher les mots phonétiquement et ainsi éviter de comptabiliser par exemple les mots libre et libres séparément, comme ici.  Si cet algorithme vous intéresse voici la version originale de Mark Pilgrim utilisée par Florent Carlier. Cet algorithme est simple, court et vraiment pratique.

Donc cet article aura présenté deux choses intéressantes !