< retour à l'accueil

loi de zipf

la loi de Zipf est une observation souvent constatée sur la fréquence des mots dans un texte. elle énonce que si l'on classe les mots d'un texte selon leur fréquence d'apparition, le rang du nombre est inversement proportionnel à ce nombre d'apparitions.

autrement dit pour un mot donné, en notant f le nombre d'apparitions de ce mot, n son rang dans le classement, et pour dire "proportionnel à", on aurait : f ∝ 1/n.

on peut par exemple imaginer un texte, dont le 1er mot le plus présent apparaîtrait 100 000 fois, le 10ème plus présent 10 000 fois, le 100ème plus présent 1 000 fois, etc... bref voilà

bref j'ai codé un code pour illustrer tout ceci, où vous pouvez uploader un texte (celui d'un bouquin ou d'un mémoire ou jsp tant que c'est big), et il trie et affiche la fréquence et le rang de ses mots. et il calcule aussi la droite de régression, terme de matheux de merde pour désigner la droite qui relie à peu près tous les points. si tout va bien on devrait avoir environ f ∝ 1/n1. des fois c'est un peu plus que 1, des fois un peu moins.


Exemples :

Ou bien un fichier à vous : (format TXT, moins de 10 Mo)