Voici de nouvelles statistiques réalisées par mes soins, grâce au logiciel gratuit d'analyse fréquentielle Word creator qui m'a permis d'analyser 12 Millions de caractères (soit 10 millions hors espace). Le corpus est constitué de romans également répartis sur les périodes du 19eme, 20eme, et 21eme; de dizaines d'articles de wikipédia, de correspondances mails, d'articles de journaux et blogs avec leurs commentaires.
Au final, pas ou peu de changements comparés aux autres corpus de plus petites tailles (1 à 2 millions de caractères). Ses statiques affinent juste les données sur les digrammes / trigrammes et sur les lettres à faible fréquence d'utilisation.
Je vous entends déjà : « Son corpus n'est pas bon! Il n'a pas pris le plus représentatif. »
Idem pour la position des mains qui diffère d'une personne à l'autre.
Rien ne vous empêche de le refaire. Cependant je suis certain que les variations seront minimes.
http://bvofrak.blogspot.com/p/statistiques_31.html
http://www.sttmedia.com/wordcreator
J'ai récupéré les livres sur Gutenberg Vernes Hugo Zola ... , des bouquins epub/pdf Céline Coben Beigbeder Houellebecq Werber que j'ai, des mails du boulot, des articles du monde, de sciences et avenir, presence pc; et de blogs que je fréquente.
J'ai tout mis sur excel et retraité les paragraphes et certains caractères spéciaux pour avoir quelque chose de propre avec les espaces, et concaténer la fin d'un paragraphe avec un caractère rare genre "²" pour obtenir la fréquence de la touche entrée.
Avec le logiciel on dispose des majuscules donc simple de connaître la fréquence des majuscules (B =b+petit doigt droit / L=l+petit doigt gauche)
N'hésitez pas à faire votre corpus, mais sincèrement les différences sont vraiment minimes avec les corpus présents sur le site.
échelle
0.1%=1mm
Il y a quelque chose qui vous choque dans les stats?