Que trouves-tu « douteux » ? Pour les corpus, travaille en %, je trouve ça plutôt cohérent même avec un corpus 1 000 fois plus petit :
a premier à 11 %
ei sont dans le même ordre au-dessus de 8 %
r et n vers 7 %
l un peu derrière (bien plus présent sur wp) vers 6 %
kdı entre 4 et 5 %
pour le 10e caractère le choix est plus difficile, il faut voir avec les digrammes et trigrammes etc.
Ceci dit tu as déjà les lettres à mettre sous les doigts : c’est la notion de base qui rendra la disposition plus confortable quelque soit l'arrangement du reste (sur les deux corpus les 10 premiers caractères représentent 60-62 %). C’est bizarre que ces caractères diffèrent pas mal de ceux choisis sur la disposition Türk F. Il faudrait chercher à comprendre pourquoi, c’est surement lié à la méthode de frappe utilisée. Autant, ils n'avaient pas les outils qu’on a pour calculer ça en 1955… Et le vocabulaire de la langue a évolué aussi depuis là.
Pour tes corpus, on ne sait pas quelle référence est la plus fiable mais j'aurais tendance à dire que le plus volumineux des deux donne de meilleures statistiques, il faudrait connaitre comment fonctionne trwiki (beaucoup de robots pour écrire des ébauches d’articles ? état global de l'encyclopédie ? comment fonctionne le WP Extractor ? gestion des modèles, des données des tableaux, etc.)
trwiki 256 Mcar. corpus 165 kcar.
a 11,08 a 11,21
e 8,65 e 8,57
i 8,62 i 7,90
r 7,06 n 6,94
n 6,82 r 6,49
l 6,70 l 5,49
k 4,45 ı 4,87
d 4,37 k 4,52
ı 4,27 d 4,37
t 4,10 m 4,05
s 3,25 y 3,68
m 3,17 u 3,26
u 2,98 s 2,90
y 2,84 t 2,88
o 2,83 o 2,74
b 2,02 b 2,71
ü 1,61 . 2,08
. 1,51 ü 1,83
ş 1,39 ş 1,73
g 1,26 z 1,60
v 1,19 , 1,42
c 1,19 g 1,25
h 1,14 ç 1,13
p 1,08 ğ 1,00
z 1,04 h 0,98
ç 0,88 c 0,92
ğ 0,84 ö 0,85
ö 0,82 v 0,81
, 0,80 p 0,80
f 0,63 f 0,37
' 0,51 ' 0,20
w 0,25 ? 0,18
: 0,14 ; 0,12
- 0,14 ! 0,07
j 0,11 - 0,06
? 0,09 : 0,04
; 0,03 j 0,01
â 0,03 w 0,01
x 0,03 â 0,00
î 0,02 x 0,00
q 0,01 q 0,00
é 0,01