back Autor : ©Jan B. Hurych
Název : FREKVENČNÍ CHARAKTERISTIKY PÍSMEN VE VM.





Frekvencí (četností) výskytu slov různé délky, viz obr vlevo, se zabývala řada výzkumníků (například Jorge Stolfi ). Z nich se například dovíme, že delší slova se ve VM prakticky nevyskytují - na křivce je vidět jasný pokles výskytu slov delších než 6 písmen. Latina i jiné jazyky mají naopak i delší slova.

Celkem má VM asi 8 tisíc různých slov, což je až příliš vydatný slovník pro knihu, která má jen kolem 250 stránek. Navíc statistický výzkum VM zjistil, že rukopis má na přirozený jazyk velice kompaktní strukturu, jinak řečeno, přenese daleko víc informace pro stejnou dálku textu. Ovšem to vše je jen statistika, víc nevíme.

Četnosti výskytu jednotlivých znaků ve VM se už taková pozornost. nevěnovala. A přece vlevo uvedený graf naznačuje, že spíše než o přirozený jazyk se jedná o zašifrovaný text a frekvenční charakterika písmen to vůbec první, co se vždy v kryptologii dělá . . .




Abychom ale mohli tabulku sestavit, musíme nejdříve vybrat text, v našem případě hned tři:

1) přepis (transkript) samotného VM (použil jsem starší trankript podle Stolfiho)
2) vzorek středověké latiny (kapitola z díla sv. Augustina
(Confessions, Book 1, http://ccat.sas.upenn.edu/jod/latinconf/
3) vzorek ve starší angličtině, dílo Francise Bacona , The advancement of learning , uvedené na: http://darkwing.uoregon.edu/~rbear/adv1.htm

Proč latinu? Hlavně kvůli starší době a Rogeru Baconovi, ten totiž psal latinsky. U Augustina jde o poměrně dlouhý text, takže srovnání je dost přesné. A proč angličtinu? To zase kvůli Johnovi Dee, teda pokud by se jednalo o mladšího autora (vybral jsem tedy pozdějšího Bacona, Francise). Jiné jazyky jsem nezkoušel, šlo mi spíše o rozdíly, než o podobnosti. Výsledek je tabulka uvedená níže. Červené je pořadí četnosti a každý dokument má vlevo také sloupec písmen podle četnosti, jak jsem je našel na Netu (p ochopitelně se pro každý jazyk liší).



Srovnáme-li tabulky frekvencí, latina a VM jsou si skutečně velmi blízko, i percentuelně, viz fig.3 níže. Výsledek je téměř neuvěřitelný: i ty jisté "schody" odpovídají až překvapivě přesně a jsou ve stejných místech. Jen v jednom místě (čtvrté písmeno v pořadí) je frekvence poněkud více rozdílná, ale to může bát dáno výběrem vzorku. Ovšem od 15 místa v pořadí už nepřesnost převažuje, hlavně díky nízkým procentům - ale to platí pro všechny frekvenční tabulky. Křivka latiny (žlutá) sleduje modrou (VM) docela dobře, nejen velikostí, ale i tvarem a typickými zlomy. .


Přiznám se, že mě podobnost překvapila a pro jistotu jsem si ještě vykreslil srovnání VM s angličtinou, fig.4, abych se přesvědčil, zda je tam také taková podobnost. Nu podobnost je; angličtina i latina jsou přirozené jazyky, takže hustota písmen u obou klesá exponenciálně. Tam ale také podobnost končí: velký rozdíl u angličtiny je ale v tom, že její křivka (fialová) celkem nepravidelně protíná VM křivku (modrou) a navíc nemá výrazné a podobné stupně (schody). To by ukazovalo na zcela odlišný jazyk - Latina VM - a i její zlomy - navíc poměrně blízko sleduje, je možné, že u obou byl použit stejný jazyk (anebo velmi podobný, jako třeba novější latina. To, že se u obou liší frekvence u písmen velmi nízkého procenta, je ovšem dáno malým výskytem těchto písmen. Křivka je v této oblasti plochá, rozdíly jsou malé a proto se tato část křivky vůli těmto nevýhodám nepoužívá k řešení.


Výsledky jsem si srovnal ještě s jinými spolupracovníky, zda není někde chyba. Ve všech případech se použily stejné vzorky, jako jsem měl já. Přesnost byla velmi dobrá, zvláště při tak dlouhém textu a třech různých statistických programech.. Důležité je, že nám jde o relativní a ne absolutní hodnotu frekvence - ta se bude měnit podle délky textu - ani o sklon či gradienty. Důležitý je pro nás hlavně průběh křivek, který charakterizuje samotný jazyk a jeho způsob zápisu.

Výsledek naznačuje, že by se mohlo jednalo o latinu, ne jako plaintext (tj. přímý, nezakódovaný text), ale zašifrovaný: buď monoalfabetickou substituční šifrou nebo jednoduchou transposiční šifrou (ta také nemění četnost písmen). Zde ale náš výzkum ještě není zdaleka ukončen a výsledky přineseme později.