文本表征简介

在对密文进行密码分析的时候,通常可能会有很多待选密钥。文本表征是一种确定文本与自然英语相似程度的方法,这可以从成千上万的候选密钥中自动帮我们找到正确的密钥。

有不同的方法用来计算文本表征,其中一些方法是通过计算某些字符或短字符串的出现次数,一些方法则是通过测量文本分布的“​​粗糙度”来计算文本表征。

卡方统计

卡方统计量是两个分类概率分布有多相似的度量。在密码分析中,它可用于分析维吉尼亚密码等。

重合指数

重合指数用于表征字母频率分布的“粗糙”程度。在对替换加密进行密码分析的时候,重合指数会显示这种密文分布概率上的“尖锐”。

在识别维吉尼亚密码周期时也使用了重合指数。

各语言重合指数的期望值:

语言 重合指数
英语 1.73
法国 2.02
德语 2.05
意大利 1.94
葡萄牙语 1.94
俄语 1.76
西班牙语 1.94

频率分析

频率分析是指在密码分析过程中计算不同密文出现次数来进行统计的方法,为破解密码提供更多有用的信息。

四元组统计

四元组统计通过计算所有长度为4的密文块的概率之和来表征文本,评分越高意味着这段文本越接近自然英语,反之则更不接近自然语言。

唯一解距离

当对密文进行暴力破解时,可能解密出唯一有意义的明文所需要的最少密文量。一般而言,唯一解距离越长,密码体制越好。

单词统计

通过对文本进行分词,查找单词来确定文本与英文的相似程度。

注意

本章仅详细阐述了卡方统计和四元组统计...

欢迎补充其他文本表征方式