很多事情必须破解你的思想,但Zipf定律是更高的一步。如果你选择任何文本的法律规定,任何词的频率成反比频率表中的排名。所以,出现频率最高的词将两倍的第二高的发生。是这样的:
相同的法律形成一条直线绘制对数尺度:
无论英语文本,最常出现的单词,,,,,,,,,和那有很多其他单词在文本中并不经常发生。连接所有这些Zipf频率表展示了曲线的定律。根据牛津大学研究,这些词占25%的所有文本。
我们说,‘“构成了近6%,是最常见的词。第二位的频率刻度,”的“这就是我们说的一切的3%。拥有的关系,这个词排名第三的频率表形式大约1.5%的我们的谈话。
Italki Zipf定律演示使用140的英语学习的文章。收集所有140篇文章变成一个大文档时,他们选择了最发生的20字根据Zipf定律作出预测。下面的图显示了不同的现实和预测是多少
不可思议,对吧?您可以使用这个文章,得到一个程序为你绘制Zipf的曲线,你会得到相同的结果。
Zipf定律不仅预测在文本的单词出现的次数或谈话也预测其他类似的速率大城市的人口增长。法律适用于动物,国家,行星,山脉,甚至各种糖含量的饼干。
你想阴谋Zipf的曲线吗?在下面发表评论!