利用wordsmith和Replace Pioneer统计文档中单词词频(二)

在试验过程中我发现Replace Pioneer确实简单易用,但是对稍大一些的文档,比如2.9M的txt,则显得力不从心。

可以看出,对资源的消耗还是比较大的。
所以,我转到了wordsmith。由于是第一次接触,对该软件不太了解,所以在使用的过程中遇到了一些困难。
打开wordsmith,选择“wordlist”,弹出一个窗口,在file选项中选择new导入你想要统计的文件生成一个wordlist。

利用wordsmith和Replace Pioneer统计文档中单词词频(一)

《cmd下的txt文件批处理》一文中提到对词频的统计。从李笑来的博文得到信息,可以利用wordsmith软件进行统计。自己在网上搜索时发现了Replace Pioneer这款软件,也可以完成同样的工作。wordsmith的使用稍显复杂,软件也相对较大。先来看Replace Pioneer

Replace Pioneer的操作相对简单,打开软件,在菜单栏中选择Tools->Pattern Counter。如下所示。

在弹出窗口中选“File/http”,选择你的需要统计的文档。确保“Counter Template”选择的是“characters words lines”。最后点“detail”便可得到最后的输出结果。

PS:可以看到英文中最常用的词莫过于“the”了,这正像我小学时所领悟到的那样,汉语中最常用的字是“的”。(*^__^*)