利用wordsmith和Replace Pioneer统计文档中单词词频(一)

《cmd下的txt文件批处理》一文中提到对词频的统计。从李笑来的博文得到信息,可以利用wordsmith软件进行统计。自己在网上搜索时发现了Replace Pioneer这款软件,也可以完成同样的工作。wordsmith的使用稍显复杂,软件也相对较大。先来看Replace Pioneer

Replace Pioneer的操作相对简单,打开软件,在菜单栏中选择Tools->Pattern Counter。如下所示。

在弹出窗口中选“File/http”,选择你的需要统计的文档。确保“Counter Template”选择的是“characters words lines”。最后点“detail”便可得到最后的输出结果。

PS:可以看到英文中最常用的词莫过于“the”了,这正像我小学时所领悟到的那样,汉语中最常用的字是“的”。(*^__^*)

cmd下的txt文件批处理

因为需要统计一批英文文本中的单词词频,文本数量较多,一次一篇地统计相对麻烦而且得到的结果似乎不会比将它们融合为一片之后得到的统计结果来得精确。故而,这里我就遇到了一个问题:如何将这些utf-8格式的txt文档合并起来。

这里也许有人想到了软件。不错,其实我也想到过。之前在网上见过软件可以将大文档分割为小文档,那么反过来应该也会有相应的软件。

上网查了一下,发现一条巨NB且简洁的命令:type  *.txt > a.txt

操作步骤如下:

  1. cmd下切换到当前的work directory。我的是C:\Users\Administrator\Downloads\915
  2. 1

    http://ss64.com/nt/里可以查到where的用法。我当时试了一下ls,发现cmd无反应。

  3. 输出的结果里最底下的6个文件不是我所需要的。要筛选出来需要用到通配符。这里用最简单的*
  4. 2

  5. 下面使用type命令执行合并,目标文件名为xx.txt
  6. 3

    4

—————————————————————————

补充:(2010-12-2 )

最近转战XP平台,在xp下调用cmd输入where命令时居然不能识别。如下:


不过没关系,后面的type命令使用没有问题。出现这种问题,莫非是因为cmd版本的不同?

关于Google adsense

最近申请了一个adsense帐号,昨天在站上放了一天的广告。就是右侧栏的那个。

看了一下文章日历,发现有40多天没有写东西了。用《老友记》里的对白,我真想说一句“Oh,my···”(没有“GOD”)。

以前也曾试过在网站上投放卓越当当等一些联盟的广告,但效果实在太差;而且似乎还影响到了博客的访问量。

对于是否投放广告,我心里一直很纠结。在此征求大家的意见!

投票栏在本文右侧。