利用wordsmith和Replace Pioneer统计文档中单词词频(二)

在试验过程中我发现Replace Pioneer确实简单易用,但是对稍大一些的文档,比如2.9M的txt,则显得力不从心。

可以看出,对资源的消耗还是比较大的。
所以,我转到了wordsmith。由于是第一次接触,对该软件不太了解,所以在使用的过程中遇到了一些困难。
打开wordsmith,选择“wordlist”,弹出一个窗口,在file选项中选择new导入你想要统计的文件生成一个wordlist。

cmd下的txt文件批处理

因为需要统计一批英文文本中的单词词频,文本数量较多,一次一篇地统计相对麻烦而且得到的结果似乎不会比将它们融合为一片之后得到的统计结果来得精确。故而,这里我就遇到了一个问题:如何将这些utf-8格式的txt文档合并起来。

这里也许有人想到了软件。不错,其实我也想到过。之前在网上见过软件可以将大文档分割为小文档,那么反过来应该也会有相应的软件。

上网查了一下,发现一条巨NB且简洁的命令:type  *.txt > a.txt

操作步骤如下:

  1. cmd下切换到当前的work directory。我的是C:\Users\Administrator\Downloads\915
  2. 1

    http://ss64.com/nt/里可以查到where的用法。我当时试了一下ls,发现cmd无反应。

  3. 输出的结果里最底下的6个文件不是我所需要的。要筛选出来需要用到通配符。这里用最简单的*
  4. 2

  5. 下面使用type命令执行合并,目标文件名为xx.txt
  6. 3

    4

—————————————————————————

补充:(2010-12-2 )

最近转战XP平台,在xp下调用cmd输入where命令时居然不能识别。如下:


不过没关系,后面的type命令使用没有问题。出现这种问题,莫非是因为cmd版本的不同?