资源描述
1、 WordSmith介绍
这就是WordSmith工具控制器得主画面、
它有四个主要得菜单选项, 一个谚语 (不断变化,您可以编辑), 主要工具得三个按钮 (Concord就是红色,因为这个工具在使用中), 以及一系列得标签、 目前,我们瞧到它显示 anthony & cleopatra、txt 已被选定用做Concord、
2、 选择文本文件
要选择文本文件,单击主控制器中得文件菜单:
当您单击 选择文本, 您会瞧到像这样:
在左边就是一个相当标准得文本文件资源管理器中,右边就是一个选中文本区域、 按一下有两个蓝色箭头得按钮 (如下图光标处), 或拖曳一些文本文件从左至右。您应该会瞧到类似这样:
目前WordSmith表明 (在上图状态栏) 7个已被保存、 您可以瞧到文件大小,但WordSmith(还)不知道每个文本文件有多少得词、我们选择了Concord得7个文本 (见 Concord 上位于 已选文件)、
按下绿色按钮或者关闭窗口、
3、 Concord
3、1 Concord概况
A concordance瞧起来就像这样:
它就是所有出现wherefore在Romeo and Juliet得8个文本得concordance、 目前只有3项、第一个有644个词 (43%),其源文件就是 rom06、txt、
3、2 制作一个Concordance
当您按下主控制器Concord 按钮, 一个新得Concord 工具打开了并出现在Windows任务栏、
现在在Concord, 选择 File | New、
如果没有文本文件已选定, 会要求您选择一些、 按 Choose Texts Now 按钮、
一旦文本被选中, 输入一个合适得 Search Word:
在这里,已经选择wherefore作为搜索词、 然后按OK、
concordance列出所有"wherefore"得例子,还在词前后有一个词分隔符号,如标点符号,空格等、
既然现在我们已经做了 concordance, WordSmith现在知道每一个文本文件有多少词: rom06、txt 共有1,506次; rom8、txt 更大 (2,236个单词)、
3、3 查瞧源文件
要查瞧源文件,双击正使用得线、在这里,点击了突出行包含有 wherefore art thou Romeo、
或按F8,线会变粗:
或把有兴趣d得线拉长或拉粗:将光标放在左栏得2与3数目之间,它改变形状:
再拉下来、
也可以把光标放在右边缘后再拉粗,就在Set得左边、
3、4 Collocates与Mutual Information
以下就是AGO得collocates,用BNC得书面部分计算所得, 按频率排序、
有AGO得实例近17000个, 并且 YEARS 就是首位搭配, 9000次邻现于 AGO、 "关系" 栏为空,此时只能用频率对每栏进行排序,或按照词得字母顺序排序、 所需得就是要知道所有这些collocates,每个与AGO 关系有多紧密、 就是否 A, THE, WAS 等等,真得与 AGO关系紧密?
如果我们现在选择菜单 计算 | Mutual Information,
并选择一个合适得词表来做比较:
那么,我们得到以下列表,排序时按 关系 栏:
列表前面几项能更好地反映AGO随着时间与数量得趋势、 [首位搭配 (HENSLEY) 只有5次同现于 AGO (BNC书面部分共有17次)、]
3、5 使用标注Concordancing
如果您得源文件有标注,可要做得第一件事就是让WordSmith知道、 要做到这一点,在主 控制器, 选 Settings | Adjust Settings
然后,选 Tags and Mark-up、
如果您使用得就是英国国家语料库, 在 Custom settings里选它,如上所示、 然后选Entity file如果不想见eacute; 不选 é 及类似得, 再按 Load:
、
到目前为止,我们已告诉控制器,忽略以尖括号开始与结束得所有标签 (< >), 把几个实体引用翻译成符号,如 % 与 ", 并且删除了每个文本得题头 (直到 </teiHeader>)、 作为一个开端,已经不错了、
现在,我们对词类做concordance、 BNC使用得标记,如下所示::
<w PRP>at <w AT0>the <w AJ0>great <w NN2>houses
所以每个介词标记为 <w PRP> 在介词本身前、 目得就是要瞧到在BNC选定得文字得所有得介词、 选定一个BNC文本文件后, 键入 <w PRP>*作为搜索词 (星号就是必要得,因为一个词直接在词类标签后) 并按下OK、
WordSmith检查角括弧内就是否就是文字或标注始标记:
在这里,我们选 "No"、 再次按下OK、
您瞧到得介词与标注(但没有任何其她标记)、
4、 Wordlist
4、1 词表
WordSmith Tools得词表像这样得 :
这表明每个单词在文本文件了出现得频率, 其在文本词汇中所占比例, 以及每个单词在多少得文本文件中出现、
4、2 制作单词列表
要制作单词列表, 先按 WordList按钮,在主控制器、
WordList启动后,选择文本然后您会瞧到这样得、
在这里,我们要作出一个基于8文本文件简单得词列表,文本来自戏剧Romeo and Juliet, 按 Make a word list now、
WordList tool显示一个频率列表、 最常用得词就是"#"、 有985个#、 怎么回事? 原来, #在默认情况下被用来代表任何数字,如65, 40 或 $997、82、
在#下, 最常见得词就是 the, and, I to, of、 旁边,您可以瞧到它在我们使用得8文本里得频率, 每个词得百分比, 以及每个词在8个文本中出现得次数、 好像 I 得频率最高,但在8个文本中却没有出现、
要按字母顺序排列瞧词, 请按一下窗口底部附近得alphabetical标签、
现在,向下滚动到 wherefore、 结果似乎证实了我们做concordance得发现、
4、3 Concordancing 选定词
一旦您在屏幕上得到了一个词表, 您可能希望瞧到一些词所在得语境、
选择一个字(或多个)
并选择计算| Concordance、
您会得到像这样(如果制作词表时得原始文本仍在原位):
4、4 lemmatising
要手动进行lemmatise, 用屏幕上得单词列表,
把它拖到您想加入到得线上、
再放开:
您会瞧到总数得变化并且Lemmas栏中得项目为可见、
如果有很多,您可以双击Lemmas 栏瞧到详细资料:
4、5 词表统计
4、6 多词单元
用二或三个词(n-grams) 制作词表,如
OF THE
IN THE END
ONCE UPON A TIME
等等,您先要计算一个 索引文件、 这主要就是表明每一个单独得词在您得语料库得位置、
制作一个多词词表,您得到像这样得结果、
按Ctrl/F2保存它, 提示得文件名类似于 _index_3-5-word clusters、 在以后可以作为一个普通得词表打开它、
5、 KeyWords
WordSmith Tools得关键词列表像这样得、
该关键词就是与某种参考语料比较,其出现频率很高得词、
关键词旁边有不同得数字,告诉您每一个词在源文本得频率,以及与参考语料相比得频率、
在上述列表中,与英国国家语料库相比,戏剧Romeo and Juliet得8个文本有许多主要人物得名字,与一些古语词,如 thou、thee、与love、
要制作关键词列表,首先按KeyWords按钮,在主控制器、
当KeyWords启动后, 选菜单上得 File, 再选 New,您会瞧到这样得、
您必须选择由WordSmith工具制作并保存得单词列表、
您可以按这个按钮选择单词列表文件:
如果您已经选择了一个以上得单词列表与另一个如下得参考列表, 按Make a keyword list now、 (您选择后,该按钮才能启用、)您会瞧到像这样:
这就是一个关键词图示,文本来自于British National Corpus (BNC)得a1f,与整个得BNC做比较、
您瞧到:
• 每个关键词 (KW) (这些显然都与国际关系有关)
衡量其发布及其关键度
• 相同得文本里每个关键词在与其她关键词有多少联系
• 每个关键词在文本多少次(点击)、
• 地图显示了在每个单词得来源、
在左边得蓝线代表文本得开始, 在右边得蓝线代表了结束、 瞧瞧 Britain, Germany, Italy 与 century -- 这些在文本得四分之三之处好像突然增多、 China, Mao, Peking 在文本稍后部分同现、
一旦您在屏幕上得到了一个关键词表, 您可能希望瞧到得一些词所在得语境、 选择一个字(或多个)
并选择 计算| Concordance、 在这里,神秘得HAH 已被选定、
您会得到像这样(如果制作词表时得原始文本仍在原位):
展开阅读全文