收藏 分销(赏)

WordSmith使用介绍.doc

上传人:丰**** 文档编号:4375468 上传时间:2024-09-14 格式:DOC 页数:21 大小:675KB
下载 相关 举报
WordSmith使用介绍.doc_第1页
第1页 / 共21页
WordSmith使用介绍.doc_第2页
第2页 / 共21页
WordSmith使用介绍.doc_第3页
第3页 / 共21页
WordSmith使用介绍.doc_第4页
第4页 / 共21页
WordSmith使用介绍.doc_第5页
第5页 / 共21页
点击查看更多>>
资源描述

1、1、 WordSmith介绍这就是WordSmith工具控制器得主画面、它有四个主要得菜单选项, 一个谚语 (不断变化,您可以编辑), 主要工具得三个按钮 (Concord就是红色,因为这个工具在使用中), 以及一系列得标签、 目前,我们瞧到它显示 anthony & cleopatra、txt 已被选定用做Concord、2、 选择文本文件要选择文本文件,单击主控制器中得文件菜单:当您单击 选择文本, 您会瞧到像这样:在左边就是一个相当标准得文本文件资源管理器中,右边就是一个选中文本区域、 按一下有两个蓝色箭头得按钮 (如下图光标处), 或拖曳一些文本文件从左至右。您应该会瞧到类似这样:目前

2、WordSmith表明 (在上图状态栏) 7个已被保存、 您可以瞧到文件大小,但WordSmith(还)不知道每个文本文件有多少得词、我们选择了Concord得7个文本 (见 Concord 上位于 已选文件)、按下绿色按钮或者关闭窗口、3、 Concord3、1 Concord概况A concordance瞧起来就像这样:它就是所有出现wherefore在Romeo and Juliet得8个文本得concordance、 目前只有3项、第一个有644个词 (43%),其源文件就是 rom06、txt、3、2 制作一个Concordance当您按下主控制器Concord 按钮, 一个新得Co

3、ncord 工具打开了并出现在Windows任务栏、现在在Concord, 选择 File | New、如果没有文本文件已选定, 会要求您选择一些、 按 Choose Texts Now 按钮、 一旦文本被选中, 输入一个合适得 Search Word:在这里,已经选择wherefore作为搜索词、 然后按OK、 concordance列出所有wherefore得例子,还在词前后有一个词分隔符号,如标点符号,空格等、 既然现在我们已经做了 concordance, WordSmith现在知道每一个文本文件有多少词: rom06、txt 共有1,506次; rom8、txt 更大 (2,236个

4、单词)、 3、3 查瞧源文件要查瞧源文件,双击正使用得线、在这里,点击了突出行包含有 wherefore art thou Romeo、或按F8,线会变粗:或把有兴趣d得线拉长或拉粗:将光标放在左栏得2与3数目之间,它改变形状:再拉下来、也可以把光标放在右边缘后再拉粗,就在Set得左边、 3、4 Collocates与Mutual Information以下就是AGO得collocates,用BNC得书面部分计算所得, 按频率排序、有AGO得实例近17000个, 并且YEARS就是首位搭配, 9000次邻现于AGO、 关系 栏为空,此时只能用频率对每栏进行排序,或按照词得字母顺序排序、 所需得

5、就是要知道所有这些collocates,每个与AGO关系有多紧密、 就是否A, THE, WAS等等,真得与AGO关系紧密?如果我们现在选择菜单计算 | Mutual Information,并选择一个合适得词表来做比较:那么,我们得到以下列表,排序时按关系栏:列表前面几项能更好地反映AGO随着时间与数量得趋势、 首位搭配 (HENSLEY) 只有5次同现于AGO(BNC书面部分共有17次)、3、5 使用标注Concordancing如果您得源文件有标注,可要做得第一件事就是让WordSmith知道、 要做到这一点,在主控制器, 选Settings | Adjust Settings 然后,选

6、Tags and Mark-up、 如果您使用得就是英国国家语料库, 在Custom settings里选它,如上所示、 然后选Entity file如果不想见eacute;不选及类似得, 再按Load: 、 到目前为止,我们已告诉控制器,忽略以尖括号开始与结束得所有标签 (), 把几个实体引用翻译成符号,如%与,并且删除了每个文本得题头 (直到)、 作为一个开端,已经不错了、现在,我们对词类做concordance、 BNC使用得标记,如下所示: at the great houses 所以每个介词标记为在介词本身前、 目得就是要瞧到在BNC选定得文字得所有得介词、 选定一个BNC文本文件后

7、, 键入*作为搜索词 (星号就是必要得,因为一个词直接在词类标签后) 并按下OK、 WordSmith检查角括弧内就是否就是文字或标注始标记: 在这里,我们选 No、 再次按下OK、 您瞧到得介词与标注(但没有任何其她标记)、 4、 Wordlist4、1 词表WordSmith Tools得词表像这样得 : 这表明每个单词在文本文件了出现得频率, 其在文本词汇中所占比例, 以及每个单词在多少得文本文件中出现、4、2 制作单词列表要制作单词列表, 先按 WordList按钮,在主控制器、 WordList启动后,选择文本然后您会瞧到这样得、 在这里,我们要作出一个基于8文本文件简单得词列表,文

8、本来自戏剧Romeo and Juliet, 按Make a word list now、 WordList tool显示一个频率列表、 最常用得词就是#、 有985个#、 怎么回事? 原来, #在默认情况下被用来代表任何数字,如65, 40或$997、82、 在#下, 最常见得词就是the, and, I to, of、 旁边,您可以瞧到它在我们使用得8文本里得频率, 每个词得百分比, 以及每个词在8个文本中出现得次数、 好像I得频率最高,但在8个文本中却没有出现、 要按字母顺序排列瞧词, 请按一下窗口底部附近得alphabetical标签、 现在,向下滚动到wherefore、 结果似乎证

9、实了我们做concordance得发现、 4、3 Concordancing 选定词一旦您在屏幕上得到了一个词表, 您可能希望瞧到一些词所在得语境、 选择一个字(或多个) 并选择计算| Concordance、 您会得到像这样(如果制作词表时得原始文本仍在原位): 4、4 lemmatising要手动进行lemmatise, 用屏幕上得单词列表,把它拖到您想加入到得线上、再放开:您会瞧到总数得变化并且Lemmas栏中得项目为可见、如果有很多,您可以双击Lemmas 栏瞧到详细资料:4、5 词表统计4、6 多词单元用二或三个词(n-grams) 制作词表,如OF THEIN THE ENDONC

10、E UPON A TIME等等,您先要计算一个 索引文件、 这主要就是表明每一个单独得词在您得语料库得位置、制作一个多词词表,您得到像这样得结果、按Ctrl/F2保存它, 提示得文件名类似于_index_3-5-word clusters、 在以后可以作为一个普通得词表打开它、5、 KeyWordsWordSmith Tools得关键词列表像这样得、 该关键词就是与某种参考语料比较,其出现频率很高得词、关键词旁边有不同得数字,告诉您每一个词在源文本得频率,以及与参考语料相比得频率、在上述列表中,与英国国家语料库相比,戏剧Romeo and Juliet得8个文本有许多主要人物得名字,与一些古语

11、词,如thou、thee、与love、 要制作关键词列表,首先按KeyWords按钮,在主控制器、 当KeyWords启动后, 选菜单上得File, 再选New,您会瞧到这样得、 您必须选择由WordSmith工具制作并保存得单词列表、 您可以按这个按钮选择单词列表文件: 如果您已经选择了一个以上得单词列表与另一个如下得参考列表, 按Make a keyword list now、 (您选择后,该按钮才能启用、)您会瞧到像这样: 这就是一个关键词图示,文本来自于British National Corpus (BNC)得a1f,与整个得BNC做比较、 您瞧到: 每个关键词 (KW) (这些显然都与国际关系有关) 衡量其发布及其关键度 相同得文本里每个关键词在与其她关键词有多少联系 每个关键词在文本多少次(点击)、 地图显示了在每个单词得来源、在左边得蓝线代表文本得开始, 在右边得蓝线代表了结束、 瞧瞧Britain, Germany, Italy与century- 这些在文本得四分之三之处好像突然增多、China, Mao, Peking在文本稍后部分同现、 一旦您在屏幕上得到了一个关键词表, 您可能希望瞧到得一些词所在得语境、 选择一个字(或多个) 并选择计算| Concordance、 在这里,神秘得HAH已被选定、 您会得到像这样(如果制作词表时得原始文本仍在原位):

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服