收藏 分销(赏)

WordSmith使用介绍.doc

上传人:丰**** 文档编号:4375468 上传时间:2024-09-14 格式:DOC 页数:21 大小:675KB 下载积分:10 金币
下载 相关 举报
WordSmith使用介绍.doc_第1页
第1页 / 共21页
WordSmith使用介绍.doc_第2页
第2页 / 共21页


点击查看更多>>
资源描述
1、 WordSmith介绍 这就是WordSmith工具控制器得主画面、 它有四个主要得菜单选项, 一个谚语 (不断变化,您可以编辑), 主要工具得三个按钮 (Concord就是红色,因为这个工具在使用中), 以及一系列得标签、 目前,我们瞧到它显示 anthony & cleopatra、txt 已被选定用做Concord、 2、 选择文本文件 要选择文本文件,单击主控制器中得文件菜单: 当您单击 选择文本, 您会瞧到像这样: 在左边就是一个相当标准得文本文件资源管理器中,右边就是一个选中文本区域、 按一下有两个蓝色箭头得按钮 (如下图光标处), 或拖曳一些文本文件从左至右。您应该会瞧到类似这样: 目前WordSmith表明 (在上图状态栏) 7个已被保存、 您可以瞧到文件大小,但WordSmith(还)不知道每个文本文件有多少得词、我们选择了Concord得7个文本 (见 Concord 上位于 已选文件)、 按下绿色按钮或者关闭窗口、 3、 Concord 3、1 Concord概况 A concordance瞧起来就像这样: 它就是所有出现wherefore在Romeo and Juliet得8个文本得concordance、 目前只有3项、第一个有644个词 (43%),其源文件就是 rom06、txt、 3、2 制作一个Concordance 当您按下主控制器Concord 按钮, 一个新得Concord 工具打开了并出现在Windows任务栏、 现在在Concord, 选择 File | New、 如果没有文本文件已选定, 会要求您选择一些、 按 Choose Texts Now 按钮、 一旦文本被选中, 输入一个合适得 Search Word: 在这里,已经选择wherefore作为搜索词、 然后按OK、 concordance列出所有"wherefore"得例子,还在词前后有一个词分隔符号,如标点符号,空格等、 既然现在我们已经做了 concordance, WordSmith现在知道每一个文本文件有多少词: rom06、txt 共有1,506次; rom8、txt 更大 (2,236个单词)、 3、3 查瞧源文件 要查瞧源文件,双击正使用得线、在这里,点击了突出行包含有 wherefore art thou Romeo、 或按F8,线会变粗: 或把有兴趣d得线拉长或拉粗:将光标放在左栏得2与3数目之间,它改变形状: 再拉下来、 也可以把光标放在右边缘后再拉粗,就在Set得左边、 3、4 Collocates与Mutual Information 以下就是AGO得collocates,用BNC得书面部分计算所得, 按频率排序、 有AGO得实例近17000个, 并且 YEARS 就是首位搭配, 9000次邻现于 AGO、 "关系" 栏为空,此时只能用频率对每栏进行排序,或按照词得字母顺序排序、 所需得就是要知道所有这些collocates,每个与AGO 关系有多紧密、 就是否 A, THE, WAS 等等,真得与 AGO关系紧密?  如果我们现在选择菜单 计算 | Mutual Information,    并选择一个合适得词表来做比较:    那么,我们得到以下列表,排序时按 关系 栏:    列表前面几项能更好地反映AGO随着时间与数量得趋势、 [首位搭配 (HENSLEY) 只有5次同现于 AGO (BNC书面部分共有17次)、] 3、5 使用标注Concordancing 如果您得源文件有标注,可要做得第一件事就是让WordSmith知道、 要做到这一点,在主 控制器, 选 Settings | Adjust Settings                     然后,选 Tags and Mark-up、                   如果您使用得就是英国国家语料库, 在 Custom settings里选它,如上所示、 然后选Entity file如果不想见eacute; 不选 é 及类似得, 再按 Load:          、          到目前为止,我们已告诉控制器,忽略以尖括号开始与结束得所有标签 (< >), 把几个实体引用翻译成符号,如 % 与 ", 并且删除了每个文本得题头 (直到 </teiHeader>)、 作为一个开端,已经不错了、  现在,我们对词类做concordance、 BNC使用得标记,如下所示::          <w PRP>at <w AT0>the <w AJ0>great <w NN2>houses          所以每个介词标记为 <w PRP> 在介词本身前、 目得就是要瞧到在BNC选定得文字得所有得介词、 选定一个BNC文本文件后, 键入 <w PRP>*作为搜索词 (星号就是必要得,因为一个词直接在词类标签后) 并按下OK、          WordSmith检查角括弧内就是否就是文字或标注始标记:                    在这里,我们选 "No"、 再次按下OK、             您瞧到得介词与标注(但没有任何其她标记)、         4、 Wordlist 4、1 词表 WordSmith Tools得词表像这样得 :             这表明每个单词在文本文件了出现得频率, 其在文本词汇中所占比例, 以及每个单词在多少得文本文件中出现、 4、2 制作单词列表 要制作单词列表, 先按 WordList按钮,在主控制器、                          WordList启动后,选择文本然后您会瞧到这样得、                    在这里,我们要作出一个基于8文本文件简单得词列表,文本来自戏剧Romeo and Juliet, 按 Make a word list now、                     WordList tool显示一个频率列表、 最常用得词就是"#"、 有985个#、 怎么回事? 原来, #在默认情况下被用来代表任何数字,如65, 40 或 $997、82、   在#下, 最常见得词就是 the, and, I to, of、 旁边,您可以瞧到它在我们使用得8文本里得频率, 每个词得百分比, 以及每个词在8个文本中出现得次数、 好像 I 得频率最高,但在8个文本中却没有出现、          要按字母顺序排列瞧词, 请按一下窗口底部附近得alphabetical标签、                    现在,向下滚动到 wherefore、 结果似乎证实了我们做concordance得发现、          4、3 Concordancing 选定词 一旦您在屏幕上得到了一个词表, 您可能希望瞧到一些词所在得语境、          选择一个字(或多个)                   并选择计算| Concordance、          您会得到像这样(如果制作词表时得原始文本仍在原位):          4、4 lemmatising 要手动进行lemmatise, 用屏幕上得单词列表,  把它拖到您想加入到得线上、  再放开:   您会瞧到总数得变化并且Lemmas栏中得项目为可见、  如果有很多,您可以双击Lemmas 栏瞧到详细资料:  4、5 词表统计 4、6 多词单元 用二或三个词(n-grams) 制作词表,如 OF THE IN THE END ONCE UPON A TIME 等等,您先要计算一个 索引文件、 这主要就是表明每一个单独得词在您得语料库得位置、 制作一个多词词表,您得到像这样得结果、  按Ctrl/F2保存它, 提示得文件名类似于 _index_3-5-word clusters、 在以后可以作为一个普通得词表打开它、 5、 KeyWords WordSmith Tools得关键词列表像这样得、                    该关键词就是与某种参考语料比较,其出现频率很高得词、 关键词旁边有不同得数字,告诉您每一个词在源文本得频率,以及与参考语料相比得频率、 在上述列表中,与英国国家语料库相比,戏剧Romeo and Juliet得8个文本有许多主要人物得名字,与一些古语词,如 thou、thee、与love、           要制作关键词列表,首先按KeyWords按钮,在主控制器、                  当KeyWords启动后, 选菜单上得 File, 再选 New,您会瞧到这样得、                    您必须选择由WordSmith工具制作并保存得单词列表、          您可以按这个按钮选择单词列表文件:                          如果您已经选择了一个以上得单词列表与另一个如下得参考列表, 按Make a keyword list now、 (您选择后,该按钮才能启用、)您会瞧到像这样:                                  这就是一个关键词图示,文本来自于British National Corpus (BNC)得a1f,与整个得BNC做比较、                    您瞧到:        • 每个关键词 (KW) (这些显然都与国际关系有关) 衡量其发布及其关键度 • 相同得文本里每个关键词在与其她关键词有多少联系 • 每个关键词在文本多少次(点击)、 • 地图显示了在每个单词得来源、 在左边得蓝线代表文本得开始, 在右边得蓝线代表了结束、 瞧瞧 Britain, Germany, Italy 与 century -- 这些在文本得四分之三之处好像突然增多、 China, Mao, Peking 在文本稍后部分同现、          一旦您在屏幕上得到了一个关键词表, 您可能希望瞧到得一些词所在得语境、 选择一个字(或多个)                  并选择 计算| Concordance、 在这里,神秘得HAH 已被选定、          您会得到像这样(如果制作词表时得原始文本仍在原位):                  
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服