收藏 分销(赏)

汉语实词的功能构成及其语体差异.pdf

上传人:自信****多点 文档编号:4142677 上传时间:2024-08-01 格式:PDF 页数:6 大小:1.32MB
下载 相关 举报
汉语实词的功能构成及其语体差异.pdf_第1页
第1页 / 共6页
汉语实词的功能构成及其语体差异.pdf_第2页
第2页 / 共6页
汉语实词的功能构成及其语体差异.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、渤海大学学报二二三年第三期渤海大学引言现代汉语实词具有多功能性,词类和句法成分之间没有一一对应的关系,自从朱德熙(1985)提出这一观点以来1,这已成为语法学界的共识。既然汉语词类和句法成分之间不是一一对应的,那么它们之间有没有选择倾向,这种倾向有无语体差异?词类与句法成分之间有无选择倾向应从两个方面来看:一是每个词类充当不同句法成分的比例,即词类的功能构成;二是每种句法成分由不同词类充当的比例,即句法成分的词类构成。这两类数据在逻辑上没有关系。关于这两个问题,莫彭龄、单青(1985)统计了名词、动词、形容词充当六大类句法成分的频率2;贺阳(1996)统计了性质形容词的句法功能构成3;郭锐(2

2、002)(以下简称郭文)则全面统计了这两方面的数据4。这几项统计都是人工手动进行的,统计的材料规模小、类型少淤。在自然语言处理技术日益发达的今天,这两个问题可以利用大规模句法标注语料库的材料重新研究(实际结果并不完全相同)。限于篇幅,本文只研究第一个问题。我们选择 10 种常见语体的材料于,用哈工大社会计算与信息检索研究中心研制的自然语言处理开放工具 LTP(语言技术平台)盂进行依存句法关系标注,并结合其自动分词和词性标注功能,制作了一个涵盖不同语体的依存句法标注语料库。在此基础上,分别统计 10 种实词(包括拟声词)在上述 10 种材料中充当各种句法成分的比例,总结各类实词句法功能的构成倾向

3、及语体差异,以此验证实际语篇中实词多功能性的强弱。一、统计说明LTP 标注的依存句法关系共 13 种:主谓、动宾、间接宾语、前置宾语、兼语、定中、状中、动补、并列、介宾、左附加(如连词结构)、右附加(的、了、们等结构)、独立结构和核心。与直接成分分析法不同,LTP 把两两相对的句法关系标在中心词上,而不是整个直接成分。如 SBV 主谓、ADV 状中、ATT 定中、VOB 述宾:(1)“骆驼”只是个外号 (骆驼/n,是/v,SBV)只/d,是/v,ADV 个/q,外号/n,ATT (是/v,外号/n,VOB)我们把组成每对句法关系的两个成分分开统计,核心成分不统计(已有其他功能)。实际统计的句法

4、成分有 20 个:主语和谓语、述宾述语和宾语、前宾述语和前置宾语、间宾述语和间接宾语、兼语述语和兼语、定语和定语中心语、状语和状语中心语、述补述语和补语、介词和宾收稿日期:2023-02-20基金项目:天津市社科规划项目“特征测量方法在语体研究中的运用”阶段性成果(项目编号:TJYY20-006)作者简介:郭昭军(1974),男,博士,南开大学文学院副教授,硕士研究生导师,从事现代汉语词汇、语法计算研究。汉语实词的功能构成及其语体差异郭昭军关金子(南开大学 文学院,天津 300071)摘要:语法学界普遍认为现代汉语实词具有多功能性,词类与句法成分之间不是一一对应的。然而,根据对包含不同语体材料

5、的依存句法标注语料库的统计,我们发现:(1)实际语篇中汉语实词的多功能性并不强,大多数实词只表现出一两个(主要)功能;(2)汉语实词的功能构成(不同功能所占的比例)在不同语体中存在差异,这种差异不仅仅是口语与书面语的对立,而且比例高的功能其语体差异不一定大。根据词类的这种功能构成模式,运用机器学习中的分类算法,可以自动判断出一个词语的词类归属。关键词:词类;句法功能;比例;语体差异中图分类号:H031文献标识码:A文章编号:1672-8254(2023)03-0089-06渤海大学学报二二三年第三期渤海大学089089渤海大学学报哲学社会科学版渤海大学语、左附加左和右附加右。LTP 对上述 1

6、3 种句法关系的标注是各自独立的,因此这些成分的统计数据也相互独立、互不影响。为便于与句法成分的传统分类对应,我们把所有述语合并计为“述语”,把所有宾语和兼语合并计为“宾语”。最终选择 7 种句法功能进行统计分析:主语、谓语、述语、宾语、定语、状语和补语等榆。在具体统计时,以 LTP 依存句法分析结果为准,即例(1)中右边中的内容,不考虑具体词语,只按其词类进行计算。如例(1),名词句法功能 3 个(主语、定心和宾语),所以名词的功能构成为:主语 50%、宾语 50%(定心不计);同理,动词的功能构成为:谓语 50%、述语 50%(状心不计),副词为状语 100%,量词为定语 100%。需要指

7、出的是,统计词类的功能比例时,被除数(总和)既不能是词型总数,也不能是词例总数,必须是句法功能总数,因为一个词语可以同时充当多种句法成分。此外,不同词类的句法功能构成之间是没有逻辑关系的。因此,不能用一个词类某种功能的频率高低,来解释另一个词类某种功能频率的高低。二、各类实词的统计数据及其分析(一)名词广义名词除了普通名词外,还包括专有名词、时间名词、处所名词和方位名词等。先看普通名词的功能构成(百分比,下同)及其语体差异(标准差虞,下同)。一般认为,名词的主要功能是做主语或宾语。从上表(见表 1)看,实际语篇中名词有一半左右的功能是做宾语,其次是做定语或主语,而且在非文学语篇中定语的比例超过

8、了主语愚。在这三种功能中,定语功能的语体差异最大。名词做定语在剧本这种口语体中所占比例最低,在新闻和法规这种比较正式的语体中所占比例最高,后者是前者三倍左右。正如郭文所说,这跟两类语体句子的长短有关4(270-293),正式语体的句子一般比较长,修饰语更多,尤其是定语。再看普通名词与其他名词小类的功能构成的差异,下表(见表 2)是不分语体的总体数据。表 1普通名词的功能构成及其语体差异功能剧本小说故事纪实新闻操作散文学术法规政论总体标准差主语25.024.427.521.917.519.923.321.416.619.623.43.2宾语57.551.452.545.339.446.849.2

9、44.643.245.948.74.9定语13.321.116.930.039.929.824.431.338.232.625.08.3合计95.897.096.997.196.896.496.997.398.098.197.00.7注:功能构成为百分比,语体差异为标准差。从表 2 看,名词各个小类的功能构成各不相同。人名超过一半的功能是做主语,其次是做定语。人名是专有名词,是有定的,更倾向于做话题。地名和机构名 60%的功能是做定语。与普通名词主要做宾语不同,三类专有名词很少做宾语,这与专有名词是有定的有关。时间词最主要功能是做状语,其次是做定语。普通名词主要做动词的宾语,极少做介词宾语。处

10、所词和方位词则主要做介词宾语,极少做动词的宾语。(二)动词一般认为,动词最主要的功能是做谓语。不过从下表(见表 3)看,实际语篇中动词 45%的功能是做述语,谓语只占 25%左右。而且,LTP 所标注的谓语不限于动词单独做谓语5,即使这样,表 2名词小类的功能构成差异功能普通名词人名地名机构名时间词处所词方位词主语23.451.710.828.12.210.54.8动词宾语39.211.615.34.74.410.94.7介词宾语9.55.311.47.27.936.742.7宾语合计48.716.926.711.912.447.647.3定语25.030.261.459.631.124.31

11、9.9状语2.20.80.90.153.817.226.4合计99.399.699.899.799.499.798.5注:功能构成为百分比。渤海大学学报哲学社会科学版渤海大学090090渤海大学学报二二三年第三期渤海大学动词做谓语的比例也仍然不高。动词做主宾语的比例很低,尤其是做主语的比例更低。动词做补语的比例也很低,虽然补语是谓词的独有功能。动词做定语的比例也很低,尤其是剧本中;法规中动词做定语的比例最高,后者是前者的12 倍多。这说明正式语体中定语成分比口语更多样化。(三)形容词表 3动词的功能构成及其语体差异功能剧本小说故事纪实新闻操作散文学术法规政论总体标准差主语1.71.31.12.

12、02.41.52.22.63.33.01.70.7谓语28.024.825.221.717.911.322.121.515.619.123.54.7述语45.344.244.843.842.356.344.240.535.441.843.75.0宾语9.710.09.810.713.84.911.112.912.713.810.62.8定语2.04.94.310.215.38.76.711.024.810.27.26.2状语6.86.26.15.65.15.67.27.27.78.66.31.0补语4.66.36.74.32.39.24.22.90.32.55.22.4合计98.197.698

13、.198.399.097.497.898.599.898.898.10.7注:功能构成为百分比,语体差异为标准差。从上表(见表 4)看,形容词主要功能是做定语,其次是做谓语或状语。不过除剧本外,形容词做谓语的实际比例很低。这与学界的研究是一致的。传统观念认为,汉语形容词也可以做主宾语,实际上这个比例很低,尤其是做主语。除操作语体外,形容词做补语的比例很低,这两点与动词类似。由此可见,补语并不是汉语谓词的主要功能。形容词的语体差异主要体现在剧本、新闻和法规等在谓语或定语上的对立,口语谓语比例越高,书面语定语比例就越高,这与郭文的统计一致。这种差异与两种语体的句子的长短密切相关。(四)状态词从下表

14、(见表 5)看,状态词 70%的功能是做表 4形容词的功能构成及其语体差异功能剧本小说故事纪实新闻操作散文学术法规政论总体标准差主语1.91.91.42.21.31.63.42.73.52.22.00.7谓语31.320.322.818.911.119.517.915.09.712.919.56.0述语4.34.54.22.51.01.44.42.00.32.43.51.5宾语15.614.511.712.17.29.318.415.09.615.613.43.3定语23.335.129.340.649.636.037.744.854.045.137.08.8状语11.613.619.716.

15、523.67.412.016.221.816.116.04.7补语11.69.610.77.06.024.75.83.71.15.58.36.2合计99.699.599.799.799.999.999.599.410099.899.60.2注:功能构成为百分比,语体差异为标准差。表 5状态词的功能构成及其语体差异功能剧本小说故事纪实新闻操作散文学术法规政论总体标准差谓语17.116.014.519.222.227.512.714.723.37.316.15.5宾语8.65.14.05.04.821.07.29.80.09.35.25.3定语21.437.021.743.248.335.242.

16、843.376.744.334.814.7状语38.632.950.325.519.79.530.425.50.030.335.313.5补语8.96.88.05.03.54.14.14.50.07.36.52.5合计94.697.898.597.998.597.397.297.810098.597.91.2注:功能构成为百分比,语体差异为标准差。状语或定语,做谓语的比例不高。在法规和操作语体中,状态词做状语的比例最低,因为这两种语体不需要动作的细节描写。比较表 4 和表5,形容词的主要功能是做定语,状态词的主要功能是做状语表 6区别词的功能构成及其语体差异功能剧本小说故事纪实新闻操作散文学术

17、法规政论总体标准差定语69.386.386.790.891.086.482.688.895.689.088.66.7注:功能构成为百分比,语体差异为标准差。渤海大学学报二二三年第三期渤海大学091091渤海大学学报哲学社会科学版渤海大学或定语,且状态词的功能比形容词要集中。因此,把状态词从形容词中独立出去是有道理的。(五)区别词从上表(见表 6)看,区别词的功能很单一,85%以上的功能都是做定语。因此,把区别词从形容词中独立出来是合理的。剧本中区别词做定语的比例较低的主要原因是,口语中区别词后面经常省略中心语名词,甚至独立使用。因此,前面的区别词就被标为主宾语。如:(2)男的爱女,女的爱男。(

18、老舍 柳树井)(六)数词从下表(见表 7)看,数词的功能也很单一,表 7数词的功能构成及其语体差异功能剧本小说故事纪实新闻操作散文学术法规政论总体标准差主语3.01.61.71.61.40.71.71.70.12.31.70.8谓语0.60.20.20.30.32.50.40.20.10.20.30.7宾语5.22.12.92.24.42.12.53.10.63.62.61.2定语78.684.081.583.882.184.885.383.079.279.782.92.3状语6.86.97.76.46.74.26.29.119.59.97.64.0补语3.54.04.41.50.54.42.

19、51.60.02.13.01.5合计97.798.898.495.895.498.798.698.799.597.898.11.2注:功能构成为百分比,语体差异为标准差。大多数语体中 80%以上的功能都是做定语,而且语体差异很小,其他功能的实际比例都很低;虽然数词可以充当多种句法成分。(七)量词从下表(见表 8)看,量词的主要功能是做定语。因为数量词组的主要功能就是做定语,所以作为其中心成分的量词被标为定语。操作语体中数量信息非常重要,数量词组经常被放在名词后面做谓语加以凸显,因而量词也被标为谓语。法规中量词做状语的比例异乎寻常地高,是因为法规条款前面的“第 X 章/条”等被标为后面谓词的状语

20、成分。(八)代词从下表(见表 9)看,代词的主要功能是做主语或定语。不过,不同语体有差异:文学类语篇(剧本、小说、故事等)中主语比例高于定语;非表 8量词的功能构成及其语体差异功能剧本小说故事纪实新闻操作散文学术法规政论总体标准差主语4.42.01.92.11.72.13.43.62.34.02.30.9谓语1.40.70.82.12.225.31.11.70.30.61.37.3宾语16.211.211.912.814.816.614.213.02.814.612.13.7定语60.270.067.267.262.631.767.270.832.265.866.714.1状语9.49.411

21、.411.012.95.28.26.962.110.511.515.9补语7.76.26.34.65.818.65.43.60.33.85.74.5合计99.299.499.499.799.999.499.399.610099.399.50.2注:功能构成为百分比,语体差异为标准差。文学语篇(其他)则相反。原因可能在于,前者主要是叙述有关人的事件,代词更倾向于做主语(话题),而后者则不是。(九)副词从下表(见表 10)看,副词的功能最为单一,几乎都是做状语,而且语体差异也很小。表 9代词的功能构成及其语体差异功能剧本小说故事纪实新闻操作散文学术法规政论总体标准差主语45.942.939.737

22、.733.122.139.032.39.231.340.310.3宾语19.718.519.816.512.711.916.113.512.210.317.93.3定语25.631.930.637.746.853.437.247.977.651.834.014.3合计91.293.390.191.992.687.492.393.799.093.492.22.7注:功能构成为百分比,语体差异为标准差。渤海大学学报哲学社会科学版渤海大学092092渤海大学学报二二三年第三期渤海大学也将近 60%。四、结论及应用1.根据以上统计,我们可以得出两点结论:其一,在语感上,现代汉语实词具有多功能性(尤其是

23、名动形);但在实际语篇中,这种所谓多功能性并不明显,大多数实词只表现出一两个(主要)功能。其二,汉语实词的功能构成在不同语体中存在差异,这种差异不仅仅是口语与书面语的对立,而且比例高的功能其差异不一定大。这说明在讨论词类问题时需要考虑语体因素,这也是语体差异在词类功能上的表现。2.语法学界公认划分词类的标准是词的语法功能,但在具体使用这些标准时,大多数是根据“能/不能”的简单对立,忽视了实际存在的程度和比例差异(郭文有依据小规模语料的统计)。“能/不能”属于简单的主观判断,很容易有个体差异,远不如比例数据客观,后者更能反映词语的具体用法。而且不同词类的句法功能会有交叉(如名动形都可以做主宾语)

24、,因此仅根据“能不能”做某种句法成分是很难划类的。不过,不同词类即使句法功能有重叠,但其比例肯定大不相同(如名词做主宾语的比例就远高于动词、形容词)。因此,句法功能的比例差异可以将不同词类区分开。可见,句法功能的比例分布及其差异远比能不能做某种句法成分的对立更(十)拟声词从下表(见表 11)看,拟声词最主要的功能是做状语,其次是定语,二者合计将近 90%。表 10副词的功能构成及其语体差异功能剧本小说故事纪实新闻操作散文学术法规政论总体标准差状语96.496.997.296.496.890.995.896.697.696.496.81.8注:功能构成为百分比,语体差异为标准差。表 11拟声词的

25、功能构成及其语体差异功能剧本小说故事纪实新闻操作散文学术政论总体标准差谓语5.53.32.26.68.510.08.24.70.03.53.1宾语12.72.92.22.93.40.06.03.90.03.23.6定语19.226.834.829.333.150.035.732.016.729.69.2状语53.862.957.257.451.340.045.255.583.359.611.5合计91.296.096.496.296.210095.196.110095.92.5注:功能构成为百分比,语体差异为标准差。三、所有词类的统计数据汇总分析根据上述各个词类的“总体”数据,下表(见表 12

26、)是各词类的主要功能及其累计比例。表 12 表明,在实际语篇中,汉语实词的多功能性并不是很突出。除形容词外,大多数实词的前两位功能就占了 60%以上的比例。17 个词类的前 1 位、前 2 位和前 3 位功能的平均比例分别为 58%、79%和 91%。所谓汉语实词的多功能性在实际语篇中大多数只表现出一两个(主要)功能;即使是形容词,前两位功能所占比例表 12各词类的前三位功能及其累计比例(百分比)功能普名比例人名比例地名比例机构比例处所比例时间比例方位比例动词比例形容比例第 1 功能宾49主52定61定60宾48状54宾47述44定37第 2 功能定74定82宾88主88定72定85状64谓6

27、7谓57功能状态比例区别比例数词比例量词比例代词比例副词比例拟声比例平均比例第 1 功能状35定89定83定67主40状97状6058第 2 功能定7089状91宾79定7497定8979第 3 功能谓868991状91宾9297谓9391第 3 功能主97宾99主99宾99状89宾97定84宾78状73渤海大学学报二二三年第三期渤海大学093093渤海大学学报哲学社会科学版渤海大学有划类价值。在实际语料库中,词语句法功能的比例大多也不是 0 和 100 的对立。马彪(1994)的统计方法和袁毓林等(2009)、袁毓林(2010)的隶属度方法虽然也有量化观念,但在对具体标准的判断时仍然是根据“

28、能不能”说6-8。3.上述的表格只列出了各词类的主要功能的比例,如果把所有词类所有功能的比例都列出来就会发现,每个词类的功能构成模式(功能比例数字序列)是各不相同的,反映在直角坐标系中就是形状各异的曲线。按照数学中计算数字系列和曲线距离的方法,就可以把这些词类区分开。也就是说,只要统计出某个词语的句法功能比例分布数据,就可以自动、准确地判断出其词类归属。按照这个设想,借助大规模语料库和自然语言处理的句法分析技术,运用当前机器学习中的分类算法,就可以设计出一个能够自动判断词语的词类归属的计算机程序。这种量化数据比“能不能”的简单对立更细致深入;利用机器学习分类算法的人工智能方法可以避免仅凭语感带

29、来的主观性,增强分类的精确度;采用计算机程序这种现代技术手段可以极大地提高词类划分的效率。目前我们对这一设想进行了初步尝试,证明是可行的。注释:淤莫文材料包括骆驼祥子 家各一章、孔乙己、一件小事、龙须沟 一幕、雷雨 一场、政论文和散文 10 篇,近 5 万字。贺文材料包括北京人会话和书面语(政论文、公文、科学论文和报刊)各 4 万字。郭文材料包括电视剧 编辑部的故事 和 1995 年 人民日报 各1.1 万字。于本文所用的 10 种材料共计 2 287.2 万字、1 432 万词。具体如下:1.剧本 87.9 万字;2.小说 530.9 万字;3.故事592.2 万字;4.纪实 456.1 万

30、字;5.新闻 127.3 万字;6.操作17.4 万字;7.散文 60.1 万字;8.学术 213.3 万字;9.法规179 万字;10.政论 19.2 万字。盂详见 https:/ 动词可以同时做谓语或述语,如例(1)中“是”,因此谓语和述语应该分别统计。而定语中心语和状语中心语在更大的结构中都各有其他功能(主语/宾语、谓语/述语),因此不应参与统计。虞 本文“标准差”用的是“总体标准差(stdev.P)”,不包括“总体”部分的数据。下同。愚本文所统计的“主语”不包括所谓零形主语和省略主语,二者只能说与名词同指,但无法确定实际是名词还是代词(代词也与前面名词同指)。如:我有一个朋友,茵是学语

31、言学的。舆 表 11 中“标准差”数据不包括法规这种数值极端的材料。参考文献:1朱德熙.语法答问M.北京:商务印书馆,1985:4.2莫彭龄,单青.三大类实词句法功能的统计分析J.南京师大学报,1985(2):55-63.3贺阳.性质形容词句法成分功能统计分析M/胡明扬.词类问题考察.北京:北京语言学院出版社,1996:121-132.4郭锐.现代汉语词类研究M.北京:商务印书馆,2002:270-293.5陆俭明.现代汉语句法论M.北京:商务印书馆,1993:191-195.6马彪.运用统计法进行词类划界的一个尝试J.中国语文,1994(5):347-360.7袁毓林,马辉,周韧,等.汉语词类划分手册M.北京:北京语言大学出版社,2009:70-82.8袁毓林.汉语词类的认知研究和模糊划分M.上海,上海教育出版社:2010:55-78.(责任编辑温艳华)渤海大学学报哲学社会科学版渤海大学094094

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服