收藏 分销(赏)

T∕CES 156-2022 电力智能交互文本训练语料标注规范.pdf

上传人:moonsi****63.com 文档编号:451967 上传时间:2023-10-08 格式:PDF 页数:5 大小:303.16KB
下载 相关 举报
T∕CES 156-2022 电力智能交互文本训练语料标注规范.pdf_第1页
第1页 / 共5页
T∕CES 156-2022 电力智能交互文本训练语料标注规范.pdf_第2页
第2页 / 共5页
T∕CES 156-2022 电力智能交互文本训练语料标注规范.pdf_第3页
第3页 / 共5页
T∕CES 156-2022 电力智能交互文本训练语料标注规范.pdf_第4页
第4页 / 共5页
T∕CES 156-2022 电力智能交互文本训练语料标注规范.pdf_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、 ICS 35.240.99 CCS L 60 团体标准T/CES 1562022 电力智能交互文本训练语料标注规范 Specification for annotation of power intelligent interactive text training corpus 2022-12-19 发布 2022-12-21 实施中国电工技术学会 发布 T/CES 1562022 I 目 次 前言.1 范围.1 2 规范性引用文件.1 3 术语和定义.1 4 缩略语.2 5 总则.2 6 基本要求.2 6.1 存储格式要求.2 6.2 命名要求.2 6.3 质量要求.3 6.4 样本描述

2、文件要求.3 7 标注要求.3 7.1 基本要求.3 7.2 意图标注要求.3 7.3 槽位标注要求.4 7.4 标注完成的语料样本命名与存储要求.4 8 标注流程.4 8.1 总体要求.4 8.2 语料样本检查.5 8.3 安全管控.5 8.4 标注工具选择.5 8.5 语料样本标注.6 8.6 标注结果收集.6 8.7 标注结果检查.7 附录 A(资料性附录)电力智能交互文本训练语料样本标注示例.8 A.1 场景 1:电费相关.8 A.2 场景 2:电力知识查询.8 A.3 场景 3:电力安监.8 附录 B(资料性附录)标注完成的电力智能交互文本训练语料样本应用示例.10 T/CES 15

3、62022 II 前 言 本文件按照 GB/T 1.12020标准化工作导则 第 1 部分:标准化文件的结构和起草规则的规定起草。本文件由四川中电启明星信息技术有限公司提出。本文件由中国电工技术学会标准工作委员会能源智慧化工作组归口。本文件起草单位:国网信息通信产业集团有限公司、四川中电启明星信息技术有限公司、国网重庆市电力公司、国网重庆市电力公司电力科学研究院、重庆大学。本文件主要起草人:李强、宋卫平、王红蕾、赵峰、周孔均、钟加勇、倪平波、李炳森、田鹏、李欢欢、徐小云、刘礼、崔秋实、张强、李立、李军、高攀、高胜杰。本文件为首次发布。T/CES 1562022 1 电力智能交互文本训练语料标注

4、规范 1 范围 本标准规定了对电力智能交互文本训练语料的基本要求、标注要求和标注流程。本标准适于电力智能交互文本训练语料的标注、管理及质量管控等。2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB/T 5271.28 信息技术 词汇 第 28 部分:人工智能 基本概念与专家系统 T/CESA 1040 信息技术 人工智能 面向机器学习的数据标注规程 T/CES 128 电力人工智能平台总体架构及技术要求 3 术语和定义 下列术语和定义适用于本文件。3.1 语料 co

5、rpus 即语言材料,是语言学研究的内容,也是构成语料库的基本单元。3.2 样本数据 sample data 其具备的特征能够反映总体数据情况的一部分个体数据。3.3 训练语料 corpora 用于训练算法模型且标注好指定信息的语料。3.4 标注 annotation 采用人工或计算机自动方式对语料样本的属性或特征进行描述,可用于实用的目的,如客户服务或资讯获取等。3.5 意图 intention 指一段自然语言文本信息中,用户所表达的想要达到的某种目的。3.6 槽位 slot 在用户表达意图的句子中,用来准确表达该意图的关键信息的标识。3.7 标注工具 annotation tool 标注人

6、员执行标注任务生成标注结果的过程中使用的工具和软件。标注工具按照自动化程度分手T/CES 1562022 2 动、半自动和自动三种。3.8 半自动化标注 semi-automatic annotation 基于少量人工标注、机器预标注来训练标注模型,用于批量标注样本数据的半人工智能标注方法。4 缩略语 下列缩略语适用于本文件。BIOES:BIOES 标注模式(B-begin,I-inside,O-outside,E-end,S-single)BIO:BIO 标注模式(B-begin,I-inside,O-outside)5 总则 本文件对电力智能交互文本训练语料的标注规范主要体现在三个方面:基

7、本要求、标注要求和标注流程。其中,基本要求用于规范电力智能交互文本训练语料样本文件的命名、存储格式等;标注要求用于规范电力智能交互文本训练语料样本文件内容的标注信息等;标注流程用于规范标注完成的电力智能交互文本训练语料样本文件的统一管控等。这三方面内容的具体组织框架如图 1 所示。图 1 内容组织框架 6 基本要求 6.1 存储格式要求 电力智能交互文本训练语料样本数据应采用 txt、csv、Json、xlsx、xls、XML、pdf 等存储格式。6.2 命名要求 电力智能交互文本训练语料文件名称应由四个部分组成:a)第一部分为项目命名词或文本来源;b)第二部分为当前文本文件的专业信息;c)第三部分为原始源文件生成时的日期,日期格式:YYYY-MM-DD;d)第四部分为文件唯一性编号,从 1 开始计数;

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 环境建筑 > 智能化/通信

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服