1、目 录1、引言41.1背景说明412项目说明513参考资料51.4 词语及缩写515 建设目标52、系统总体概述62.1 系统概述622系统功能8221文本转语音8222 多种数据库访问8223 多种语音平台互联9224高效管理923 系统结构113、系统功能1131数据查询与数据组织1132文语转换和语音文件生成1233 TTS处理功能1234应用编程接口134TTS应用特性145、可开放的业务市场1651按照行业划分1652 按照业务划分为:166、系统配置1661处理单元的配置计算1662存贮总容量的计算方法:177. 设备配置和报价清单(人民币元)188结束语19附件:201、引言1.
2、1背景说明数字化信息以及传播数字化信息的网络(特别是Internet)正在改变人们的生活方式和工作方式。众所周知,通过信息网络,用户可以获得非常丰富的信息,可以享受到丰富的信息服务,可以自由地寻找任何自己感兴趣的信息。任何一个获取数字化信息的产品、提供数字化信息的服务和传播数字化信息的媒介都因此变得越来越重要。信息服务在作为第三产业发展最快的行业之一,因其包含极丰富的信息以及方便快捷的信息查找而被全世界认同,并得到了迅猛的发展。为了利用现有的可以进入千家万户的电话网络作为信息查询的终端,将大量的数据库文件和文本文件自动转化成语音文件,提供更为广泛的信息咨询服内容。电话访问WEB站点和E-MAI
3、L信息是一个面向大众提供企(事)业单位基本信息的大型资料库,其内容十分丰富,用户可以通过多种方式查询到感兴趣单位的信息,是企业面向市场、面向大众提供优质服务的增值服务。电话查询WEB信息和E-MAIL信息只能通过168台进行,所以对大部分企业用户来讲,文本资料要首先录制成语音文件,然后才能提供服务,效率低、存储空间大,维护十分复杂,扩充困难。在此前提下,如果使用全中文的自动文语转化系统,可以实时地将文本文件连续地通过语音卡向用户提供语音信息。用户可以十分方便且快捷地查询到自己感兴趣的信息,从而实现信息的价值。由于文语转化系统提供了实时转化的功能,不仅节省了语音文件的空间1000多倍,而且解决了
4、一些无法进行实时录音的功能,减轻了工作量,提高了实时性(信息的时效性)。12项目说明 本项目名称为“TTS系统(产品)项目开发”,所要开发完成的系统名称为“TTS系统(产品)”。13参考资料1) TTS产品的产品可行性分析TTS产品组。2) 语音编码与文语转化关键技术研究TTS产品组。1.4 词语及缩写 TTS - TEXT TO SPEECH15 建设目标 系统是一个完整的平台,可以支持多种数据库和文本文件的同时访问,可以与160、163、168、169等网络进行互联。系统能提供集中式的文语转换功能、全文检索功能、格式转化功能,数据库访问功能、以及二次开发功能等。 首期提供以下功能: 1、1
5、68读取E-MAIL 详细信息功能,并能语音回复功能 2、168听取股票行情及趋势分析预测功能 3、168自动播放动态信息功能(如天气预报、节目预告、动态航班等) 4、168听取其他数据库功能,如114反查询、法人信息查询等 5、专项应用系统,如游戏节目中的自动语音提示等 6、168听取HTML页面信息等。2、系统总体概述2.1 系统概述所谓文语转换技术(Text-to-Speech,简称TTS)指的是计算机自动地把给定的文本信息转换成语音的过程。文语转换是复杂的语音处理技术,是涉及语音学、语言学、数字信号处理和计算机科学等领域的多学科综合性技术。文语转换技术把可视的文本信息转换为可闻的声音信
6、息,其应用范围非常之广,如文本的有声校对,残疾人的辅助发音,报纸的机器阅读,机器翻译等等。因此,文语转换技术,作为一项理论性和实用性都很强的技术,倍受重视,在近十几年内得到了迅速发展,目前已接近达到了实用化的水平,并在市场上获得成功。TTS技术和理论在不停地发展,其核心是如何提高合成语音的清晰度和自然度,以及文本处理的智能特性。另一方面, TTS技术的应用也在不断深化,从计算机终端应用,如编辑文本的校对,发展到通信网环境。 众所周知,通信网是不同媒体信息存储、交换、传输的载体和工具,由于网络的覆盖面非常广阔,所以,借助于TTS技术,把文本信息转化为语音信号,在电信网传播,使用户利用电话终端就可
7、以听取文本所携带的信息,对通信业务经营者和广大用户而言,都是很必要的。例如,传统的160,168等信息服务业务都是用人的录音或业务员来应答用户的信息查询,信息的维护不方便,影响服务质量。传统的电子信函(E-mail)业务,都是利用计算机终端来接收的。如果能够利用更普及的电话终端来“听一听”(而不局限在利用计算机的屏幕来“看一看”)发信人说的是什么,该是多么地生动和方便!另外,对于数据库存取业务而言,如邮电、银行、税务的智能网业务标准里甚至把TTS技术和ASR技术(自动语音识别)列为标准。 在通信网环境里, TTS技术不但对技术开发商很重要,对业务运营方也同样如此。传统的计算机语音集成应用系统,
8、消息的组织和维护都是由人来完成的,工作繁琐,维护不便,占用存储资源多(以语音的ADPCM编码为例,一秒的语音需4K字节的存储,而以人说话速度为5字/秒来计算,采用TTS技术只需10个字节)。 正因为这些原因,众多厂商和研究机构积极开展通信网环境下的TTS技术的研究和开发,包括美国的Lucent、 Dialogic、 Centigram, VCS和Lernaut & Hauspie等公司。TTS是一个专业级的中文(中/英文)全文检索系统,检索功能与检索效率与国内外的软件相等,TTS所处理的资料以文本文件的资料为主,对资料库的定义与定位与国内外的知名的资料库检索系统相似,所以功能十分强大。TTS是
9、中国人根据自己的语音特色和规律开发出来的,其发音的准确率和阅读的易懂性已经达到商业化。在TTS核心技术的基础上,我们增加了全文检索功能、数据库访问功能、E-MAIL读取功能和详细的档案管理功能等,使之成为平台,用户可以在平台的基础上,十分简单地增加新的业务,将新的服务轻松地在平台上得以实现。二次开发的时间很短,开发效率的提高是看得见的。 由此可见,文语转换,作为一项新兴技术,把它嵌入在通信网环境,对于开展增值业务,更新传统业务的实现方式,都很必要。22系统功能 产品系统主要提供文本文件实时转换为语音文件格式,提供给语音卡放音。同时提供各种数据库的数据访问接口、与现有语音系统的连接接口、高效的语
10、音格式转化等功能。系统由于采用了纯软件TTS的解决方案,所以在价格低廉、功能齐全、扩充容易、维护简单等特点。每台处理机可以同时处理16路语音的文语转化,并可以简单地升级和积木式扩容。文语转化提供的最终语音文件是目前我国最佳的语音方案之一,具有国际90年代先进水平的语音编码技术,可以保证播放质量和播放效果。文本识别率、多音多义分析等功能均达到了实用的水平,并已经实际投入商用。基本功能具有4大功能:221文本转语音 主要提供将文本文件实时地转换成标准的语音文件,送到语音平台指定的目录下,由语音平台按照文本对应的语音文件进行放音。由于采用大量的预处理功能,使得文语转换后的语音文件能够容易被人所听懂,
11、且避免了大量语音文件的占用空间。222 多种数据库访问 通过与WEB-HTML、E-MAIL、DBF、BETRIEVE、SQL SERVER、SYBASE、ORACLE、INFORMIX、EXCEL等数据的实时相连,可以快速从数据库中将所需要的文件转化成文本文件,然后送给文语转换处理。223 多种语音平台互联 通过与中国使用的语音平台(SUNTEK、BICOM、BST、IVS、QIAOXING 。)相联,将用户的请求转化为文本,同时将文本转化成对应格式的语音文件,然后交给语音平台进行语音放音等,实现相应的功能。224高效管理 通过一些特殊的处理,使得整个系统的功能得到了优化,整体处理速度得到提
12、高,同时具有完善的信息服务功能和管理功能。1.专业级检索功能654321PSTN连接TTS生成标准语音文件向用户播放相关的语音信息图1. 基于TTS的语音服务体系电话用户168语音服务平台数据库LAN连接查询信息查询信息查询信息23 系统结构建立一套由数据库查询、数据组织、文语转化、语音文件生成等服务构成的原型系统。运行系统包括上述4个组成部分。在实际工作中,可以在一台NT上运行。一台NT可以同时服务16个用户的文语转化,以一个声讯系统同时20%的通道使用TTS的功能,则可以服务3个E1(90线)规模的系统。3、系统功能31数据查询与数据组织 主要提供四个功能:1、 实时访问语音服务系统的数据
13、库,取得访问的数据资料;2、 根据取得的请求,向指定的数据库进行访问,取得相关的文本信息;3、 将文本信息编码后放入流水库中,检查是否存在同样的语音文件。4、 如果没有对应的文本语音,则将文本送交文语转换软件模块,如果有对应的文本文件,则直接将文语语音送指定位置。32文语转换和语音文件生成通过专门设计的文语转换系统,实现将文本文件自动转化成标准的语音文件。语音文件可以按照用户规定的格式进行自动转换。同时将生成的语音文件发送到指定的目录下。提供给语音服务系统的放音。33 TTS处理功能 目前DIALOGIC公司基于Antares硬件的TTS技术具有很多优势,其中一个是软件结构的开放性和模块化。由
14、于硬件结构分为Antares和PC主机两个层次,所以软件也相应分为二个层次:即运行在Antares平台DSP上的TTS算法固件,和运行在主机上的Antares设备驱动程序,TTS应用编程接口和开发商的特定应用程序,其中,运行在Antares平台上的中文TTS的固件包括三部分:TTS算法,SPOX和Antares内核。TTS算法这里不作论述。SPOX是一个实时嵌入式的DSP操作系统,支持多任务和OSP资源的调度与分配,如内存等的申请和释放。Antares内核用来把功能单元和DSP的底层硬件分隔开,便于资源的管理和使用。SPOX和Antares内核有助于开发多通道的通信领域的中文TTS技术。这三部
15、分模块有机结合在一起,形成DSP可识别的、可下载的公共目标代码格式文件(COFF)。用户的应用程序,涉及的中文文语转换操作是在提供的开放的TTS API基础上开发的,而与电信网的接口处理,包括DTMF的检测,信号的产生、信今的处理,交换和接续的控制以及语音信号的A/D和D/A变换等操作,是由D/320SC-E1和D/300SC-E1等语音卡支持的。而我们的解决是可以实现完全同样功能的解决方案,是基于软件的解决方案。成本上下降了很多,灵活性很大。可以与DIALOGIC、NMS、LUCENT、BICOM、TAIXING、BST等厂家的语音卡进行连接,可以实现实时的解决方案,且接口简单,价格低廉。3
16、4应用编程接口 为了方便用户在计算机语音集成(CTI)系统应用中嵌入中文TTS技术,专门设计了应用编程接口(API),APl包括一系列功能函数,并封装在可链接的UNIX库文件内。TTS是一种资源,使用前必须先打开。TTS的打开类似于文件打开操作,若还有空闲的TTS资源,函数将返回一个句柄。TTS设备打开以后,就可以调用函数,和申请TTS处理的语音通道(模拟通道或数字时隙)建立SC等总线的时隙连接,这样,就可以调用函数,处理文件或内存缓冲区的中文文本,合成出可闻的音频信号输出。放音结束后,要调用函数撤除该链路,并关闭该TTS设备,以释放占用的TTS资源。4TTS应用特性1. 硬件:PC机服务器2
17、. 主机操作系统: Windows NT Server/WorkStation 4.0平台 3.每台可以支持最多16通道同时进行TTS操作。 4. 支持汉语普通话的文语转换 5. 支持数字,数字串,英文字母的阅读 6.同步编程或异步编程: 7.支持A律和U律PCM编码的TTS放音。 8支持语音格式: PCM(8K采样) 用于Telephone voice Dialogic ADPCM(8K采样) 用于Telephone voice Dialogic ADPCM(6K采样) 用于Telephone voice BICOM(6K采样) 用于Telephone voiceWAV (8K采样)用于电脑
18、声卡试听 RA (8K采样) Internet/169网专用9支持数据连接方式: (1)POP3取电子邮件; (2)HTML取网页; (3)SYBASE SQL SERVER; (4)MS SQL SERVER; (5)格式化灵活文本文件;(6)ORACLE、DB2、BTRIEVE、INFORMIX 数据连接方式可选, 并可支持UNIX通过FTP请求数据转化的数据连接方式。(7)扩展:支持流行的WORD,EXCEL的DOC和XLS文件,支持Winzip的文本文件及DOC和XLS文件以配合电子邮件的附件 (Attach)功能, 支持电子邮件的多Attach功能, (8) 支持Web Mail协议
19、。 10支持中西文混和的文语转换:(1)嵌入成熟的西文TTS开发包,(2)嵌入中西文字典以针对HTML和E-MAIL的标志性信息翻译,GB、BIG5自动识别及转换。11执行性能(速度及多通道及容量) (1)16通道并行工作 (2)理论上可转换不限长文字,为了提高反应 我们对长度加以限制为4090(即2045个汉字) 12稳定性可连续运行,遇到非法转换请求可以自动过滤,不会造成死锁及down机。13良好的监控界面转换内容排队池管理并有实时通道占用状况描述,适合工业化运作监控。 14良好的语音试听功能: (生成8K的WAV格式)用于一般声卡的试听 15良好的日志管理:分:A、历史状态浏览列表窗,
20、B、可选择记录项目的日志文件。5、可开放的业务市场51按照行业划分中国电信、移动、工商、税务、技术监督,52 按照业务划分为:(1) 168台新增数据查询及文语转换功能(2) 电话查询E-MAIL/电话回复E-mail(3) 电话查询防伪信息(文字信息)(4) 电话查询黄页广告(5) 电话听天气预报、股票行情等动态信息(6) 电话自动应答系统 。6、系统配置61处理单元的配置计算 1套TTS系统的一个单元,可以处理16路并发呼叫。生成的语音压缩采用ADPCM方式,采样频率为6KHz/8KHz,每秒语音计3Kbyte/s-4Kbyte/s 根据电话网和168台上的话务量统计数据 最忙话务小时:
21、2% 平均通话时长: 18秒 呼叫次数/天/用户: 0.3 次 本方案提供的计算方法是依据爱尔兰的B模式。 根据贵公司实际需求和情况,初期只考虑上100万用户,待将来业务增长,可根据需要极为方便地进行扩容。现以此为准计算出系统容量: 每个用户的平均最忙话务量=呼叫次数/天/用户平均通话时长 最忙话务小时/3600秒 =0.318秒2% /3600秒=0.00003 Erl 系统总话务量=用户总数每个用户的平均最忙话务量 =10000000.00003 =30 Erl 业务单元数=系统总话务量/16 =30/ 16 = 2(个) 计需要2个业务处理单元62存贮总容量的计算方法: 初期我们建议暂设
22、为100万个用户,每个用户占用容量为1K。存贮总容量=用户总数每个用户占用容量 =10000001000 = 1GB 考虑到系统、话务数据还需占用一定的硬盘空间,我们建议配置9G的硬盘;为了确保数据的安全,采用了磁盘镜像的方式。7. 设备配置和报价清单(人民币元)详细资料见附件:TTS文件名称配置报价说明TTS软件费50,000协调费、工程安装费10,000系统总报价60,0008结束语 TTS技术将在新一代的通信技术和业务中扮演举足轻重的角色,在计算机语音集成应用中,没有TTS技术将难有作为。事实上,TTS技术对系统开发人员和业务运营者同等重要。正因为这个原因,我们开发并设计了基于DSP技术
23、的汉语普通话文语转换产品,并把它主要定位在通信网应用领域,以支持大容量、高密度的计算机语音集成应用。该产品的最大优势在于它的开放性,对于没有TTS技术背景的开发商,人门并正确使用也比较容易。我们期待这个产品能促进中国CTI业务的发展。通过TTS系统建立一条168自动声讯台与169/163站点的自动检索和翻译的通道,从而将169(INTERNET)网上的大量信息快速提供给168台服务,从而提供了一条电话访问169的通道,无形中增加了169的用户数和访问次数。对168台和169台均有十分积极的作用。TTS的应用范围很广,可以衍生成多个边缘性、交叉性解决方案。广东xx实业有限公司1999/8/25附
24、件:中文文语转换软件开发包 技术特性 TTSKit2是专门实现汉语文语转换(Text-to-Speech)的软件开发包,计算机能自动地把动态文本转换成语音信号。TTSKit2采用先进的数字信号处理技术, 专 门 为 计 算 机 语 音 通 信集 成 应 用 设 计,具有以下一些 典 型特性:1.合成语音清晰,自然,准确。2. 能自动处理文本中的多音字、轻声、儿话等语言现象。3. 支持汉语普通话,能转换任意GB文本。4.多通道实时转处理,单机最多达16线。5.支持多种 软 件操作系统平台,包括Windows NT和SCO-UNIX等。6.支持多种 流 行 的语音卡硬件平台 7.输出语音编码支持
25、标 准 的64Kbit/s的A/Mu律PCM( 采 样 率 为8KHz, 编 码 为8 比 特)。8.合成语音可选择男/女声 发 音 模 式。9.特别适合计算机语音集成(CTI)领域应用,包括数据库远程存取,E-mail/Fax阅读, 报 纸 阅 读等通信增值业务 应 用。10.占用主机存储资源 和 计 算 资 源少,效率高。11. 输 出 语 音 具 有 文 件 和 内 存 两 种 暂 存方 式, 灵 活 方 便。12. 系 统 工 作 稳 定 可 靠。13.提供完善的应用编程接口(API)函数,用户无需深入了解TTS技术细节, 系 统 集 成简单易用。14. 与 其 他 语 言( 如 英 语) 的TTS 技 术 能 集 成 在 一 起, 支 持 双 语 操 作。
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100