收藏 分销(赏)

拓尔思数据要素白皮书.pdf

上传人:Stan****Shan 文档编号:1263490 上传时间:2024-04-19 格式:PDF 页数:88 大小:5.79MB
下载 相关 举报
拓尔思数据要素白皮书.pdf_第1页
第1页 / 共88页
拓尔思数据要素白皮书.pdf_第2页
第2页 / 共88页
拓尔思数据要素白皮书.pdf_第3页
第3页 / 共88页
拓尔思数据要素白皮书.pdf_第4页
第4页 / 共88页
拓尔思数据要素白皮书.pdf_第5页
第5页 / 共88页
点击查看更多>>
资源描述

1、拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第0页 拓尔思数据要素白皮书 拓尔思数字经济研究院 2023 年 3 月 股票代码:300229 拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第1页 目目 录录 一、我国数据要素市场发展概述.3 1 数据量井喷式增长,数据要素市场规模将破千亿.4 2 数据交易产业链形成,数据交易需求旺盛,盈利模式多样化.5 3 我国数据交易机构建设迎来新浪潮,数据流通进入 2.0 时代.6 二、拓尔思数据要素业务目标.7 三、拓尔思数据要素业务体系.7(一)“1+1=N”的数据要素商业模式.7(二)数据要素治理体系.8(三)数据要素业务总体架构.10(四

2、)数据要素供给业务视图.11(五)数据要素业务运营架构.12 四、拓尔思数据要素业务介绍.15(一)云和数据服务业务发展之路.15(二)公司数据资产现状.17 1 数据资产规模.18 2 大数据底座产品清单.23 3 数据安全产品清单.25 4 云和数据服务产品清单.25(三)大数据底座和人工智能产品介绍.27 1 网络大数据采集.27 2 数据资源汇聚.30 3 大数据管理.33 4 数据中台.35 5 数据质量管理.38 6 人工智能技术平台.43(四)数据安全产品介绍.45 1 网络安全市场.45 拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第2页 2 产品服务模式.47 3 市场

3、规模测算.49(五)云和数据产品介绍.49 1 政府.49 2 金融.65 3 媒体.69 4 专利.71 5 舆情.75(六)云和数据服务收入规模.79(七)小结.80 1 拓尔思数据要素业务发展空间大,未来可期.80 2 拓尔思有望成为国内另类数据服务龙头,加速数据要素价值释放.81 五、拓尔思数据要素发展方向.83(一)强化数据要素底座基础.83(二)加强数据治理能力建设.83(三)提升数据要素变现能力.84 六、拓尔思数据要素业务保障.84(一)组织保障.84(二)资金保障.85(三)人才保障.85 拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第3页 一、一、我国数据要素市场发展

4、概述我国数据要素市场发展概述 数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产方式、生活方式和社会治理方式。数据要素已成为驱动中国式现代化的重要引擎。当前,经济全球化已进入一个由数据要素驱动的新时代。2020 年 4 月,中共中央、国务院发布的关于构建更加完善的要素市场化配置体制机制的意见 中正式把数据作为生产要素单独列出,并提出了促进数据要素市场化配置的改革方向。后面,又陆续在国务院办公厅关于印发要素市场化配置综合改革试点总体方案的通知中共中央国务院关于加快建设全国统一大市场的意见“十四五”数字经济发展规划 国务院办

5、公厅关于印发全国一体化政务大数据体系建设指南的通知 等政策文件以及中央深改委第二十六次会议上,进一步提出要促进数据要素资源在更大范围内畅通流动,加快构建数据基础制度体系,推动我国数据要素市场健康有序发展,加快构建以数据为关键要素的数字经济。2023 年伊始,数据要素市场活跃。2022年底,中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见(简称“数据二十条”)对外发布,系统性布局了数据基础制度体系的“四梁八柱”,加速了数据流通交易和数据要素市场发展。各地正积极推进数据交易场所建设,优化交易环境,让选购数据产品像逛超市一样方便快捷。拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第4

6、页 图 1:我国数据要素市场培育的顶层机制建设 1 1数据量井喷式增长,数据要素市场规模将破千亿数据量井喷式增长,数据要素市场规模将破千亿 数据为数字经济的发展提供了不可或缺的动力支持,近年来全球数据量呈井喷式发展。根据国际数据公司(IDC)预测,2025 年全球数据量将达到 163ZB。随着数据量指数级增长,数据分析算法和技术迭代更新,数据创新应用和产业优化升级,数据对社会变革的影响将更加深远。与此同时,随着数据要素相关政策文件推动数据要素市场深化改革,我国数据要素市场规模进入高速增长阶段。根据国家工业信息安全发展研究中心测算,2025 年将突破 1749 亿元,“十四五”期间我国数据要素市

7、场规模复合增速将达到26.3%,整体上进入高速发展阶段。拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第5页 图 2:我国数据要素市场规模及预测 2 2数据交易产业链形成,数据交易需求旺盛,盈利模式多样化数据交易产业链形成,数据交易需求旺盛,盈利模式多样化 数据流通发生在数据交易前、交易中、交易后和数据出入境等环节,目前已形成产业链生态雏形。在国家政策的推动鼓励下,数据产品交易从概念逐步落地,部分省市和相关企业在数据定价、交易标准等方面进行了有益探索。随着数据产品交易类型的日益丰富、交易环境的不断优化、交易规模的持续扩大,我国数据产品交易变现能力显著提高。根据国家工业信息安全发展研究中心等

8、机构联合发布的中国数据要素市场发展报告,2021 年数据要素对我国 GDP 增长的贡献率和贡献度分别为 14.7%和 0.83 个百分点,呈现持续上升状态。市场空间方面,2021 年我国数据要素市场规模达到815 亿元,2022 年市场规模接近千亿元,并且在“十四五”期间有望保持 25%的复合增速。目前数据交易所的盈利模式主要有三种:佣金模式、会员制模式、增值模式,但盈利模式多样不代表其盈利拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第6页 能力强大,数据交易所作为“准公共服务机构”,主要目标是赋能市场,推动经济发展。3 3我国数据交易我国数据交易机构建设迎来机构建设迎来新新浪潮浪潮,数

9、据,数据流通进入流通进入 2.02.0 时代时代 当前,数据要素市场发展势头强劲。随着数据要素相关政策的推动、数据安全和个人隐私法规的完善及数据流通技术的快速发展,数据产品交易迎来 2.0 时代。截至 2022 年底,全国数据交易所已近 50家。除建立数据交易所外,各省市纷纷成立由各级政府主导的大数据集团,进一步推动数字化转型进程和数字经济发展。国家未来的目标是培育全国统一数据大市场,包括国家级数据交易所、区域数据交易中心、行业数据交易平台、数据商、数据供需方、第三方服务机构等,通过完整的生态推动数据产业蓬勃发展。数据来源:拓尔思根据互联网公开数据整理 图 3:我国数据要交易所建设历程 拓尔思

10、数据要素白皮书 拓尔思信息技术股份有限公司 第7页 二、二、拓尔思数据要素拓尔思数据要素业务业务目标目标 拓尔思以完善自身数据要素资源体系、壮大数据要素应用体系及建立数据要素安全体系为发展目标,全面布局数据要素市场。一是完善拓尔思数据要素资源体系,充分释放数据要素价值一是完善拓尔思数据要素资源体系,充分释放数据要素价值。强化拓尔思数据资源采集汇聚能力,推动数据高质量汇聚。提升公司在数据采集、标注、存储、传输、管理、应用等全生命周期管理的规范性,健全公司数据资源管理机制,优化数据质量评估方案,积极应用先进质量管理工具,形成数据质量管理闭环,从而进一步促进数据要素价值提升。二是壮大拓尔思数据要素应

11、用体系,深化数据驱动的行业应用二是壮大拓尔思数据要素应用体系,深化数据驱动的行业应用。加强拓尔思在政府、金融、媒体、专利、产业大数据、开源情报等重点行业的数据应用模式探索,深化数据驱动的全流程应用,提升基于数据分析的服务并复制推广。三是三是强化强化拓尔思数据要素安全体系,拓尔思数据要素安全体系,提升数据支撑和安全保障提升数据支撑和安全保障能力建设能力建设。加强公司数据安全管理体系建设,进一步明确安全主体责任和防护要求。围绕数据全生命周期的安全保护要求,强化数据安全监测、加密传输、访问控制、数据脱敏等环节的技术保障,稳步建立数据风险防控体系和预警机制。三、三、拓尔思数据要素业务体系拓尔思数据要素

12、业务体系 (一)(一)“1+1=N1+1=N”的数据要素商业模式的数据要素商业模式 拓尔思在经营过程中形成了一套 1+1=N 的数据要素商业模式。“1+1”是指一个大数据底座和一个人工智能技术平台。拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第8页“N”是指行业 SaaS 服务集群,未来可实现 N 个云服务产品的拓展。“1+1=N”的商业模式主要依托拓尔思自建的大数据中心,基于自研的大数据底座和人工智能技术平台,面向优势行业的业务应用,根据不同场景封装产品,基于公司成熟营销体系迅速推向市场。这种模式充分体现了拓尔思的数据要素具有可复制性强、迭代速度快、复用价值高以及无限供给等特点,实现了

13、统一数据在产品化方面的裂变增长。图 4:拓尔思数据要素商业模式:1+1=N(二)(二)数据要素治理体系数据要素治理体系 数据作为一种新的生产要素,在企业构筑竞争优势的过程中起着重要作用,企业应将数据作为一种战略资产进行管理。数据从业务中产生,在 IT 系统中承载,要对数据进行有效治理,需要业务充分参与,IT 系统确保遵从,这是一个非常复杂的系统工程。拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第9页 拓尔思公司从 2010 年开始自建大数据中心,经过十多年的实践积累,建立了一套符合公司实际的数据治理体系。该体系从组织、制度、流程、标准、质控、执行、IT、数据产品等方面做出了明确规定,确保

14、关键数据资产有清晰的业务管理责任,作业人员有规范的流程和指导,跨公司跨部门协作时有顺畅的工作机制,治理过程有充足的人才、组织、预算保障,数据产品创新有稳定的决策和优先流程。综合上述因素,最终建立有效的数据治理环境,数据的质量和安全得到保障,数据的价值才能真正发挥出来。图 5:拓尔思数据要素治理框架 拓尔思在长期的业务经营过程中,形成了一套数据与知识融合的数据要素治理体系。拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第10页 图 6:拓尔思数据要素治理体系 (三)(三)数据要素业务总体架构数据要素业务总体架构 在规模持续高速增长的数据要素市场中,拓尔思拥有完整的大数据基础建设产品线、丰富的

15、行业 SaaS 服务集群和可靠的安全一体化平台。拓尔思采集的数据均为公开的网络数据,基于自研的海贝大数据管理系统进行统一存储,通过 TRS 人工智能技术平台对源数据自动分类、自动抽取、自动标注、自动查重、质量校核等处理,使之成为数据要素。采用不同行业不同场景的业务模型、算法等,将数据要素进行不同维度的融合,包括数据级融合、行业级融合、场景级融合、决策级融合等,形成不同类型的数据产品,实现数据资源向数据资产转变。数据产品以 SAAS、DAAS、KAAS、MAAS 等不同方式,向政府、金融、媒体、专利、能源、企业等行业用户提供细分场景的在线服务,最终实现数据要素的价格化及商品化。拓尔思建立了一套数

16、据安全管拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第11页 理、数据运营及技术运维、数据要素生态管理等完整体系,为公司数据要素市场化过程提供保障。图 7:拓尔思数据要素业务总体框架(四)(四)数据要素供给业务视图数据要素供给业务视图 拓尔思采集的公开数据属于另类数据。目前,业界对另类数据暂没有统一定义。在当前数字时代的语境下,另类数据不同于传统的交易所、公司公告等披露的金融数据,它是由各类信息终端、平台或者系统产生的数据,这些数据能够用来帮助进行投资决策。之所以被称作“另类数据”,是因为当下数据的来源、形式和作用均有别于传统数据,让我们有了解事物外界变化的不同思维方式,所以称为“另类”

17、。从数据源来看,另类数据的数据源种类主要可以分为以下三大类:1.个体相关数据:由个人在社会行为中所产生的相关数据,如社交媒体信息、产品评价、搜索记录、APP 使用、通话信息等;拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第12页 2.商业过程数据:由商业行为中的交互所产生的相关数据,如支付信息、产品销售数据、人流量数据、Web 数据、数据要素等;3.传感器数据:由卫星、5G 基站和传感器等其他设备所收集到的数据,例如车辆轨迹数据、农业种植数据、石油储量数据、生产相关数据等。拓尔思主要采集 Web 数据、数据要素、社交媒体信息、新闻报道等,并将这些另类数据进行数据要素化处理,与业务场景进行

18、紧密融合后,形成不同类型的数据产品,应用广泛且在不同行业中发挥着重要作用。拓尔思数据要素供给可满足政务、金融、媒体、专利、舆情等业务场景,具体业务视图如下所示:图 8:拓尔思数据要素供给业务视图(五)(五)数据要素业务运营架构数据要素业务运营架构 拓尔思数据要素业务运营架构如下图所示:拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第13页 图 9:拓尔思数据要素业务运营架构 整个运营架构涉及运营依据、运营监管、产品运维、以及资源层、业务层、服务层等模块。1.运营依据是数据要素运营的导向运营依据是数据要素运营的导向。运营依据是数据要素运营的导向,数据要素运营要以国家战略为指引,遵从法律法规的

19、约束,符合地方政策、行业准则和标准规范的要求,并依此来开展数据要素运营活动,确保整个数据要素运营活动的合法合规,安全守正。2.运营监管是保障运营监管是保障。通过对数据要素运营过程中的核心能力要素监管,包括数据监管、模型监管、平台监管、流通监管等,确保数据要素运营和服务等活动开展的风险可控和数据产品的健康良性发展。3.大数据底座大数据底座是基础是基础。由于数据要素运营关系到公司利益与品牌形象,因此要构建一个核心能力集中的、安全可控的、行为可追溯的大数据底座,承载基础数据要素的总体运营,包括统一的数据管理平台、人工智能平台、安全一体化平台和行业 SaaS 服务集群等。其既可以支撑面向公司部门之间数

20、据共享应用、提升公司的治理和服务能拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第14页 力的内部循环,又可以支撑面向社会主体开放应用、流通和释放数据要素价值的外部循环。4.资源层、业务层和服务层是资源层、业务层和服务层是数据要素数据要素运营的核心资源层运营的核心资源层。资源层:数据要素运营的供给,包括数据资源和知识资源:数据资源主要是拓尔思的自采数据和生态数据;知识资源包括在数据要素运营和服务过程中所产生能够促进数据要素价值流通的应用场景、模型、算法标准和规则等价值资源。业务层:主要包括内部管理和外部运营。内部管理主要是面向数据要素资源或资产的全生命周期管理,包括数据采集、存储、加工、校

21、核、管理、分析、安全、归档等环节。外部运营先确认不同数据产品的运营主体,并明确其权责利。其次清晰运营模式,包括需求对接、合作方式、利益分配和监管机制等。然后封装或研发对外数据服务和产品,对外进行推销推广,推动数据要素价值流通。再次通过认证授权,确保生态相关参与方的数据访问范围和权限清晰、行为可追溯等。最后是生态保障和运营分析,使数据产品健康良好的持续发展。服务层:包括面向公司部门数据共享的内部服务循环和面向社会的外部服务循环。内循环是确保安全可控前提下的数据共享应用和运营,重点关注数据评估、数据共享、数据应用、知识产权等环节的管理机制、路径和方法。外循环是开放的新兴数据要素市场形成和产业生态构

22、建过程,重点关注数据服务、产业生态、数据流通、业务洞察、效果评估和需求反馈等环节。最后,内外服务循环通过稳定的管理机拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第15页 制实现外部价值数据安全顺畅的回流反馈,内部数据优化服务及时有效的外推迭代,形成了一个大的业务服务闭环。四、四、拓尔思数据要素业务介绍拓尔思数据要素业务介绍 (一)(一)云和数据服务业务发展之路云和数据服务业务发展之路 拓尔思大数据中心自 2009 年开始筹备建设,2010 年正式成立,标志着公司开始布局数据服务。12年来,拓尔思一直坚持探索“1+1=N”数据业务模式,持续研发了丰富的数据服务产品,目前已经形成了以服务政府

23、、金融、媒体、新兴企业为主的行业 SaaS 产品集群。图 10:拓尔思数据业务发展之路 2011 年,拓尔思推出了第一款 SaaS 产品:TRS SMAS,这是一款面向政府、企事业单位、个人提供基于社交网络的舆情分析云服务。众所周知,2010 年是“微博元年”,人们更加熟悉的应用微博获取信息、沟通交流、休闲娱乐,政府部门也更趋向于通过微博发布政务信息、回应社会关切,微博对社会发展起到了越来越重要的作用。2011年被人称为“微博红年”。以前铁道部部长刘志军涉嫌严重违纪被免职为标志性事件的微博反腐、以湖北官员冉建新非正常死亡为标志性拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第16页 事件的

24、微博维权、河南禹州天价过路费案引发的微博热议、湖北“死囚复生”谜案及洛阳李浩地窖囚禁 6 名女子案引发的微博追踪等都发生在 2011 年,均是通过微博在全国引发了巨大的网络舆情危机。拓尔思基于自研的网络信息采集产品和坚实的人工智能技术,迅速地研发了 TRS SMAS 推向市场。由于产品具备的社交数据更新及时、数据量覆盖较广、舆情分析功能较全、用户体验界面可视化可交互等特点,很快得到了高端用户的认可,如政府用户有外交部、质监总局、食药监局、最高法、卫生部、国家纪委等,企业用户有国家电网、移动、联通、佳能、神威药业、新华保险等。2014 年,拓尔思推出了第二款 SaaS 产品:TRS 网脉大数据云

25、服务,这是一款面向政府、媒体、企业等企业级客户提供专业的网站、APP、小程序分析服务,通过精准分析提高网站、APP、小程序友好性,帮助企业运营进而提升网络营销的有效性和便利性。该产品的推出,实现了存量的政府、媒体、企业用户的优势业务延伸,如外交部、国家气象局、全国总工会、陕西省政府、天津市政府、浙江日报、新疆日报、深圳报业、广发银行、邮储银行、海尔等都是网脉的核心用户。2015 年,拓尔思的全资子公司金信网银推出了“冒烟指数”监测预警平台。该平台是国内聚焦地方金融监管与金融风险防控,专门服务地方金融监管机构的大数据咨询平台,也是国内第一个非法集资监测预警平台。产品上线不久,在 2015 年年初

26、公司监测预警了 e 租宝的风险,同时报送给相应的监管机构。受公安部的委托,公司的监测拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第17页 预警平台也把风险企业报送给公安部。2016 年“冒烟指数”监测预警平台的业务推广开始走出北京,服务全国。拓尔思 SaaS 产品每年保持健康有序的迭代,并随着公司对行业用户业务的深耕以及对国家政策信号的敏锐捕捉,几乎每隔一两年拓尔思都会推出新的数据服务产品。拓尔思作为融媒体平台第一轮技术建设浪潮中的绝对主力,在2016 年完成了以浙江日报报业集团“媒立方”为标杆的融媒体平台代表作后,精准地判断融媒体后时代的建设将从基础平台建设向媒体大数据服务转变,在 2

27、017 年很快推出了数家资讯大数据平台。2018 年初,公司提出坚持“大数据+人工智能”技术为行业赋能、“面向行业重度垂直应用”、“云和数据服务优先”的三大整体战略。同年推出了数星智能风控云服务、网察大数据云服务。2019 年 4 月,公司成立了天津拓尔思数据服务中心,其定位是服务全集团,发展目标是成为集团核心的数据生产和服务基地,主要从事数据资产的采集、清洗、标引、加工和数据产品的研发,并为客户提供数据分析服务。2022 年 9 月,拓尔思在秋季新品发布会上发布了 9 款 SaaS 服务产品,除虚拟人开放云服务外,其他 8 款产品均为数据产品。(二)(二)公司数据资产现状公司数据资产现状 拓

28、尔思数据中心目前拥有 3 大专业 IDC 机房,上千台高端机架式服务器完成对互联网公开数据的 7*24 小时不间断采集,同时租用了拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第18页 阿里云及微软云的服务器实现境外数据采集。数据中心监测的采集站点分类如下:80 万+新闻网站 3000+资讯 APP 1200+国内报刊 20+三方平台 79 语种 50 万+境外站点 每日数据量高达 1 亿多条,几乎涵盖了全量的微博新增数据,网站覆盖度及数据存储量均明显高于业内水平。图 11:拓尔思数据中心总视图 1 1数据资产规模数据资产规模 (1 1)资源性数据资产资源性数据资产(1 13 30000

29、亿亿)拓尔思自建大数据中心,以长期服务多行业用户的开源数据应用持续累积为基础,拥有了规模及质量均位列业界前茅的、公开的资源性数据资产。目前,拓尔思拥有来自境内外、各行各业的互联网公开数据,总量超 1300 亿,具备数千亿数据量的数据索引、标记、查询、拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第19页 挖掘分析能力,万亿级数据总量的秒级检索能力,日均亿级数据获取能力。拓尔思大数据中心不仅支撑公司多个专业化的数据智能服务,也具有对外的开放接口服务,可满足公司面向政府、媒体、金融、公安、商业等多行业用户的开源大数据云服务需求。图 12:拓尔思资源性数据资产视图(2 2)知识库知识库(30+3

30、0+大类大类)机器认知的核心能力之一是自然语言理解,而机器理解自然语言需要足够的知识库支撑。拓尔思基于自然语言处理技术、积累的各场景行业术语及主题数据形成的各行业知识图谱,对海量多源异构数据拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第20页 进行融合、关联、标注以及知识化处理,构建形成大规模领域知识图谱。目前,公司拥有通用、行业/领域知识库 30+大类,标签规则 30000+。每类知识库具有规模大、语义关系丰富、结构友好、质量精良等特点。图 13:拓尔思知识库视图(3 3)模型工厂模型工厂(350+350+)拓尔思通过大规模自监督学习的多模态人工智能算法,融合自然语言理解,基于行业的千

31、亿级图文大规模预训练,实现用更小的标注拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第21页 样本数量,融合更多的模态信息,形成了 350+深度学习算法模型的模型工厂,可面向不同行业、不同落地场景对数据进行知识模型的加工。图 14:拓尔思模型工厂视图(4 4)三大经营性数据资产平台三大经营性数据资产平台 基于上述资源性数据资产、知识库、模型工厂的融合治理,拓尔思公司目前已形成了产业大脑、媒体资讯、网络舆情三大数据资产平台,为公司在网络信息内容治理、金融监管、政务资讯服务、金融机构风控管理、智能媒体服务、开源情报等领域的云和数据服务提供数智赋能。拓尔思数据要素白皮书 拓尔思信息技术股份有限公

32、司 第22页 图 15:拓尔思三大经营性数据资产平台 拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第23页 2 2大数据底座产品清单大数据底座产品清单 拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第24页 产品名称产品名称 适用行业适用行业 业务场景业务场景 业务简介业务简介 海蜘大数据采集平台 通用 网络数据采集 根据互联网不同的数据类型与网站结构,采用分布式抓取技术,对指定网站定向数据采集、存储,然后进行分类、分词、查重、打标等数据加工,在专业知识库建立、企业竞争情报分析、报社媒体资讯获取、舆情监测等领域应用广泛。海聚数据融合平台 通用 数据资源汇聚 采用分布式架构,以 fli

33、nk 作为数据处理引擎,可拖拽式数据流程开发,提供几百种常用功能组件,支持对任务的进度实时监控和多维度统计分析,并提供了全功能RESTful API。“海聚”能帮助企业打破数据孤岛、修正数据质量、汇集多数据源、转换数据形态,提升数据的利用价值。海贝搜索数据库 通用 搜索引擎支撑“海贝”是一款从内核到系统完全国产自研的搜索引擎数据库,其定位为大数据应用支撑软件,为大数据应用提供高效的数据存储、信息检索、统计分析等数据管理服务,支持几乎所有类型的数据,包括文本、数字、地理空间、图片等各种结构化、半结构化和非结构化数据。该系统吸收了拓尔思在信息检索和 NLP 领域多年的技术积累,不仅安全、高效、专业

34、,还集成了众多开源检索系统不具备的企业级功能,能够有效降低用户的系统建设成本、开发成本和运维成本。天骄数据中台 通用 大数据治理 数据质量管理 帮助大数据应用客户处理各种多源异构数据,完成数据治理,沉淀数据知识,控制数据质量,实现数据采集、数据接入、数据处理、数据存储、数据应用和数据智能,成为数据资产管理中枢,让客户从数据泥潭中解放出来,专注于业务应用和创新。拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第25页 智拓人工智能技术平台 通用 AI 处理“智拓”作为拓尔思新一代基于深度学习的语义智能技术平台,围绕自然语言理解(NLP)、知识图谱、图像检索三大核心技术,结合机器人流程自动化、数

35、据中台等技术,面向媒体融合、智慧专利、智慧公安、智慧政务、智慧金融、开源情报分析等应用场景,提供文本、音视频、多模态等全栈 AI 服务能力,可以帮助用户快速构建自己的 AI 技术能力,有效提升行业语义智能的服务能力和效果。表 1:拓尔思大数据底座产品清单 3 3数据安全产品清单数据安全产品清单 产品名称产品名称 适用行业适用行业 业务场景业务场景 业务简介业务简介 新一代安全一体化平台 通用 网络安全 提供数据双向隔离交换、数据单向隔离交换、音视频跨网调取、跨网接口调用、边界运维管理、边界态势感知、级联对接、异常流量分析、业务审计、访问控制、安全评估、安全咨询、安全运维等一系列具有自主特色的安

36、全一体化能力平台,实现“全面防护,智能分析,自动响应”的防护效果。表 2:拓尔思数据安全产品清单 4 4云和数据服务产品清单云和数据服务产品清单 产品名称产品名称 适用行业适用行业 业务场景业务场景 业务简介业务简介 数家资讯大数据云服务 通用 内容资讯 面向各行业用户提供个性化的全网资讯数据分析和知识服务。网察大数据云服务 通用 舆情 从网络舆情线索发现、实时预警、分析研判、综合报告等环节为用户提供全面、及时、准确的服务。聚合网络新闻、微博、微信、境外媒体等多渠道海量数据,以信息监测、态势感知、关系挖掘、事件追踪、传播分析、智库共享等为目标,解决跨舆论场的网络信息洞察、分析、研判,实现从数据

37、到智能决策的一体化大数据舆情服务。海策政策大脑云服务 政府 政策分析 围绕政策制定、发布、执行、兑付、评价、监督等全生命周期流拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第26页 产品名称产品名称 适用行业适用行业 业务场景业务场景 业务简介业务简介 程,坚持问题导向、效果导向,通过运用大数据、知识图谱、语义智能、虚拟人等技术,构建了全国政策文件库,并提供一体化管理与智能分析的在线服务。政务资讯参考云服务 政府 政务资讯 面向党政机关、企事单位的秘书工作者提供全网政务资讯一站式云服务。旨在帮助秘书工作者及时了解最新政务动态、政策发布、行业趋势等,掌握一手前沿政务资讯。“冒烟指数”监测预警

38、平台 政府金融监管机构 金融监管 是国内聚焦地方金融监管与金融风险防控,专门服务地方金融监管机构的大数据咨询平台,也是国内第一个非法集资监测预警平台。数星产业大脑云服务 政府、金融、产业园 产业招商 区域产业分析 以产业数据中心为支撑,以智能数据标签引擎和全产业链知识引擎为核心底座,运用新一代信息技术,推动产业数字化、智能化升级,实现政策、空间、供应链、金融、科技、销售等产业要素与产业主体之间的高效协同,为企业生产经营提供数字化赋能,为产业生态建设提供数字化服务,为经济治理提供数字化手段。数星智能风控云服务 金融 风险管理 提供智能多维标签、预警信号推送、风险事件跟踪、风险传导关联、综合异构图

39、谱等贯穿多场景全流程风险管理功能,提升金融机构风控能力,在风控、合规、投研、监管等核心金融场景得到广泛应用。战略新兴产业专利检索云服务 战略新兴产业 专利服务 与知识产权出版社联合开发,聚焦国家战略新兴产业发展需求,在强化搜索引擎技术与数据资源优势基础上,共同构建的具备自主可控核心能力的专业领域数据库。一期全球基因专利检索数据库已上线。网脉网站访问大数据云服务 通用 网站访问大数据分析 面向政府、媒体、行业企业级客户提供专业的网站、APP、小程序分析服务,通过精准分析提高网站、APP、小程序友好性,帮助企业运营进而提升网络营销的有效性和便拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第27

40、页 产品名称产品名称 适用行业适用行业 业务场景业务场景 业务简介业务简介 利性。OCR 智能云服务 金融、电力 政府、公安 文字识别 基于深度学习算法,专注复杂业务场景下将图片上的文字内容,智能识别成为可编辑的文本。支持通用文字识别、个人证照识别、票据凭证识别,金融与电力、政府、公安等行业特殊票据和办公文档的文字识别。支持提供定制化服务,可以有效地代替人工录入信息,满足各种客户的图片识别需求。文字自动校对云服务 通用 文字校对 融合了拓尔思在自然语言处理和信息检索领域多年的技术积累,围绕深度学习、知识图谱等核心技术,为公文编辑、新闻出版、媒体内容审核等多种场景提供智能化、自动化的文本校对服务

41、。目前,产品已经在公文校对、新闻检测、辅助写作、OCR 识别错误检测等场景广泛应用。数据可视化大屏云服务 通用 数据可视化 提供零代码拖拽式的可视化大屏制作,以组件素材库、交互设置、数据接口等作为核心,聚焦多方面的数据图表应用,为管理者提供全面数据化、科学化的决策分析。目前,拓尔思数据可视化大屏云服务已在政务、教育、公检法等领域成功应用。数星智能标签云服务 通用 数据标注 针对非结构化文本数据、面向多维度业务场景的知识挖掘引擎,以解决认知智能面向领域模型训练过程中样本数据积累难、技术门槛高、效率低等问题,敏捷化、轻量化服务于各垂直领域非技术型业务专家,快速构建领域分析模型。表 3:拓尔思云和数

42、据服务产品清单(三)(三)大数据底座和人工智能产品介绍大数据底座和人工智能产品介绍 1 1网络大数据采集网络大数据采集 网络大数据采集是指根据互联网不同的数据类型与网站结构,采用分布式抓取技术,对指定网站定向数据采集、存储,然后进行分类、拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第28页 分词、查重、打标等数据加工,在专业知识库建立、企业竞争情报分析、报社媒体资讯获取、舆情监测等领域应用广泛。拓尔思大数据中心的数据基于自研的互联网数据采集系统实现全网数据采集的。早在 2002 年,拓尔思就推出了第一代网络信息采集系统TRS 网络信息雷达(以下简称“雷达”),已成功应用于数千家媒体、企业

43、、金融和政府部门的数据中心或信息中心。随着互联网的发展,以及 web2.0 技术的兴起,各种风格迥异的网站、新闻APP 等风云涌现,各种页面展现技术层出不穷,比如:异步加载、延时加载、下拉刷新、手机 APP、登录验证、参数时效性、访问屏蔽等等,“雷达”产品面临新技术的挑战。2020 年,拓尔思推出了 TRS 海蜘大数据采集平台(以下简称“海蜘”),这是基于“雷达”开发出来的新一代分布式大数据采集系统。“海蜘”从采集点的维护到采集终端的部署、源码下载、内容解析,再到采集结果的存储都是集群式+分布式的,平台内嵌了雷达的内容和链接智能过滤模块、脚本引擎模块、内容模板和链接模板等等。把雷达采集流程按照

44、模块进行拆分,细分为采集点管理、采集配置管理、采集属性管理、链接更新检查、源码下载(雷达下载、基于浏览器下载、手机模拟下载、插件下载、API 下载)、链接过滤和内容抽取、采集日志管理、解析结果分发几个独立的模块,任意模块均可集群式部署。拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第29页 图 16“海蜘”总体架构 主流社交媒体和小视频相对传统网站,是舆论新阵地,信息密度高。由于官方网站提供的 API 存在限制数据采集速度和身份验证等问题,常规的网络爬虫存在一定的局限性,采集门槛更高。针对这一新形势,拓尔思开发出了全新的海汇主流社交媒体和小视频采集平台(以下简称“海汇”),集成了拓尔思丰富

45、的协议分析和分布式采集经验,实现了海量数据的稳定高效采集,覆盖了国内外常见的多种社交媒体和小视频站点。针对小视频,“海汇”还拥有文本快速检测和视频动态 OCR 等关键技术,可以实现视频内容的深入挖掘。“海汇”管理着数千个采集节点,通过对大规模采集过程中的任务调度、智能纠错、反爬对抗和验证码识别等技术的工程化应用,让海量公开数据的实时监控成为可能。“海汇”模拟自然人的行为特征、内容特征,进行拟人化帐号养殖。设计社交网络智能体时考虑包括访问、发布内容、评论内容、对话等行为的时间,基于智能写作和智能对话生成的内容特征,进行反检测以维持 数据 数据 代理 源 源 理 网 源 源 数 网 网 拓尔思数据

46、要素白皮书 拓尔思信息技术股份有限公司 第30页 社交网络智能体不被屏蔽,同时模仿社交网络智能体的行为特征进性采集任务配置与调度监控,以实现基于社会计算的数据采集技术。“海汇”的采集点全球各大洲都有覆盖,在阿里云、华为云、AWS、微软云、VPS 等供应商云主机验证通过,且对多语种都能够适配。2 2数据资源汇聚数据资源汇聚 数据资源汇聚就是从源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,它能够对各种分布的、异构的源数据(如关系数据)进行抽取,按照预先设计的规则将不完整数据、重复数据以及错误数据等“脏数据内容进行清洗,得到符合要求的“干净”数据,并加载

47、到数据仓库中进行存储,这些“干净”数据并加载到大数据管理平台中进行存储,这些“干净”数据就成为了数据分析、数据挖掘的基石。海聚数据融合平台(以下简称“海聚”)是一款由拓尔思自主设计研发,具有强大数据集成能力的流批一体数据融合平台。“海聚”采用分布式架构,以 flink 作为数据处理引擎,可拖拽式数据流程开发,提供几百种常用功能组件,支持对任务的进度实时监控和多维度统计分析,并提供了全功能 RESTful API。“海聚”能帮助企业打破数据孤岛、修正数据质量、汇集多数据源、转换数据形态,提升数据的利用价值。拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第31页 图 17“海聚”总体架构“海聚

48、”支持多种任务类型,包括批任务、流任务、SQL 任务、JAR 任务。通过调度计划用于配置任务的定时运行策略,合理的给任务分配调度计划,可以使得多个任务协同运行并且合理使用服务器资源,避免出现过多任务争抢线程和数据库等资源以及大量任务排队等待等现象,为服务器稳定运行提供保障。“海聚”支持集中管理任务中使用的所有外部连接的资源,并生成相应的血缘图谱。“海聚”具体的应用场景如下:全文检索场景全文检索场景 抽取、清洗、整合海量信息数据,为全文检索功能的重要组成部分全文数据库提供优质数据。拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第32页 图 18“海聚”全文检索应用场景 数据治理场景数据治理场

49、景 帮助组织建立数据质量管理体系,提升数据的完整性、规范性、及时性、一致性、逻辑性。图 19“海聚”数据治理应用场景 数据迁移场景数据迁移场景 实现新旧系统与数据库切换的数据接入与数据格式匹配,确保应用系统顺利割接。拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第33页 图 20“海聚”数据迁移场景 数据整合场景数据整合场景 实现多源异构数据整合,加强数据管控能力,消除信息孤岛,更好的为上层应用提供服务。图 21“海聚”数据整合场景 数数据共享交换场景据共享交换场景 用于构建、运行和管理分布式应用系统间、云环境下应用系统之间等数据交换共享任务,以满足各种大型应用、各种复杂的网络环境下的业务

50、需求,尤其适用于跨部门、跨地域、跨层级的数据交换共享应用。3 3大数据管理大数据管理 海贝搜索数据库(以下简称“海贝”)是一款从内核到系统完全国产自研的搜索引擎数据库,其定位为大数据应用支撑软件,为大数据应用提供高效的数据存储、信息检索、统计分析等数据管理服务,拓尔思数据要素白皮书 拓尔思信息技术股份有限公司 第34页 支持几乎所有类型的数据,包括文本、数字、地理空间、图片等各种结构化、半结构化和非结构化数据。“海贝”不仅集成了众多开源检索系统不具备的企业级功能,还能够有效降低用户的系统建设成本、开发成本和运维成本。图 22“海贝”总体架构 全语种分词器全语种分词器 “海贝”自带的 TRS 分

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服