收藏 分销(赏)

旅游大数据平台专项方案.docx

上传人:二*** 文档编号:4763947 上传时间:2024-10-12 格式:DOCX 页数:23 大小:1.32MB
下载 相关 举报
旅游大数据平台专项方案.docx_第1页
第1页 / 共23页
亲,该文档总共23页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、旅游研究院大数据挖掘和分析科研平台建设方案一. 背景1.1 数据挖掘和大数据分析行业背景和发展趋势移动互联网、电子商务和社交媒体快速发展使得企业需要面临数据量成指数增加。依据 IDC 数字宇宙(Digital Universe)研究汇报显示, 年全球新建和复制信息量已经超出 40ZB,是12倍;而中国数据量则会在超出8ZB,比增加22倍。数据量飞速增加带来了大数据技术和服务市场繁荣发展。IDC亚太区(不含日本)最新相关大数据和分析(BDA)领域市场研究表明,大数据技术和服务市场规模将会从5.48亿美元增加到23.8亿美元,未来5年复合增加率达成34.1%。该市场涵盖了存放、服务器、网络、软件和

2、服务市场。数据量增加是一个非线性增加速度。据IDC分析报道,最近十二个月来,亚太区出现了越来越广泛大数据和分析领域应用案例。在中国,从互联网企业,到电信、金融、政府这么传统行业,全部开始采取多种大数据和分析技术,开始了自己大数据实践之旅;应用场景也在逐步拓展,从结构化数据分析,发展到半结构化、非结构化数据分析,尤其是社交媒体信息分析受到用户更多关注。用户们开始评定以Hadoop、数据库一体机和内存计算技术为代表大数据相关新型技术。最新调研结果显示,提升竞争优势,降低成本和吸引新用户是中国用户对大数据项目最期望三大回报。现在现有大数据项目关键集中在业务步骤优化和提升用户满意度方面应用。IDC发觉

3、很多用户期望大数据能够为企业带来业务创新,而且开始使用高级分析处理方案以管理复杂数据环境。过去十二个月中用户对社交数据搜集和分析应用关注度增加显著。未来,地理位置信息分析将会增加快速,这也会推进用户对大数据安全和隐私管理关注。在亚太区,澳大利亚和新加坡用户对大数据相关投资关键在咨询服务方面,更关注怎样依据新最好实践需求设计和实施方案。中国和印度在大数据领域硬件投资则很显著,更倾向于数据中心相关基础架构投资。在传统数据分析和商业数据挖掘中,大家通常遵照二八标准。也就是任务20%用户提供了80%价值,所以利用优势资源用户对于少数用户服务。伴随互联网发展,越来越多低价值用户进入到商业体系中,这部分用

4、户成为商业企业竞争目标。比如电商行业,大量用户全部是传统意义上低价值用户,数据表明对于这部分用户价值挖掘能够改变二八标准,甚至可达成价值几乎均匀分布。而且因为计算技术发展,对于大数据分析也成为了可能。1.2 旅游行业开展大数据分析及应用意义旅游行业有行业广、规模大、移动性强特点,所以愈加依靠大数据。目前,旅游业也在“新常态”下迎来了升级挑战和变革机遇,新常态对于通常经济部门是经济速度放慢、人均GDP增速减小,很多传统行业在调整结构,但新常态对旅游行业却是速度加紧。旅游大数据处理之道,在于整合中国多路径大数据源,形成旅游大数据生态,为中国旅游业提供大数据处理方案,促进旅游业转型升级。1.3 数据

5、挖掘和大数据分析科研平台建设必需性数据挖掘和大数据分析是以计算机基础为基础,以挖掘算法为关键,紧密面向行业应用一门综合性学科。其关键技术包含概率论和数理统计、数据挖掘、算法和数据结构、计算机网络、并行计算等多个专业方向,所以该学科对于科研平台含有较高专业要求。科研平台不仅要提供基础编程环境,还要提供大数据运算环境和用于科学研究实战大数据案例。这些素材准备均需完整科研平台作为支撑。现在,在中国高校专业设置上和数据挖掘和大数据分析相关学科专业包含:计算机科学和技术、信息管理和信息系统、统计学、经济、金融、贸易、生物信息、旅游和公共卫生等。这些专业在使用科研平台时侧关键各不相同,使用人员层次水平也不

6、相同,对算法使用也不相同,所以,需要建设一个便利、操作简易、算法全方面、可视化大数据科研平台是很有必需。二. 数据挖掘和大数据分析科研平台总体计划2.1 科研平台计划科研平台建设基础标准是科研为主,同时为教学试验提供部分计算资源及安全资源,系统在授权范围内共享科研系统计算资源,提升教学试验真实性。项目标总体架构图1所表示。图1.总体架构图系统整体由千兆关键交换机作为关键节点,并以两个千兆接入交换机作为科研和试验环境交换节点。科研环境由本企业开发商业Hadoop集群为基础,上层集成便于操作大数据科研应用系统,集成10TB大数据案例集及可拖拽数据算法和可视化算法。 2.2 科研平台功效计划本科研平

7、台针对数据挖掘有大数据分析研究内容,兼顾科研和教学需求,既能满足科研工作中对大数据分析高性能平台要求也含有教学试验平台简单易用特点。1) 大数据资源计划内置商业级数据资源,按常见科研分类计划数据资源,能够直接用于科学研究,含有数据资源授权管控功效。2) 大数据分析功效计划建设以商业版Hadoop为关键大数据分析平台,系统提供MapReduce和Spark等大数据挖掘功效。系统含有完整管理调度功效。3) 硬件资源功效计划系统含有24个Intel Xeon E5 CPU计算能力,提供超出40TB存放能力和1T以上内存,可满足1000任务共时计算内能,方便扩充。三. 数据挖掘和大数据分析科研平台建设

8、方案3.1 大数据科研平台设备架构图3.设备架构3.1.1 主节点和备份主节点主节点负责整个分布式大数据平台运行。主节点一直在内存中保留整个文件系统目录结构,每个目录有哪些文件,每个文件有哪些分块及每个分块保留在哪个计算上,用于处理读写请求。同时,主节点还负责将作业分解成子任务,并将这些子任务分配到各个计算节点上。备份主节点在主节点发生故障时负担主节点多种任务,使得分布式大数据平台仍然能够正常运行。3.1.2 管理节点管理节点用于管理整个分布式大数据平台,可进行节点安装、配置、服务配置等,提供网页窗口界面提升了系统配置可见度,而且降低了集群参数设置复杂度。3.1.3 接口节点终端用户经过接口节

9、点连接和使用分布式大数据平台,提交任务并取得结果,并能够用其它数据分析工具做深入处理,和外界进行数据交互(如连接关系型数据库)。3.1.4 计算节点分布式大数据平台包含了多个计算节点。计算节点是系统中真正存放数据和做数据运算节点。每个计算节点周期性地和主节点通信,还时不时和用户端代码和其它计算节点通信。计算节点还维护一个开放socket服务器,让用户端代码和其它计算节点经过它能够读写数据,这个服务器还会汇报给主节点。3.2 大数据科研平台底层架构大数据科研平台低层架构以本企业自主研发商业版Hadoop为基础架构,包含和大数据分析、数据挖掘、机器学习等功效模块,并以HDFS和Hbase作为存放基

10、础。图2. 软件架构3.2.1 分布式持久化数据存放HDFSHadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上分布式文件系统。它和现有分布式文件系统有很多共同点。但同时,它和其它分布式文件系统区分也是很显著。HDFS是一个高度容错性系统,适合布署在廉价机器上。HDFS能提供高吞吐量数据访问,很适合大规模数据集上应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据目标。3.2.2 分布式实时数据库HBaseHBase是一个分布式、面向列开源数据库,该技术起源于 Fay Chang 所撰写谷歌论文“Bigtable:一个结构化数据分布式存放系统”。就像Bigtabl

11、e利用了谷歌文件系统(所提供分布式数据存放一样,HBase在Hadoop之上提供了类似于BigTable能力。HBase是ApacheHadoop项目标子项目。HBase不一样于通常关系数据库,它是一个适合于非结构化数据存放数据库。另一个不一样是HBase基于列而不是基于行模式。3.2.3 分布式资源调度管理YARNYarn是Hadoop2.0MapReduce 框架。YARN分层结构本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源分配。ResourceManager 将各个资源部分(计算、内存、带宽等)精心安排给基础 NodeManager(YARN

12、每节点代理)。ResourceManager 还和 ApplicationMaster 一起分配资源,和 NodeManager 一起开启和监视它们基础应用程序。在此上下文中,ApplicationMaster 负担了以前 TaskTracker 部分角色,ResourceManager 负担了 JobTracker 角色。3.2.4 交互式SQL引擎HiveHive是基于Hadoop一个数据仓库工具,能够将结构化数据文件映射为一张数据库表,并提供简单SQL查询功效,能够将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,能够经过类SQL语句快速实现简单MapReduce统

13、计,无须开发专门MapReduce应用,十分适合数据仓库统计分析。3.2.5 内存计算SparkSpark是UC Berkeley AMP试验室所开源类Hadoop MapReduce通用并行计算框架。Spark拥有Hadoop MapReduce所含有优点;但不一样于MapReduce是Job中间输出结果能够保留在内存中,从而不再需要读写HDFS,所以Spark能愈加好地适适用于数据挖掘和机器学习等需要迭代MapReduce算法。3.3 科研平台功效3.3.1 科研项目管理在科研平台中,科研计算是以计算项目来保留,包含了计算项目建立、计算项目维护、计算项目设计、计算项目运行和结果可视化等多个

14、步骤。从技术角度来说,计算项目中也包含了算法组件、算法步骤和数据集,一旦设计完后,就可用于计算,后期还能够调整算法和基于新数据资源进行计算。计算项目完成后,能够训练出算法模型,在新计算项目中使用已经训练好模型进行数据估计,形成一次训练数次使用算法实现。3.3.2 平台内置数据集在科研工作中,怎样获取到海量高质量大数据资源是最大难点。现在在互联网等渠道是极难找到科研工作所需数据源,尤其是经过数据清洗和治理后高质量数据。数据超市平台利用以下模式,经过外部资源,为高校科研工作提供优质数据资源:1)经过商务合作模式,直接和数据全部权拥有者进行灵活商务沟通,取得科研数据使用授权;2)邀请行业内优质第三方

15、数据服务提供商入驻数据超市平台;3)经过数据采集方法,经过数据寻源、采集、治理、清洗后,引入含有公开版权数据资源;全部引入数据全部会经过数据工程师严格审核,确保数据清洁和质量,能够直接用于数据计算。如平台内置专利数据,包含了中国近万各类商业数据,而且不停更新,能够直接用于旅游各方面科学研究。有别区现在行业提供数据库,数据超市直接提供了原始数据,能够打通其它行业数据,用于深层次数据分析和经济估计。3.3.3 科研数据上传科研老师已经有数据能够上传到平台参与数据计算,老师能够在平台上建立数据表,然后把当地数据文件上传到数据表中。也能够维护外部JDBC数据源,平台会把外部数据自动抽取到平台中进行计算

16、和估计。3.3.4 集成算法组件为了便于科研老师快速进行科研数据加工、分析和计算,数据超市平台集成了50多个通用大数据算法组件,包含回归算法、分类算法、聚类算法、关联计划算法、推荐算法、估计评定、数据预处理算法、机器学习等。全部算法无须重新编程,只需要拖拽绘图完成即可进行计算,以下图: 算法组件经过配置能够实现强大自定义计算功效和效果,调整后模型能够完成老师需要数据分析和估计。3.3.5 科研平台可视化功效提供20余种可视化展示模式,一键选择,一键切换,可按使用者需求展示大数据之美,依据需要展示对应纬度,并能够一键生成高质量PNG文件,保留到当地后可用于科研汇报和论文等。四. 平台数据集清单科

17、研平台为方便用户快速开展科学研究、生成科研数据汇报,平台提供了部分通用数据集,包含各类标准科研数据等。平台也内置了数百款可选数据集,分为多个数据包,总量近10TB,而且随商务和采集工作推进,仍在不停增加中。五. 定制数据服务依据科研老师需求,数据超市平台提供数据采集和商务合作等定制数据引入模式,数据引入后,能够直接引入数据超市,由老师来进行使用。如老师需要旅游服务评价类数据进行服务情况分析和估计,能够直接经过数据超市内数据定制模块提出数据需求,经数据超市平台管理员汇总后,能够经过数据超市平台进行数据准备,交给老师进行使用。六. 科研平台算法清单平台集成算法包含72种,全部来自科研网站,经过了商

18、业机构验证,引入平台后完成了分布式优化,能够高效实施,具体以下表:序号算法分类算法名称算法描述1回归算法线性回归利用线性模型对数值型变量进行拟合。2回归算法决议树回归利用平方误差最小化准则,进行特征选择,生成二叉树,从而对对数值型变量进行拟合3回归算法随机森林回归以回归决议树为基模型,将一定数量基模型组合对数值型变量拟合,并对基模型估计结果平均作为算法最终止果4回归算法梯度提升回归树以二叉回归决议树为基函数加法模型和前向分步结合算法 ,经过对损失函数在目前模型估计值梯度作为近似残差进行拟合,从而对数值型变量估计。5分类算法逻辑回归二分类对目标变量为二值型分类变量,建立参数化逻辑斯谛分布,即si

19、gmoid函数,近似条件概率分布,以实现二值分类。6分类算法逻辑回归多分类逻辑回归多分类,k个独立 logistic回归分类器和onevsall结合分类模型,分类对象类别之间不是互斥7分类算法Softmax回归多分类Softmax回归就是逻辑回归通常形式,是logistic回归模型在多分类问题上推广,分类对象类别是互斥8分类算法决议树分类利用信息增益准则或基尼指数最小化准则,进行特征选择,生成二叉树,从而对对目标变量为离散变量数据进行分类9分类算法随机森林分类以分类决议树为基模型,将一定数量基模型组合对离散型目标变量拟合,并依据基模型估计结果进行投票,以占多数结果种类作为算法最终止果10分类算

20、法梯度提升分类树以二叉分类决议树为基函数加法模型和前向分步结合算法,经过对损失函数在目前模型估计值梯度作为近似残差进行拟合,从而对分类型目标变量估计。11分类算法BP神经网络以感知器为基函数,经过将目前基函数输出作为下一个感知器输入,从而实现对离散型分类变量分类12分类算法贝叶斯分类基于贝叶斯定理和特征条件独立假设,对给定数据集,学习输入输出联合概率分布,利用贝叶斯原理输出后验概率最大估计类作为估计结果13分类算法支持向量机分类在感知机基础上,经过在特征空间上间隔最大和核技巧,实现对二类目标变量分类14聚类算法K均值聚类将无标识样本依据特征空间中数据结构,划入K个不相交子集中15聚类算法二分K

21、均值聚类K均值聚类改善版,能克服原算法收敛局部最小缺点,每次选其中一簇分成两簇。16聚类算法高斯混合模型对于符合高斯分布数据,假设存在K个高斯模型,将数据反复迭代,期望极大化。将样本聚到后验概率最大模型类下。17关联规则算法频繁项集挖掘算法(FP-Growth)关键分为两个步骤:FP-tree构建、递归挖掘FP-tree。挖掘出共同出现频繁物品集。18推荐算法协同过滤算法协同过滤是在海量数据中挖掘出某部分和目标用户行为类似数据,并依据某种指标对其进行排序。19估计评定分类估计及评定分类算法中,在已经有训练数据训练模型基础上,将未训练数据代入算法中,估计结果和实际目标变量比对评定,检测模型性能。

22、20估计评定回归估计及评定回归算法中,在已经有训练数据训练模型基础上,将未训练数据代入算法中,估计结果和实际目标变量比对评定,检测模型性能。21估计评定聚类估计及评定聚类算法中,在已经有训练数据训练模型基础上,将未训练数据代入算法中,估计结果和实际数据类型比对评定,检测模型性能。22估计评定推荐评定推荐算法中,在已经有训练数据训练模型基础上,将未训练数据代入算法中,估计结果和物品类目比对评定,检测模型性能。23数据预处理归一化将有量纲数据转化为无量纲数据,min-max 标准化24数据预处理Join-两表关联类似sql join功效,将两张表经过一个字段对或多个字段正确相等关系关联合成一张表2

23、5数据预处理类型转换(string类型转换数值类型)将不一样数据类型按需要进行转换26数据预处理Union对不一样数据集取并集27数据预处理标准化/正则化标准化是将数据缩放到一个区间范围内,如正态分布,小数定标,逻辑斯谛分布。正则化是利用先验知识,对模型增加约束,预防过拟合。28数据预处理缺失值填充对数据中某项数值所对应一些样本缺失,经过某种先验假设,依据样本其它已知数据项对缺失值拟合估计。29数据预处理拆分根据百分比拆分样本集,如设置0.6,切分成60:40两个样本集。30数据预处理随机采样当数据量过大或模型训练批容量有限时,随机采取一定量/百分比样本集。31数据预处理增加序列号在数据表第一

24、列追加ID列。32数据预处理Select数据库查询操作, 查询 某限定条件下样本33数据预处理Select_Distinct数据库查询操作, 查询某限定条件下并过滤掉反复样本34数据预处理Select_Where数据库查询操作,查询指定条件下样本35数据预处理Select_And_Or数据库查询操作,查询条件交集和并集36数据预处理Select_OrderBy数据库查询操作,查询结果按某指标排序37数据预处理Select_Limit数据库查询操作,查询某限定段数据38数据预处理Select_Like数据库查询操作,查询包含指定字段数据39特征工程主成份分析数据降维去噪常见方法,对数据协方差矩阵

25、取前K个最大方差方向作为新数据方向。40特征工程Onehot编码用户将特征值进行二元编码映射成二元向量,并和数值向量进行拼接42特征工程特征尺度变换因为计算需要或依据数据特点将某特征对应数据项进行缩放,不改变样本间该数值项相对大小43特征工程特征关键性分析指依据数据集各项特征在算法模型中对目标变量相对关键程度分析,从而提出冗余特征,关重视要特征,提升算法模型效率正确性44特征工程特征离散对连续型特征按某方法转换为离散型变量45文本分析SplitWord分布式jieba分词接口,基于Trie树结构实现高效词图扫描,生成句子中汉字全部可能成词情况所组成有向无环图(DAG);采取了动态计划查找最大约

26、率路径, 找出基于词频最大切分组合;对于未登录词,采取了基于汉字成词能力HMM模型,使用了Viterbi算法46文本分析文档专题生成模型(LDA)LDA(Latent Dirichlet allocation),是一个专题模型,它能够将文档集中每篇文档专题根据概率分布形式给出。同时它是一个无监督学习算法,在训练时不需要手工标注训练集,需要仅仅是文档集和指定专题数量k即可。 LDA首先由David M. Blei、Andrew Y. Ng和Michael I. Jordan于提出,现在在文本挖掘领域包含文本专题识别、文本分类和文本相同度计算方面全部有应用。47文本分析TF特征将文本文档集合转换为

27、词频计数向量。48文本分析HashingTF特征使用散列技巧将一系列词语映射到其词频向量,HashingTF 过程就是对每一个词作了一次哈希并对特征维数取余得到该词位置,然后根据该词出现次数计次。所以就不用像传统方法一样每次维护一张词表,利用 HashingTF 就能够方便得到该词所对应向量元素位置。当然这么做代价就是向量维数会很大,好在 spark 能够支持稀疏向量,所以计算开销并不大。49文本分析TF-IDF特征TF-IDF(term frequencyinverse document frequency)是一个用于资讯检索和文本挖掘常见加权技术。TF-IDF是一个统计方法,用以评定一字词

28、对于一个文件集或一个语料库中其中一份文件关键程度。 字词关键性伴随它在文件中出现次数成正比增加,但同时会伴随它在语料库中出现频率成反比下降。TF-IDF加权多种形式常被搜索引擎应用,作为文件和用户查询之间相关程度度量或评级。50文本分析字符串相同度一个字符串转换成另外一个字符串代价,转换代价越高则说明两个字符串相同度越低。51文本分析停用词过滤针对文档数据,将包含特定词汇过滤掉,不计入统计数据中52文本分析Word2VecWord2Vec 是一个著名 词嵌入(Word Embedding) 方法,它能够计算每个单词在其给定语料库环境下 分布式词向量(Distributed Representa

29、tion,亦直接被称为词向量)。词向量表示能够在一定程度上刻画每个单词语义。假如词语义相近,它们词向量在向量空间中也相互靠近,这使得词语向量化建模愈加正确,能够改善现有方法并提升鲁棒性。词向量已被证实在很多自然语言处理问题,如:机器翻译,标注问题,实体识别等问题中含有很关键作用。Word2Vec含有两种模型,其一是 CBOW ,其思想是经过每个词上下文窗口词词向量来估计中心词词向量。其二是 Skip-gram,其思想是经过每个中心词来估计其上下文窗口词,并依据估计结果来修正中心词词向量。该组件现在只支持后者。53文本分析词频统计在对文章进行分词基础上,按行保序输出对应文章ID列(docId)对

30、应文章词,统计指定文章ID列(docId)对应文章内容(docContent)词频。54文本分析文本摘要经过pagerank算法计算得到关键性最高若干句子能够看成摘要。55文本分析关键词提取全方面把握文章中心思想基础上,提取出若干个代表文章语义内容词汇或短语56文本分析长句拆分依据长句中标点符号将句子进行分割成多个短句57工具算法sql脚本用户能够在该组件自定义SQL脚本从而完成对数据转换处理58统计分析单样本T检验单样本T检验:单样本t检验(one-sample t-test)又称单样本均数t检验,适适用于样本均数x和已知总体均数u0比较,其比较目标是检验样本均数x所代表总体均数u0是否和已

31、知总体均数u0有差异。已知总体均数u0,通常为标准值、理论值或经大量观察得到较稳定指标值。T检验前提是样本总体服从正态分布59统计分析配对样本均数T检验配对样本均数t检验(paired t test),又称非独立两样本均数t检验,适适用于配对设计计量资料均数比较,其比较目标是检验两相关样本均数所代表未知总体均数是否有差异。60统计分析两独立样本均数T检验两独立样本t检验(two-sample t-test),又称成组t检验,它适适用于完全随机设计两样本均数比较,其目标是检验两样本所来自总体均数是否相等。完全随机设计是将受试对象随机地分配到两组中,每组对象分别接收不一样处理,分析比较两组处理效应

32、。61统计分析方差齐性检验由两样本方差推断两总体方差是否相同。有三种方差齐性检验方法可供选择。选择Bartlett检验:假如我们数据服从正态分布,那么这种方法将是最为适用。对于正态分布数据,这种检验极为灵敏;而当数据为非正态分布时,使用该方法则很轻易造成假阳性误判。Levene检验:当样本数据偏态或非正态性情况下,选择Levene检验鲁棒性和精度比Bartlett检验好。Fligner-Killeen检验: 这是一个非参数检验方法,完全不依靠于对分布假设。62统计分析卡方适配度检验卡方适配度检验,Chi-Square Goodness of Fit Test.验证一组观察值次数分配是否异于理论

33、上分配。其 H0 假设(虚无假设,null hypothesis)为一个样本中已发生事件次数分配会服从某个特定理论分配。通常情况下这个特定理论分配指是均匀分配63统计分析卡方独立性检验卡方独立性检测,Chi-Square Independence Test,验证从两个变量抽出配对观察值组是否相互独立。其虚无假设是:两个变量呈统计独立性。64统计分析百分位对一个存在表,单列数据计算百分位65统计分析皮尔森相关系数矩阵计算两两字段(数值型)皮尔森相关系数。66统计分析全表统计分别计算全表每个字段统计信息,包含缺省值、最大最小值、方差、偏值等等。67统计分析Quantile分位数统计信息指标68统计

34、分析协方差矩阵协方差用于衡量两个变量总体误差69统计分析箱线图它是用一组数据中最小值、第一四分位数、中位数、第三四分位数和最大值来反应数据分布中心位置和散布范围,能够粗略地看出数据是否含有对称性。经过将多组数据箱线图画在同一坐标上,则能够清楚地显示各组数据分布差异,为发觉问题、改善步骤提供线索。70统计分析洛伦兹曲线称为洛伦士曲线,洛伦兹曲线,是美国统计学家洛伦兹提出用来描述社会收入分配情况一个曲线,它由累积一定人口数占总人口中百分比和这部分人口所取得收入占总收入中百分比情况来表示。71统计分析正态检验正态分布检验组件支持Kolmogorov-Smirnov Test。该检验方法是比较一个频率

35、分布f(x)和理论分布g(x)或两个观察值分布检验方法。其原假设H0:两个数据分布一致或数据符合理论分布。现在该组件只支持检验频率分布和理论分布一致性。在科研平台中能够查看具体算法,还包含算法介绍、输入、输出和使用方法和适用场景等信息。七. 科研平台设备清单序号设备/系统名称功效数量1高校大数据挖掘和分析科研平台科研平台基础功效。12科研计算项目管理负责科研计算项目标管理,包含了计算项目建立、维护、设计和实施。13科研大数据挖掘算法包包含机器学习、数据预处理、特征工程、文本分析、工具算法等6大类算法。14科研大数据可视化效果包经过可视化效果洞察数据关联关系,包含柱形图、折线图、残值图、面积图等20余种可视化效果。15数据管理模块负责进行数据管理功效,分为外部数据管理和内置数据源数据管理两部分,包含数据引入和授权等功效。16计算资源管控模块用于后台整体计算资源使用和监控,包含计算资源分配、使用、监督、回收和监控,更高效利用计算资源。17科研数据包_旅游用于多学科数据计算和估计等,包含酒店、航班、火车等旅游方面数据,能够用于旅游人群、旅游资源科学研究。1

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服