收藏 分销(赏)

大数据的来源与数据采集方法.pptx

上传人:快乐****生活 文档编号:5731759 上传时间:2024-11-17 格式:PPTX 页数:9 大小:2.70MB
下载 相关 举报
大数据的来源与数据采集方法.pptx_第1页
第1页 / 共9页
大数据的来源与数据采集方法.pptx_第2页
第2页 / 共9页
大数据的来源与数据采集方法.pptx_第3页
第3页 / 共9页
大数据的来源与数据采集方法.pptx_第4页
第4页 / 共9页
大数据的来源与数据采集方法.pptx_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、社交媒体社交媒体如如微微博博、微微信信、人人人人网网、facebookfacebook等等,通通过过这这些些大大众众常常用用的的社社交交平平台台,可可以以分分析析用用户户平平时时在在这这些些社社交交媒媒体体上上的的行行为为动动向向,归归纳纳出出用用户户的的喜喜好好或或关关注注点点,这些能够为企业挖掘用户需求提供重要依据。这些能够为企业挖掘用户需求提供重要依据。越来越多的机器配备了连续测量和报告运行情况的装置。这些机器传感数据也属于大数据的范围。一些视频、音频设备等产生的数据如一些大型超市,通过监控器观察消费者在超市购物的整个流程,从而对商品进行合理摆放,促进对某些商品的间接促销。企企业业内内部

2、部本本身身的的一一些些行行业业数数据据等等等。等。大数据的数据采集方法大数据的数据采集方法系统日志采集方法系统日志采集方法 很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。网络数据采集方法:对非结构化数据的网络数据采集方法:对非结构化数据的采集采集网网络络数数据据采采集集是是指指通通过过网网络络爬爬虫虫或或网网站站公公开开APIAPI等等方方式式从从网网站站上上获获取取数数据据信信息息。该该方方法法可可以以将将非非结结

3、构构化化数数据据从从网网页页中中抽抽取取出出来来,将将其其存存储储为为统统一一的的本本地地数数据据文文件件,并并以以结结构构化化的的方方式式存存储储。它它支支持持图图片片、音音频频、视视频频等等文文件件或或附附件件的的采采集集,附附件件与正文可以自动关联。与正文可以自动关联。除除了了网网络络中中包包含含的的内内容容之之外外,对对于于网网络络流流量量的的采采集集可可以以使使用用DPIDPI或或DFIDFI等带宽管理技术进行处理。等带宽管理技术进行处理。其他数据采集方法 对对于于企企业业生生产产经经营营数数据据或或学学科科研研究究数数据据等等保保密密性性要要求求较较高高的的数数据据,可可以以通通过过与与企企业业或或研研究究机机构构合合作作,使使用用特特定定系系统统接接口口等相关方式采集数据。等相关方式采集数据。谢谢观赏thankyou9.15

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服