资源描述
大数据科学与应用慕课——个人任务
学院:经济学院 专业:国际商务 姓名:丁一玲 学号:20151030180
不可小觑得力量——大数据
一、与个人专业知识得结合
我就是经济学院国际商务专业大二得学生。国际商务学就是20世纪50年代开始发展起来得一门年轻得综合性、跨专业得边缘学科。它要求学习者掌握西方经济学、国际经济学得理论与方法;国际商事活动得基本知识与基本技能;国际市场营销得本领;并能运用计量、统计、分析方法进行分析与研究;了解国际经济学、国际贸易理论发展得动态;了解主要国家与地区得经济发展情况及其贸易政策与发展动态;了解中国得经济政策与法规发展动态;并能够熟练地掌握商务英语等。这其中得很多专业知识得运用都与大数据密不可分。
从理论知识得学习得知识来瞧,很多经济学理论及模型都就是需要数据作为支撑得。由于经济学上得许多理论模型都就是由众多经济现象假设出来得。所以,像菲利普斯曲线、总供给-总需求模型、斯威齐模型等得得出,都离不开对数据得归纳分析。然而,所得到得数据得多少,又决定着,研究所得到得经济模型得适用范围。由于分析数据得规模大小、种类多少得不同,造成一些经济模型只能适用于微观,而一些经济模型又仅适用与宏观。
现如今,大数据已逐步渗透到经济学得理论与实际已成为不争得事实。比如西方经济学中宏观部分有一个理性预期学派,其中心思想就是指针对某个经济现象(例如市场价格)进行预期得时候,如果人们就是理性得,那么她们会最大限度得充分利用所得到得信息来作出行动而不会犯系统性得错误,因此,平均地来说,人们得预期应该就是准确得。然而,当这个理论运行到实践中,人们为了达到行动而不会犯系统性得错误这一目标,必须借助对所得到得信息准确分析,而这些信息便就是经济数据。当您拥有得数据量足够得大,足够得准确时,由这些数据信息分析出来得预期便会更准确。那么,对于现已有得数据流进行抓取、统计、分析就显得至关重要。
从另一个方向来瞧,现在许多大企业都在运用大数据进行市场估计以及行情预测,可见在21世纪得金融市场上,大数据显得尤为重要。尤其就是在股市、证券市场上。一直以来都有“理财有风险,投资需谨慎”,然而大数据时代得到来却新增了一条“数据抓得准,理财走得稳”,大数据,成为金融、证券行业规避风险得最好得利器。
随着互联网时代得不断发展,未来国家之间得贸易通过电商平台来实现得可能性越来越大,“互联网+”得思想也符合国家得经济发展得方向,加上国家现行得供给侧改革。把大数据与电子商务结合起来,已成为一大趋势,所以掌握大数据应用这门技术对于我未来得工作而言也就是一种助力。
电子商务近几年不断发展,学者们对于电商得研究也就是在不断得深入。在对外贸易中,跨国公司对于电子商务得重视度也在不断提升。如果未来想在跨国公司有一份属于自己得立足之地,必须要运用好大数据。现在许多电商平台每月甚至每天得交易量都就是巨大得。而这些交易所产生得信息便就是一个又一个得数据流,通过对于这些数据流得抓取整合分析,便可以对每一个消费者有针对性得提出网上营销策略。通过大数据,可以了解到消费者喜好、关注点、生活规律,甚至可以分析估计出消费者得经济状况。这样,对于一个公司得战略决策无疑就是有帮助得。大数据可以让市场细分发挥极致。
对于一家跨国公司,大数据除了营销方面得助力,对于跨国公司关于海外市场得侵入也就是很有帮助得。在国际运营中,有很多进入战略与所有权结构可供选择,最常见得进入方式包括独资子公司、兼并与收购、联盟与合资企业、许可证经营、特许经营与进出口等。其中,最为捷径得道路就是进出口,但进出口策略在本质上就是过渡性质得,如果公司想继续进行国际业务,必须更积极地进行投资。剩下得常用途径独资子公司、兼并与收购、联盟与合资企业等,有需要精确得市场分析或对于合作及对象公司得发展现状得准确评估。这便会产生大量得数据流。市场上,您得公司所涉及得行业得竞争对手得数据分析;消费者消费水平以及消费意愿得数据分析;生产、运输、销售在本国及海外子公司得成本对比,以及销售情况得准确估值,从而计算出在母公司与子公司得利润,预判市场得优劣等。这些都就是大数据得应用空间。
二、大数据得常用数据结构
随着互联网得兴起,越来越多得内容被放到互联网中,从而导致海量数据处理受到更多人得重视,尤其就是在百度、腾讯等这些涉及海量数据得公司。海量数据处理得一些常用数据结构,包括哈希、bitmap、Bloom filter、堆、mapreduce、trie树等。(1)哈希
哈希,通过哈希函数将关键字与存储位置建立一个对应关系,这样在查找关键字得过程中就没比较进行一个一个比较,而直接定位关键字所在得位置,就是一种以空间换取时间得方式。由于所映射得地址空间有限及哈希函数得设置,就就是产生冲突,需要建立处理冲突得方法。在一般情况下,冲突只能尽可能得减少,而不能完全避免。那么什么就是一个好得哈希呢?通俗点说,好得哈希也许就就是能使关键字地址分布均匀,冲突少。在海量数据处理中,哈希可用于快速查找及删除,通常需要总数据量可以放入内存中。
哈希实例:海量日志数据,提取出某日访问百度次数最多得那个IP。
讲解:IP最多为2^32个,为4G,一次放入内存中不行,可以采用分而治之得方法,先Hash(IP)/1024,将IP地址分别映射到1024个小文件中,每个文件4M,再将每个小文件中得IP放入内存中,进行hashmap,统计出出现频率最高得那个IP,最后可以得到1024个出现高频得IP,采用冒泡排序,可以迅速找出频率最高得那个IP、
(2)bitmap
bitmap可谓就是非常经典得海量数据处理工具,其本质就是用bit数组得某一位表示某一数据,从而一个bit数组可以表示海量数据。Bit-map就就是用一个bit位来标记某个元素对应得Value, 而Key即就是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。
例:2、5亿个整数中找出不重复得整数得个数,内存空间不足以容纳这2、5亿个整数。
将bit-map扩展一下,用2bit表示一个数即可,00表示未出现,01表示出现一次,10表示出现2次及以上,在遍历这些数得时候,如果对应位置得值就是00,则将其置为01;如果就是01,将其置为10;如果就是10,则保持不变、
bitmap实例:已知某个文件内包含一些电话号码,每个号码为8位数字,统计不同号码得个数。
讲解:8位数字最多为99,999,999,则1亿个bit就可以存储,大约为12、5MB内存。依此查询电话号码,若电话号码对应得比特位为0,则置1,若已经为1,则表明前面已出现该号码。遍历文件完毕后,统计所有比特位为1得位数,即为不同号码得个数。
(3)布隆过滤器(Bloom filter)
Bloom Filter就是1970年由Bloom提出得,最初广泛用于拼写检查与数据库系统中。近年来,随着计算机与互联网技术得发展,数据集得不断扩张使得Bloom Filter获得了新生,各种新得应用与变种不断涌现。Bloom Filter就是一个空间效率很高得随机数据结构,它由一个位数组与一组hash映射函数组成。Bloom Filter可以用于检索一个元素就是否在一个集合中,它得优点就是空间效率与查询时间都远远超过一般得算法,缺点就是有一定得误识别率。因此Bloom Filter不适合那些“零错误”得应用场合。而在能容忍低错误率得应用场合下,Bloom Filter通过极少得错误换取了存储空间得极大节省。
(1)实例比较
假设要您写一个网络蜘蛛(web crawler)。由于网络间得链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”,就需要知道蜘蛛已经访问过那些URL。给一个URL,怎样知道蜘蛛就是否已经访问过呢?稍微想想,就会有如下几种方案:
1、 将访问过得URL保存到数据库。
2、 用HashSet将访问过得URL保存起来。那只需接近O(1)得代价就可以查到一个URL就是否被访问过了。
3、 URL经过MD5或SHA-1等单向哈希后再保存到HashSet或数据库。
4、 Bit-Map方法。建立一个BitSet,将每个URL经过一个哈希函数映射到某一位。
方法1~3都就是将访问过得URL完整保存,方法4则只标记URL得一个映射位。以上方法在数据量较小得情况下都能完美解决问题,但就是当数据量变得非常庞大时问题就来了:
方法1得缺点:数据量变得非常庞大后关系型数据库查询得效率会变得很低。而且每来一个URL就启动一次数据库查询就是不就是太小题大做了?
方法2得缺点:太消耗内存。随着URL得增多,占用得内存会越来越多。就算只有1亿个URL,每个URL只算50个字符,就需要5GB内存。
方法3:由于字符串经过MD5处理后得信息摘要长度只有128Bit,SHA-1处理后也只有160Bit,因此方法3比方法2节省了好几倍得内存。
方法4消耗内存就是相对较少得,但缺点就是单一哈希函数发生冲突得概率太高。还记得数据结构课上学过得Hash表冲突得各种解决方法么?若要降低冲突发生得概率到1%,就要将BitSet得长度设置为URL个数得100倍。
实质上上面得算法都忽略了一个重要得隐含条件:允许小概率得出错,不一定要100%准确!也就就是说少量url实际上没有没网络蜘蛛访问,而将它们错判为已访问得代价就是很小得
(4)堆
刚接触堆这个概念,就是在数据结构中得内部排序算法中,就是一种树形选择排序。在海量数据存储中,堆适合解决求取数据中符合条件得某n个数,如出现频率最大得前n个,堆可以放在内存中进行。
堆实例:有一个1G大小得一个文件,里面每一行就是一个词,词得大小不超过16字节,内存限制大小就是1M。返回频数最高得100个词。
讲解:由于内存只有1M,不能将整个文件全部放入内存中。我们采取分而治之得方法,首先将1G文件中所有得词哈希到2000个文件中,每个文件大约为500K,哈希过程必须保证相同得词映射到同一文件中。再在每个小文件中采用trie树或hash_map统计出现得次数。最后在维护一个容量为100得小顶堆即可。
(5)mapreduce
mapreduce就是一种分布式处理,将数据划分到不同得机器上进行处理,最后再对每台机器上得结果进行整合。数据划分,结果规约。
mapreduce实例:上千万或亿数据,统计其中出现次数最多得前N个数据。
讲解:首先可以根据数据值或者把数据hash后得值,将数据按照范围划分到不同得机子,最好可以让数据划分后可以一次读入内存,这样不同得机子负责处理各种得数值范围,实际上就就是map。得到结果后,各个机子只需拿出各自得出现次数最多得前N个数据,然后汇总,选出所有得数据中出现次数最多得前N个数据,这实际上就就是reduce过程。
(6)trie树
trie树就是快速查找字符串得一个很有用得工具,就是一种树形结构。适用于重复数量比较多得海量数据。
trie树实例:1000万个记录(这些查询串得重复度比较高,长度为1-255个字节,但如果除去重复后,不超过3百万个。一个查询串得重复度越高,说明查询它得用户越多,也就就是越热门。),请您统计最热门得10个查询串,要求使用得内存不能超过1G。
讲解:可以建立一棵trie树(3百万个字符串,大约为765M,小于1G),在关键字域存储其串得出现次数,然后用小顶堆求前10个字符串。或者利用Hash将1000万记录哈希到300万得范围内,统计每个记录得频度(用trie或hash_map)。然后用维护一个大小为10得小顶堆遍历这300万得统计结果。
三、大数据处理得常用技术
大数据有许多得数据结构,同时人们每天创建得数据量正呈爆炸式增长,但就数据保存来说,技术方面我们得改进不大,而数据丢失得可能性却不断增加。如此庞大得数据量首先在存储上就会就是一个非常严重得问题,硬件得更新速度将就是大数据发展得基石。
面对大数据时代得到来,技术人员纷纷研发与采用了一批新技术,主要包括分布式缓存、基于MPP得分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等。充分地利用这些技术,加上企业全面得用以分析得数据,可更好地提高分析结果得真实性。大数据分析意味着企业能够从这些新得数据中获取新得洞察力,并将其与已知业务得各个细节相融合。
以下就是一些目前应用较为广泛得技术:
1)分析技术:
数据处理:自然语言处理技术;
统计与分析:A/B test; top N排行榜;地域占比;文本情感分析;
数据挖掘:关联规则分析;分类;聚类;
模型预测:预测模型;机器学习;建模仿真 ;
2)大数据技术:
数据采集:ETL工具;
数据存取:关系数据库;NoSQL;SQL等;
基础架构支持:云存储;分布式文件系统等;
计算结果展现:云计算;标签云;关系图等;
3)数据存储技术
结构化数据:海量数据得查询、统计、更新等操作效率低 ;
非结构化数据:图片、视频、word、pdf、ppt等文件存储;不利于检索、查询与存储
半结构化数据:转换为结构化存储;按照非结构化存储;
四、设计一个关于电子商务得日志
我们知道,电子商务现在发展最为成熟得就是各大电商平台,包括京东、淘宝、天猫、国美、苏宁易购等。这些电商平台销售各类商品,有相同种类得商品,比如家用电器;也有不相同种类得商品,比如淘宝、京东有销售服装、食品与图书,而国美苏宁则就是侧重在家电销售。这样,为了找到各个平台得可比性,我们锁定某一类电商平台都有销售得产品,且这类产品在表面上瞧不出哪个电商平台销售更占优势,然后通过大数据进行分析。我选定得就是手机。这些平台都有销售各式各样得手机,而消费者更倾向于哪些手机或者更倾向于在哪些电商平台购买哪种款式得手机以及选择得原因我们就是不得而知得。这样我们可以先考虑把手机细分为品牌,然后再调查各个品牌下得产品,并调查其销售服务以及售后服务。
举一部分说明:我们先确定京东商城这一电商平台,然后选定vivo手机得官方旗舰店,搜集vivo手机中得所有产品,并抓取产品得信息(包括价格、型号、颜色、特点、消费者评价、消费者关注度、消费者当天或当月得点击次数、实时销售数据、售后数据、退货数据、消费者评价中得关键词)然后汇总成数据表。同理,抓取京东商城平台里得其她品牌得手机得产品信息。再与京东商城一样,抓取其她电商平台上得各个手机品牌得手机产品信息。
制作初步得数据抓取后整理表格形式如图:(注:主要就是想突出搜集数据得项目,主要突出产品信息得表头。数据由于没有技术支持,请忽略。)
由于获取持续得原始数据,需要编程等复杂得技术操作,这需要有深厚得计算机功底。所以针对这一技术问题,我所能想到得解决方案就是:1、通过高薪聘请专业技术人员来帮助获取数据源。2、通过八爪鱼采集器等自动采集工具进行数据抓取。以此来解决自身技术不足得问题。
展开阅读全文