收藏 分销(赏)

最完整北京民宿数据分析PPT课件.ppt

上传人:可**** 文档编号:781434 上传时间:2024-03-15 格式:PPT 页数:46 大小:9.59MB
下载 相关 举报
最完整北京民宿数据分析PPT课件.ppt_第1页
第1页 / 共46页
最完整北京民宿数据分析PPT课件.ppt_第2页
第2页 / 共46页
最完整北京民宿数据分析PPT课件.ppt_第3页
第3页 / 共46页
最完整北京民宿数据分析PPT课件.ppt_第4页
第4页 / 共46页
最完整北京民宿数据分析PPT课件.ppt_第5页
第5页 / 共46页
点击查看更多>>
资源描述

1、最完整北京民宿数据分析.1 提出问题 .1 内容获得北京特色住宿相关的数据,数据信息包含民宿数量,主要分布的区域,住客打分,住客点评量,价格,距离中心区公里数等。2 工具市场上没有“现成”的数据,该怎么办?这是面临的第一个难题,后来仔细想想,解决这个难题有3个方法:A 请专业编程人员爬取数据 B用简单易上手的爬虫软件 C手抄第一个得花钱,不考虑;第三个得吐血,不考虑。于是选了第二个方法,自学爬虫软件。先后分别用集搜客和八爪鱼爬取数据,相比较八爪鱼更简单。3 网站选好了工具,现在要确定从哪个网站进行爬取。分别研究了缤客、携程、去哪儿、Airbnb等,最终选择途家,网站的定位与研究主题一致。缘起闺

2、蜜要来北京啦,我要综合分析北京特色民宿和酒店为朋友们安排一个难忘的“one night in Beijing”.一、提出问题1.北京253个商圈中,哪些民宿最集中?通州北关和百子湾,哪个周围民宿最多?2.北京16个区,不同类型的民宿面积多大?海淀的复式面积多大?东城区的四合院面积多大?朝阳的公寓面积多大?3.不同区域的民宿,哪些以情侣为主,哪些以家庭为主?看完这篇文章,你就可以来北京投资民宿.2 数据获取.二、数据获得爬取字段包括:房源描述、区域、商圈、离最近商圈距离、格局、户型、面积、宜住人数、床数、住客评分、住客点评数、价格共12个字段,3000多条数据集八爪鱼规则制定.数据搜集器:八爪鱼

3、八爪鱼爬取过程截图二、数据获得.3 数据清洗.重新命名。标题呈现“字段_文本”,“字段_链接”等字样,与主题无关,删除字样,依次改为和内容相关的标题。三、数据清洗(一)理解数据.取子集。原始数据也称作“dirty data”,大量信息是我们不需要的,例如网络链接这列和空白列等,均删除,也可以选择将其隐藏。三、数据清洗(一)理解数据.删除重复。完成理解数据后,进行重复数据的删除。选择整个数据表格,点击“数据”-“删除重复项”,我们找到386个重复数据,将其删除,剩余2824条有效数据。三、数据清洗(二)删除重复项.通过观察我们发现有大量的数据空缺。点击“查找和选择”-“定位条件”-“空值”,定位

4、所有的缺失值所在单元格。三、数据清洗(三)处理空缺值处理缺失值有3种处理方式:1直接删除 2填写数据平均值 3手动填写一个值通过“Ctrl+Enter”实现批量填补。.分列功能。第1步:选择“住客点评数”这列,通过观察你发现,内容由“/”分成左右两部分,“/”符号是关键。我们要做的是:先复制粘贴这一列,然后按“数据”-“分列”,进行分列。在“其他”处,填写“/”。电脑很听话,看到这个符号,就把内容分列到两列。三、数据清洗(四)分列分列前,先增加新列将1列“分列”成2列.分列功能。第2步:选择“格局”这列,单元格内容为:“复式/1室1厅1卫/40平米/宜住2人/1床”,共含5条内容。先插入5列空

5、白列,进行分列,重复第一步的步骤,最终将1列,分列为5列。三、数据清洗(四)分列.数字转化。价格这列数字靠左侧、左上角出现绿三角,说明它是字符串类型,也就是说电脑认为它们是文字,而非数字,我们需要将其转化为数值类型。第1步:复制粘贴到新的一列第2步:按“分列”-“常规”-“完成”第3步:转化成功。数字靠右侧,这是判断它是数值类型的标准。字符型靠单元格左侧,数值型靠右侧三、数据清洗(五)数字转化为数值类型1.这列数字为字符串类型2.将列复制粘贴3.分列功能4.成功转化成为数字类型.EXCEL截取函数。用MID函数截图“点评数”。三、数据清洗(六)截取内容.EXCEL截取函数。用MID函数截取“商

6、圈”。三、数据清洗(六)截取内容.最难的部分:将距离单位统一为“米”第1步,用if语句把带公里的单元格选出来;第2步,用字符串截取函数,把选出来的数据,比如4.8公里,里面的数值提取出来是4.8;第3步,4.8*1000”。三、数据清洗(七)统一单位.4 构建模型.1.价格描述性统计分析北京民宿最普遍的定价是398元,如果你打算开一家民宿,可以作为参考。特别注意的是众数和中位数相差无几,说明这个定价符合市场情况。四、构建模型(一)描述性统计分析.2.点评数描述性统计分析 点评数反应用户粘性,住客体验后,来评价写下评论,同时反应民宿的热度。四、构建模型(一)描述性统计分析.3.住客评分描述性统计

7、住客评分均值为4.848,说明住客对北京民宿的满意度普遍较高,北京民宿服务水平较高。特别注意的是,中位数和众数均为5,再次印证了住客高满意度。如果你想在北京开一家民宿,一定要在设计、服务等方面,做得更好。四、构建模型(一)描述性统计分析.4.宜住人数描述性统计分析宜住人数的众数为2,说明大多数民宿的目标客户是情侣或闺蜜,后面的内容有更详细的分析印证这个结论。四、构建模型(一)描述性统计分析.5.面积描述性统计分析数据显示,众数为50,中位数为60,均值为75,可以发现北京民宿以小户型为主。四、构建模型(一)描述性统计分析.6.离最近商圈距离描述性统计分析离最近商圈距离说明民宿生活的便利性。从中

8、位数、众数、平均数来看,民宿周边500-1500米内就有一个商区。这个距离可以说很便民了。如果你要开民宿,先看看周围1500米内有没有商圈,选址很重要!四、构建模型(一)描述性统计分析.7.床数描述性统计分析床数最普遍的是“1”,和前面我们得出的结论“大多数民宿的目标客户是情侣或闺蜜”相符合,在后面更详细的分析中,我们会看到更多证据。四、构建模型(一)描述性统计分析.1.每个区,不同类型民宿的数量从数量上来说,朝阳区民宿最多,占33%,然后是东城区和海淀区。朝阳区民宿数量是东城区的2.4倍。从类型上说,别墅,复式,公寓,客栈,四合院这5中类型中,公寓数量最多,占到78%。其次是复式。在各区中,

9、复式民宿集中在朝阳、顺义、大兴、通州4个区;别墅集中在昌平;四合院集中在东城区。四、构建模型(二)各个区域民宿特点.2.每个区,不同类型民宿的点评数四合院住客写点评的数量是别墅的4倍,四合院带给游客更深的体验感。四、构建模型(二)各个区域民宿特点.3.各区对应的民宿均价各区中,怀柔的价格最高,均价接近3000元。原以为是某个异常值拉高了平均值,重新翻看数据,发现怀柔有4-5家高端民宿,定价均在4000-7000的范围不等。也有多个价格在2000以上的民宿,表明北京高端民宿在怀柔较为集中。其次价格最高的依次是延庆、昌平区,西城区、东城区。东城区和西城区均价大体一致。房山和门头沟均价最低。四、构建

10、模型(二)各个区域民宿特点.5 大数据告诉我们什么.以上是数据最简单的分析方法,研究对象只有2个,例如:价格和区域的关系、区域和点评数的关系。在下面部分,将分析更复杂的问题,将解决以下几个问题:A哪些商圈,周围民宿最集中?例如:通州北关和百子湾,哪个周围民宿最多。B不同区域、不同类型的民宿面积多大?例如:昌平的复式面积多大,东城区的四合院面积多大,朝阳的公寓面积多大。C不同区域的民宿,哪些以情侣为主,哪些以家庭为主?五、大数据告诉我们什么.分组分析前,先处理几组数据。对面积和商圈距离这两列进行分组,使集散的数据按组分类,方便后续进行比较。民宿离最近商圈的距离,我们分为六个组,分别表示0到1千米

11、,1千米到2千米,2千米到3千米,3千米到4千米,4千米到5千米,5千米到6千米,共六组数据。使用VLOOKUP函数进行操作。五、大数据告诉我们什么.分组将民宿面积分为小,中,大,很大,共4组。小代表50平米以内的民宿,中代表50到100平米的民宿。大代表100到200的民宿。很大代表200平米以上的民宿。哪些区域的民宿大,哪些区域的民宿小?带着问题,我们继续挖掘本质。五、大数据告诉我们什么.1.哪些区域面积大,哪些区域面积小?昌平区 别墅型民宿的面积都在200平米以上;84%的公寓型民宿面积在0-100平米朝阳区 一半的复式型民宿面积在50-100平米,且一半的公寓型民宿在面积同样在50-1

12、00平米大兴区 复式和公寓型也主要集中在50-100平米。东城区 51%的复式型民宿在50-100平米,38%的复式型民宿在100-200平米,70%的公寓式民宿在50-100平米。顺义和东城区情况类似西城区 70%的公寓型民宿在50-100平米丰台区 90%的公寓型民宿在100平米以内。海淀区93%的公寓型民宿在100平米以内门头沟区 民宿以100-200平米居多通州区 47%的复式型民宿在50-100平米,97%的公寓型民宿在100平以内整体来讲,北京民宿面积在50-100平米之间,占民宿数量的53.17%五、大数据告诉我们什么.1.哪些区域面积大哪些区域面积小?五、大数据告诉我们什么.2

13、.253个商圈,哪些商圈最贵总体来看,景区或公园周边的民宿均价普遍较高,如怀柔景区,小汤山温泉区,十三陵景区等。核心商业区如磁器口、东四十条、五棵松等价格在500-600之间。这个数据有253个,就不一一截图,大家感受一下就好。五、大数据告诉我们什么.3.哪些商圈最热门数字越大,民宿数量越多,共有253个数据,截图感受一下。五、大数据告诉我们什么.3.哪些商圈最热门五、大数据告诉我们什么让我感到惊讶的是通州北关排第一,这是个什么样的地方?地图显示,它位于通州区,大运河五河交汇处附近,这里是北京大运河文化最有代表性的地方。美景加文化,有看头,有说头,有玩头,有想头,不热起来也难。.4.住客对北京

14、民宿评价如何超高!有58.48%的住客对北京民宿打了满分!五、大数据告诉我们什么.5.住客以家庭为主还是以情侣、闺蜜为主?宜住人数为民宿承载的顾客数量,从数据看,2人,4人,6人最多,分别占到总数的38%,26%和12%。从供给侧看,情侣、闺蜜、家庭是目标客群,重点以情侣或闺蜜为主。五、大数据告诉我们什么.6.家庭房面积多大?情侣、闺蜜房面积多大?数据显示,在寸金寸土的北京,无论针对家庭还是情侣、闺蜜,民宿面积差异不大,83%的民宿面积在100平米以内。较明显的差异是,60%的情侣房、闺蜜房面积小于50平米,而大部分家庭房在50-100平米之间。五、大数据告诉我们什么.7.住的人数越多,价格越

15、贵吗?低价民宿未呈现人数越高价格越贵的趋势,当价格达到1880元时,出现拐点。明显呈现出,随人数增加价格升高的趋势。五、大数据告诉我们什么.6 结论.六、总结1.北京253个商圈中,哪些民宿最集中?排名依次为:通州北关、双井、珠市口、良乡大学、花梨坎、T3航站楼、青年路、磁器口、后沙峪、传媒大学等。2.北京253个商圈中,哪些民宿最贵?排名依次为:怀柔景区、小汤山温泉区、沙河高教园、天通苑北、北邵洼、北安河、十三陵景区、大葆台、天宫院、稻香湖路等。3.北京16个区,不同类型的民宿面积多大?整体来讲,北京民宿面积集中在50-100平米之间,占民宿数量的53.17%;83%的民宿面积在100平米以内4.民宿,以情侣为主,还是以家庭为主?情侣和闺蜜是民宿主要目标群体,其次是家庭.

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服