2025年数据分析师笔试题目.doc

资源描述

网易数据分析专人笔试题目一、基础题 1、中国目前有多少亿网民？ 2、百度花多少亿美元收购了91无线？ 3、app store排名的规则和影响原因 4、豆瓣fm推荐算法 5、列举5个数据分析的博客或网站二、计算题 1、有关简朴移动平均和加权移动平均计算 2、两行数计算有关系数。（2位小数，还不让用计算器，反正我没算） 3、计算三个距离，欧几里德，曼哈顿，闵可夫斯基距离三、简答题 1、离散的指标，优缺陷 2、插补缺失值措施，优缺陷及合用环境 3、数据仓库处理方案，优缺陷 4、分类算法，优缺陷 5、协同推荐系统和基于聚类系统的区别四、分析题有关网易邮箱顾客流失的定义，挑选指标。然后要构建一种预警模型。五、算法题记不得了，没做。。。反正是决策树和神经网络有关。 1、你处理过的最大的数据量？你是怎样处理他们的？处理的成果。 2、告诉我二个分析或者计算机科学有关项目？你是怎样对其成果进行衡量的？ 3、什么是：提高值、关键绩效指标、强健性、模型按合度、试验设计、2/8原则？ 4、什么是：协同过滤、n-grams, map reduce、余弦距离？ 5、怎样让一种网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一洁净的数据库？ 6、怎样设计一种处理抄袭的方案？ 7、怎样检查一种个人支付账户都多种人使用？ 8、点击流数据应当是实时处理？为何？哪部分应当实时处理？ 9、你认为哪个更好：是好的数据还是好模型？同步你是怎样定义“好”？存在所有状况下通用的模型吗？有你没有懂得某些模型的定义并不是那么好？ 10、什么是概率合并（AKA模糊融合）？使用SQL处理还是其他语言以便？对于处理半构造化的数据你会选择使用哪种语言？ 11、你是怎样处理缺乏数据的？你推荐使用什么样的处理技术？ 12、你最喜欢的编程语言是什么？为何？ 13、对于你喜欢的记录软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是？ 15、什么是大数据的诅咒？ 16、你参与过数据库与数据模型的设计吗？ 17、你与否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？ 18、你喜欢TD数据库的什么特性？ 19、怎样你打算发100万的营销活动邮件。你怎么去优化发送？你怎么优化反应率？能把这二个优化份开吗？ 20、假如有几种客户查询ORACLE数据库的效率很低。为何？你做什么可以提高速度10倍以上，同步可以更好处理大数量输出？ 21、怎样把非构造化的数据转换成构造化的数据？这与否真的有必要做这样的转换？把数据存成平面文本文献与否比存成关系数据库更好？ 22、什么是哈希表碰撞袭击？怎么防止？发生的频率是多少？ 23、怎样鉴别mapreduce过程有好的负载均衡？什么是负载均衡？ 24、请举例阐明mapreduce是怎样工作的？在什么应用场景下工作的很好？云的安全问题有哪些？ 25、（在内存满足的状况下）你认为是100个小的哈希表好还是一种大的哈希表，对于内在或者运行速度来说？对于数据库分析的评价？ 26、为何朴素贝叶斯差？你怎样使用朴素贝叶斯来改善爬虫检查算法？ 27、你处理过白名单吗？重要的规则？（在欺诈或者爬行检查的状况下） 28、什么是星型模型？什么是查询表？ 29、你可以使用excel建立逻辑回归模型吗？怎样可以，阐明一下建立过程？ 30、在SQL, Perl, C++, Python等编程过程上，待为了提高速度优化过有关代码或者算法吗？怎样及提高多少？ 31、使用5天完毕90%的精度的处理方案还是花10天完毕100%的精度的处理方案？取决于什么内容？ 32、定义：QA（质量保障）、六西格玛、试验设计。好的与坏的试验设计能否举个案例？ 33、一般线性回归模型的缺陷是什么？你懂得的其他回归模型吗？ 34、你认为叶数不不小于50的决策树与否比大的好？为何？ 35、保险精算与否是记录学的一种分支？假如不是，为何怎样？ 36、给出一种不符合高斯分布与不符合对数正态分布的数据案例。给出一种分布非常混乱的数案例。 37、为何说均方误差不是一种衡量模型的好指标？你提议用哪个指标替代？ 38、你怎样证明你带来的算法改善是真的有效的与不做任何变化相比？你对A/B测试熟吗？ 39、什么是敏感性分析？拥有更低的敏感性（也就是说更好的强健性）和低的预测能力还是恰好相反好？你怎样使用交叉验证？你对于在数据集中插入噪声数据从而来检查模型的敏感性的想法怎样看？ 40、对于一下逻辑回归、决策树、神经网络。在过去中这些技术做了哪些大的改善？ 41、除了主成分分析外你还使用其他数据降维技术吗？你怎么想逐渐回归？你熟悉的逐渐回归技术有哪些？什么时候完整的数据要比降维的数据或者样本好？ 42、你怎样提议一种非参数置信区间？ 43、你熟悉极值理论、蒙特卡罗逻辑或者其他数理记录措施以对的的评估一种稀疏事件的发生概率？ 44、什么是归因分析？怎样识别归因与有关系数？举例。 45、怎样定义与衡量一种指标的预测能力？ 46、怎样为欺诈检查得分技术发现最佳的规则集？你怎样处理规则冗余、规则发现和两者的本责问题？一种规则集的近似处理方案与否可行？怎样寻找一种可行的近似方案？你怎样决定这个处理方案足够好从而可以停止寻找另一种更好的？ 47、怎样创立一种关键字分类？ 48、什么是僵尸网络？怎样进行检测？ 49、你有使用过API接口的经验吗？什么样的API？是google还是亚马逊还是软件即时服务？ 50、什么时候自己编号代码比使用数据科学者开发好的软件包更好？ 51、可视化使用什么工具？在作图方面，你怎样评价Tableau?R?SAS?在一种图中有效展现五个维度？ 52、什么是概念验证？ 53、你重要与什么样的客户共事：内部、外部、销售部门/财务部门/市场部门/IT部门的人？有征询经验吗？与供应商打过交道，包括供应商选择与测试。 54、你熟悉软件生命周期吗？及IT项目的生命周期，从收入需求到项目维护？ 55、什么是cron任务？ 56、你是一种独身的编码人员？还是一种开发人员？或者是一种设计人员？ 57、是假阳性好还是假阴性好？ 58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗？分别给案例。 59、Zillow’s算法是怎样工作的？ 60、怎样检查为了不好的目的还进行的虚假评论或者虚假的FB帐户？ 61、你怎样创立一种新的匿名数字帐户？ 62、你有无想过自己创业？是什么样的想法？ 63、你认为帐号与密码输入的登录框会消失吗？它将会被什么替代？ 64、你用过时间序列模型吗？时滞的有关性？有关图？光谱分析？信号处理与过滤技术？在什么样的场景下？ 65、哪位数据科学有你最佩服？从哪开始？ 66、你是怎么开始对数据科学感爱好的？ 67、什么是效率曲线？他们的缺陷是什么，你怎样克服这些缺陷？ 68、什么是推荐引擎？它是怎样工作的？ 69、什么是精密测试？怎样及什么时候模拟可以帮忙我们不使用精密测试？ 70、你认为怎么才能成为一种好的数据科学家？ 71、你认为数据科学家是一种艺术家还是科学家？ 72、什么是一种好的、迅速的聚类算法的的计算复杂度？什么好的聚类算法？你怎么决定一种聚类的聚数？ 73、给出某些在数据科学中“最佳实践的案例”。 74、什么让一种图形使人产生误解、很难去读懂或者解释？一种有用的图形的特性？ 75、你懂得使用在记录或者计算科学中的“经验法则”吗？或者在商业分析中。 76、你觉得下一种最佳的5个预测措施是？ 77、你怎么立即就懂得在一篇文章中（例如报纸）刊登的记录数字是错误，或者是用作支撑作者的论点，而不是仅仅在罗列某个事物的信息？例如，对于每月官方定期在媒体公开公布的失业记录数据，你有什么感想？怎样可以让这些数据愈加精确？从阿里数据分析师笔试看职业规定如下试题是来自阿里巴巴招募实习生的一次笔试题，从笔试题的几种规定我们一起来看看数据分析的职业规定。一、异常值是指什么？请列举1种识别持续型变量异常值的措施？异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其他观测值。在数理记录里一般是指一组观测值中与平均值的偏差超过两倍原则差的测定值。 Grubbs’ test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的记录检测，它假定数据集来自正态分布的总体。未知总体原则差σ，在五种检查法中，优劣次序为：t检查法、格拉布斯检查法、峰度检查法、狄克逊检查法、偏度检查法。点评：考察的内容是记录学基础功底。二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和环节。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的记录分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不一样在于，聚类所规定划分的类是未知的。聚类分析计算措施重要有：层次的措施（hierarchical method）、划分措施（partitioning method）、基于密度的措施（density-based method）、基于网格的措施（grid-based method）、基于模型的措施（model-based method）等。其中，前两种算法是运用记录学定义的距离进行度量。 k-means 算法的工作过程阐明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩余其他对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分派给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不停反复这一过程直到原则测度函数开始收敛为止。一般都采用均方差作为原则测度函数. k个聚类具有如下特点：各聚类自身尽量的紧凑，而各聚类之间尽量的分开。其流程如下：（1）从 n个数据对象任意选择 k 个对象作为初始聚类中心；（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对对应对象进行划分；（3）重新计算每个（有变化）聚类的均值（中心对象）；（4）循环（2）、（3）直到每个聚类不再发生变化为止（原则测量函数收敛）。长处：本算法确定的K 个划分抵达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果很好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为 O(NKt)，其中N是数据对象的数目，t是迭代的次数。一般来说，K<<N，t<<N 。缺陷：1. K 是事先给定的，但非常难以选定；2. 初始聚类中心的选择对聚类成果有较大的影响。点评：考察的内容是常用数据分析措施，做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺陷。三、根据规定写出SQL 表A构造如下： Member_ID（顾客的ID，字符型） Log_time（顾客访问页面时间，日期型（只有一天的数据）） URL（访问的页面地址，字符型）规定：提取出每个顾客访问的第一种URL（准时间最早），形成一种新表（新表名为B，表构造和表A一致） createtable B asselectMember_ID, min(Log_time), URL from Agroup byMember_ID ; 点评：SQL语句，简朴的数据获取能力，包括表查询、关联、汇总、函数等。四、销售数据分析如下是一家B2C电子商务网站的一周销售数据，该网站重要顾客群是办公室女性，销售额重要集中在5种产品上，假如你是这家企业的分析师， a) 从数据中，你看到了什么问题？你觉得背后的原因是什么？ b) 假如你的老板规定你提出一种运行改善计划，你会怎么做？表如下：一组每天某网站的销售数据 a) 从这一周的数据可以看出，周末的销售额明显偏低。这其中的原因，可以从两个角度来看：站在消费者的角度，周末也许不用上班，因而也没有购置该产品的欲望；站在产品的角度来看，该产品不能在周末的时候引起消费者足够的注意力。 b) 针对该问题背后的两方面原因，我的运行改善计划也分两方面：一是，针对消费者周末没有购置欲望的心理，进行引导提醒消费者周末就应当准备好该产品；二是，通过该产品的某些类似于打折促销等活动来提高该产品在周末的人气和购置力。点评：数据解读能力，获取数据是基本功，仅仅有数据获取能力是不够的，另一方面是对数据的解读能力。五、顾客调研某企业针对A、B、C三类客户，提出了一种统一的改善计划，用于提高客户的周消费次数，需要你来制定一种事前试验方案，来支持决策，请你思索下列问题： a) 试验需要为决策提供什么样的信息？ c) 按照上述目的，请写出你的数据抽样措施、需要采集的数据指标项，以及你选择的记录措施。 a) 试验要能证明该改善计划能明显提高A、B、C三类客户的周消费次数。 b) 根据三类客户的数量，采用分层比例抽样；需要采集的数据指标项有：客户类别，改善计划前周消费次数，改善计划后周消费次数；选用记录措施为：分别针对A、B、C三类客户，进行改善前和后的周消费次数的，两独立样本T-检查（two-sample t-test）。点评：业务理解能力和数据分析思绪，这是数据分析的关键竞争力。综上所述：一种合格的数据分析应当具有记录学基础知识、数据分析措施、数据获取、数据解读和业务理解、数据分析思想几种方面能力，即将成为数据分析师的亲们，你们准备好了吗？ 2 、从腾讯（数据挖掘方向）笔试题目看技术储备笔试内容： 1.二叉树遍历：已知中序遍历次序以及前序遍历次序，求后序遍历次序 2.SQL语句：找出QQset中最小的QQ号码 3.encodeURI&URL传播的转义成果 4.36辆车，6条跑道，无计时器，至少几次比赛可以选出前三 5.Windows/Linux下判断远程地址为某主机监听的某端口是都开放的命令是？ 6.html 网站cookie 7.cookie功能 8.哈希冲突 9.哪些http措施对于服务端和顾客是安全的 10.二维数组内存地址计算 11.附加题：推导线性最小二乘法过程 12.附加题：概率计算（这个相称简朴啦） 13.模型过拟合与哪些原因有关，写出理由 3 、从百度（数据挖掘工程师）笔试题目看技术储备一. 简答题 1. new 和 malloc 的区别。 2. hash冲突是指什么?怎么处理?给两种措施，写出过程和优缺陷。 3. 命中的概率是 0.25，若要至少命中一次的概率不不不小于 0.75，则至少需要几次? 二. 算法设计题 1. 用C/C++写一种归并排序。数据构造为struct Node{int v; Node *next}; 接口为 Node * merge_sort(Node *); 2. 设计S型层次遍历树的算法，例如根节点是第一层，第二层从左至右遍历，第三层从右至左遍历，第四层再从左至右遍历，以此类推。举例：应依次输出 1 2 3 6 5 4 7 8 9。 3. 一种url文献，每行是一种url地址，也许有反复。 (1)记录每个url的频次，设计函数实现实现。 (2)设有10亿url，平均长度是20，目前机器有8G内存，怎么处理，写出思绪。三. 系统设计题自然语言处理中的中文分词问题，前向最大匹配算法(FMM)。注：题目举例阐明了FMM的基本思想。 (1)设计字典的数据构造 struct dictnote。 (2)用C/C++实现FMM，可选接口为 int FMM(vectoriLetters, dictnode *iRoot, vector*oResults); 其中 iLetters 为待分词的句子，例如 {“小”，“明”，“今”，“天”，“买”，“了”，“i”，“p”，“o”，“n”，“e”，“6”}， iRoot 是字典， oResults 保留输出成果，即分词的位置。也可以自己设计接口。 (3)搜集了某些手机品牌的字典，如{iphone, 诺基亚}。目前规定查找包括这些手机品牌的网页，例如包括 iphone6, 诺基亚 9973 等。怎么修改FMM实现这个功能，可以写伪代码。 4 、从搜狐（数据挖掘算法工程师）笔试题目看技术储备笔试 1，类的继承 2，资源互斥下的死锁 3，一维数组，元素为指针，指针指向一种参数为Int，返回值为int的函数 4，进程间的通信方式 5， Const标志符常量一定要？ 6， String的一般构造函数，拷贝构造函数，赋值函数，析构函数 7， Strcpy函数 8， N个不一样数的全排列，打印所有全排列 9， Sizeof(char name[]=”hello”) 10，继承的转换（子类可以转换成基类，基类不能转换成子类，多继承下同一子类的基类间不能互相转换） 5 、从网易（数据挖掘研究员）笔试题目看技术储备笔试 1，字符串匹配的算法复杂度（主串N,字串M）N+M 2，排序算法的稳定性(迅速排序为非稳定) 3，平衡二叉树的插入 4， 20个亿整数的两个集合a与b,求a与b的交集，内存为4Gb 5，在N个无序数中找K个最小值 6，页面文献的逻辑地址位（8个1024字放内32帧内存里） 7，计算机网络各层应用连接 8，哪一种模式不关怀算法 Abstract Factory：提供一种创立一系列有关或互相依赖对象的接口，而无需指定它们详细的类。（使用得非常频繁。） Adapter：将一种类的接口转换成客户但愿的此外一种接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。 Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。 Builder：将一种复杂对象的构建与它的表达分离，使得同样的构建过程可以创立不一样的表达。 Chain of Responsibility：为解除祈求的发送者和接受者之间耦合，而使多种对象均有机会处理这个祈求。将这些对象连成一条链，并沿着这条链传递该祈求，直到有一种对象处理它。 Command：将一种祈求封装为一种对象，从而使你可用不一样的祈求对客户进行参数化；对祈求排队或记录祈求日志，以及支持可取消的操作。 Composite：将对象组合成树形构造以表达“部分-整体”的层次构造。它使得客户对单个对象和复合对象的使用品有一致性。 Decorator：动态地给一种对象添加某些额外的职责。就扩展功能而言，它比生成子类方式更为灵活。 Facade：为子系统中的一组接口提供一种一致的界面， F a c a d e模式定义了一种高层接口，这个接口使得这一子系统愈加轻易使用。 Factory Method：定义一种用于创立对象的接口，让子类决定将哪一种类实例化。Factory Method使一种类的实例化延迟到其子类。 Flyweight：运用共享技术有效地支持大量细粒度的对象。 Interpreter：给定一种语言, 定义它的文法的一种表达，并定义一种解释器, 该解释器使用该表达来解释语言中的句子。 Iterator：提供一种措施次序访问一种聚合对象中各个元素, 而又不需暴露该对象的内部表达。 Mediator：用一种中介对象来封装一系列的对象交互。中介者使各对象不需要显式地互相引用，从而使其耦合松散，并且可以独立地变化它们之间的交互。 Memento：在不破坏封装性的前提下，捕捉一种对象的内部状态，并在该对象之外保留这个状态。这样后来就可将该对象恢复到保留的状态。 Observer：定义对象间的一种一对多的依赖关系,以便当一种对象的状态发生变化时,所有依赖于它的对象都得到告知并自动刷新。 Prototype：用原型实例指定创立对象的种类，并且通过拷贝这个原型来创立新的对象。 Proxy：为其他对象提供一种代理以控制对这个对象的访问。 Singleton：保证一种类仅有一种实例，并提供一种访问它的全局访问点。 State：容许一种对象在其内部状态变化时变化它的行为。对象看起来似乎修改了它所属的类。 Strategy：定义一系列的算法,把它们一种个封装起来, 并且使它们可互相替代。本模式使得算法的变化可独立于使用它的客户。 Template Method：定义一种操作中的算法的骨架，而将某些环节延迟到子类中。Template Method使得子类可以不变化一种算法的构造即可重定义该算法的某些特定环节。 Visitor：表达一种作用于某对象构造中的各元素的操作。它使你可以在不变化各元素的类的前提下定义作用于这些元素的新操作 9，数据库系统的两种语言（一种用于定义数据库模式；另一种用于体现数据的查询和更新） 10，数据库的连接运算 11，建立索引的原则在常常需要搜索的列上，可以加紧搜索的速度；在作为主键的列上，强制该列的唯一性和组织表中数据的排列构造；在常常用在连接的列上，这些列重要是某些外键，可以加紧连接的速度；在常常需要根据范围进行搜索的列上创立索引，由于索引已经排序，其指定的范围是持续的；在常常需要排序的列上创立索引，由于索引已经排序，这样查询可以运用索引的排序，加紧排序查询时间；在常常使用在WHERE子句中的列上面创立索引，加紧条件的判断速度。不应当创立索引的的这些列具有下列特点：第一，对于那些在查询中很少使用或者参照的列不应当创立索引。这是由于，既然这些列很少使用到，因此有索引或者无索引，并不能提高查询速度。相反，由于增长了索引，反而减少了系统的维护速度和增大了空间需求。第二，对于那些只有很少数据值的列也不应当增长索引。这是由于，由于这些列的取值很少，例如人事表的性别列，在查询的成果中，成果集的数据行占了表中数据行的很大比例，即需要在表中搜索的数据行的比例很大。增长索引，并不能明显加快检索速度。第三，对于那些定义为text, image和bit数据类型的列不应当增长索引。这是由于，这些列的数据量要么相称大，要么取值很少。第四，当修改性能远远不小于检索性能时，不应当创立索引。这是由于，修改性能和检索性能是互相矛盾的。当增长索引时，会提高检索性能，不过会减少修改性能。当减少索引时，会提高修改性能，减少检索性能。因此，当修改性能远远不小于检索性能时，不应当创立索引。 12，事务的定义与特点，事务隔离的级别事务（Transaction）是并发控制的单位，是顾客定义的一种操作序列。这些操作要么都做，要么都不做，是一种不可分割的工作单位。通过事务，SQL Server能将逻辑有关的一组操作绑定在一起，以便服务器保持数据的完整性。事务的特性(ACID特性) A:原子性(Atomicity)，事务是数据库的逻辑工作单位，事务中包括的诸操作要么全做，要么全不做。 B:一致性(Consistency)，事务执行的成果必须是使数据库从一种一致性状态变到另一种一致性状态。一致性与原子性是亲密有关的。 C:隔离性(Isolation)，一种事务的执行不能被其他事务干扰。 D:持续性/永久性(Durability)，一种事务一旦提交，它对数据库中数据的变化就应当是永久性的。未授权读取（容许脏读取，但不容许更新丢失），授权读取（容许不可反复读取，但不容许脏读取），可反复读取（严禁不可反复读取和脏读取，不过有时也许出现幻影数据）和序列化（事务序列化执行，不能并发执行） 13，专业题一数据挖掘的环节 14， Pca的概念和处理过程（主成分分析） 15， K中心点聚类算法简介首先为每个簇随意选择一下代表对象，将剩余的对象根据其与代表对象的距离分派给近来的一种簇。然后反复地用非代表对象来替代代表对象，以改善聚类的质量。鉴定一种非代表对象O与否是目前一种代表对象的O1的好的替代，对于每一种非代表对象p，下面的四种状况考虑。 1， p目前属于代表Oj,假如Oj被O替代，p离Oi近来，那么p被重新分派给Oi 2， p目前属于代表Oj,假如Oj被O替代，p离O近来，那么p被重新分派给O 3， p目前属于代表Oi,假如Oj被O替代，p离Oi近来，那么p不变 4， p目前属于代表Oi,假如Oj被O替代，p离Oi近来，那么p被重新分派给O 16，中文分词技术简介，常用数据构造和算法 17，分类器的主流评测指标：精确率，速率，鲁棒性，可规模性和可解释性 18，怎样建立一种智能问答系统，思绪 19，怎样建立一种智能商品推荐系统，思绪网易面试归来，还不懂得成果。对于数据分析师这个职位，网上的面经很少，之前自己在网上找面经时深感无经可取，不懂得技术面什么流程，面试官重要问什么，因此这里特地留个爪，供后生参照，作为抛砖引玉，欢迎童鞋多发帖多交流，最最最重要的是攒 rp 求祝愿 ~ 攒 rp 求祝愿 ~ 攒 rp 求祝愿 ~ ：一面：女面试官，人和蔼可亲，常常笑着肯定你的说法，让人也不会太紧张。先自我简介，然后她就针对我的实习经历问了某些问题，问的比较详细，因此简历上做过的实习、项目一定要把流程理顺、细节想清晰。简历问了大概二十分钟，就开始问她准备的问题，有： 1. 假如一种 APP 某一天的日活量异常，你怎么分析？ 2. 怎样建立预测一种 APP 的顾客流失模型？可以创立哪些特性？跟面试官聊得很开心，没什么压力，感觉时间过的很快。二面：等到下午才有二面，一种不苟言笑的男面试官。照例先自我简介，然后问了简历，也比较详细，跟一面差不多。技术问题有： 1. 论述逻辑回归原理 2. 有哪些分类、聚类算法，分类我说到 SVM ，他就让我论述 SVM 原理，假如数据有异常值怎么办？（其实我不太懂 SVM ，只讲了一点，异常值那里也不清晰，他提醒了可以用正则化，这个我刚好熟悉他就又问了为何要有正则化） 3. 数据分析有哪些环节？你想做所有这些流程但不深入，还是专攻某一流程成为专家？我最擅长的是哪一种环节？ 4. 选择网易的一款产品，说说你怎么运用数据分析提高产品的热度？（我回答的有道词典，可以通过度析客户流失挽回流失客户，他说有道词典不需要登陆，问我怎么得到顾客信息，这一点我没答上来） 5. 假如要选择一种产品部门做分析，你会选择哪一种产品，为何三面：等了很久才等到三面，是总监技术面，应当是一种做了很久的老员工，除了简历，重要问我数据库的建立、维护问题，他应当对数据库很理解，他问了：你觉得数据分析师最重要的特质是什么。四面：三面到四面的时间就很短了，是 HR 面，然而并不像 HR 面试，像上一轮技术面的延续，问了我简历上的实习经历以及某些职场情景的对策： 1. 假如产品团体要你完毕某项分析工作，又不采用你的提议怎么办 2. 产品团体的人也懂数据分析，你觉得数据分析团体存在的价值是什么？会不会被取代总结： 1. 面试整体不难，对自己要有信心 2. 做好充足的准备（包括简历上的项目、实习以及里面也许会问到的某些业务细节、技术点，如 APP分析、机器学习算法，面试企业的某些产品），不打无准备之仗 3. 保持清晰的思绪和敏捷的反应，在面试官解释问题时迅速思索，有条理的回答，并且故意识地突出自己的优势 4. 在结束时一定要向面试官提某些有针对性的问题以表达感爱好，假如怕想不出来可以事先准备某些常规的问题网易的员工都很nice，很乐意理解你，不会刻意刁难，以真诚、实事求是的态度看待每一种问题，展现最真实、最优秀的自己。 8月19日，阿里校招数据分析师笔试题。合计21题（貌似记录漏了一题，应当是单项选择少了一题，凑合看吧），选择题每个人的都不一样样，问答题是同样的。临时没有答案，但愿对大家有用。单项选择题： 1观测宇宙中单位体积内星球的个数，属于什么分布： A学生分布B泊松分布C正态分布D二项分布 2某些有关数据挖掘说法是对的的 A数据挖掘是万能的 B假如你建立了一种database，那就意味着你已经有足够的数据可以做数据挖掘了 C数据挖掘=数据+算法，数据挖掘人员大部分的时间用来处理复杂的挖掘算法 DABC均有错 3已知随机变量X,Y分别服从泊松分布P(S),卡方分布X2(t)，E(X)=4,D(Y)=9,则参数s,t分别： A2,9;B4,9C4,4.5;D2,4.5 4下面算法中哪一种不属于广义线性回归算法 A生存模型算法 Bbeta回归算法 Clogit回归算法 D鉴别分析算法 5有一列1000万淘宝买家的淘宝运费险保费数据，要计算该列数据的P1-P100分位数，可使用哪个SAS语句？ Aproc sort Bproc rank Cproc univariate Dproc freq 6X服从区间（2，6）上的均匀分布，求对X进行3次独立观测中，至少有2次的观测值不小于3的概率。 A0.84375 B0.75275 C0.65275 D0.80370 7下面对于“预测变量间也许存在较严重的多重共线性”的论述中错误的是？ A回归系数的符号与专家经验知识不符 B方差膨胀因子（VIF）<5 C其中两个预测变量的有关系数>=0.85 D变量重要性与专家经验严重违反 8由于淘宝买家消费数据是亿级别，假设为了迅速计算买家每月的平均消费额，采用抽样1W个买家来计算 A采用分层抽样措施把全量淘宝买家按照星级，每层抽取相似的数量，计算平均值 B采用系统抽样措施，把全量买家随机排序，每隔一定数量抽一种，计算平均值 C采用无放回随机措施，从全量买家中随机挑选一种买家，不放回，如此循环 D采用有放回随机措施，从全量买家中随机挑选一种买家，然后再放回，如此循环 9请找出数列4，9，23，60，157的下一项（） A 411 B 314 C 425 D ABC均错 10（应当是没记录上）多选题 11如下哪个语法不是R的基础语言 Aproc glot Bselect *from table Ckc<-kmeans(data,3) Dprint”hello world” Esd<-summary(data) Fimport 12分析师在工作中的良好习惯是 A将工作空间的密码共享给他人 B将数据下载到私人电脑进行分析处理 C在处理资源高峰期提交大任务运算 D不定期地将分析汇报分享给团体 E定期清理存储空间 F固话平常需要分析的数据表以便计算 13 14 15 16请分析淘宝消费者的流失状况 17淘宝和天猫上每天均有大量的顾客在线上购置，作为分析师可以从哪些角度对顾客进行分析，阐明理由 18 19 20已知A商家近五年每月的成交数据，请列出两种不一样的时间序列预测模型可以用来预测商家接下来三个月的成交，并详细论述在使用每一种措施前需要对数据进行什么预处理以及详细措施 21你理解中的分析师是什么样的？你觉得自己目前应聘分析师职位的优势是什么？并阐明理由。

展开阅读全文