机器学习与数据挖掘 数据挖掘的六大难题



大约两个月前,京东的总裁战略助理刘爽邀请我去了一趟京东,和一屋子人做内部交流。其中有BI(商业智能)团队的人,有营销团队的人,也有PM及技术团队的人,还有CTO的李总,原本计划1个半小时的交流最后成了4个小时,现在我把可以公开的内容和大家一起分享,因为这些话题具有一定的代表性。

问题一:数据分析请来了数学专家,但是不懂商业,怎么培养他们?

亚马逊内部也有很多博士,但是如果这些博士不懂商业的话,很难为电子商务公司所用。我之前对商业也不敏感,这点特别感谢在敦煌网的工作经历,让我有机会在清华大学培训,并且参与公司的决策制定,4年下来商业意识提升了不少。所以,按照我自己的经验,必须让他们慢慢接触公司的实际业务。比如头一个月,让他们在客服部接电话,也比让他们在那里干坐着强。

问题二:不同的部门有不同的BI队伍,营销有一个,财务也有一个,这种BI队伍散落在不同部门的安排合适不合适?

虽然每个部门都有一个数据团队有利于每个部门了解自身的状况,但是公司也必须有一个核心的、独立的BI队伍。

有两个重要原因:首先,BI团队最好与任何其他部门没有利益关系,独立的BI团队更加有利于做公正和独立的分析和研究;其次,数据彼此之间有关系,真正的数据驱动需要把点状的数据连成线或者面。比如这个月的单价为什么变小了?有可能是除了单价比较高的3C产品之外,又主推了价格比较低的生活用品,也有可能是市场部做了低价促销……这个问题需要找BI观察一下,不只是看一个部门的数据就可以分析出来答案的,需要用线性的数据来看。当然,这还只是最基础的数据分析,如果上升到用数据给公司做战略分析的话,更是要全盘了解财务数据、业务数据和用户行为数据。今天大多数电商公司少了一个数据的架构师,到底需要多少数据,为什么需要这些数据,还没有答案。

| http://www.aihuau.com/darticle3/list.asp?id=153107|35

 机器学习与数据挖掘 数据挖掘的六大难题
而且,特别需要强调的是,一个优秀的BI团队善于问一个问题:Is it possible……BI团队在发展初期,其他部门让跑什么数据就跑什么数据,你去帮我看一下为什么今天的买家突然增长了?但是如果BI 团队只是停留在这个水平,那么它只是一个跑数据的机器,而不是一个驱动公司发展的“参谋”了。到了第二阶段,BI团队就会主动思考了,会问出一些如果这样做会有那样的可能吗?

问题三:为什么有时候数据不可靠?

许多人只怪数据会骗人,很少人在做数据分析前,认真地问一句:数据是从哪里来的?准确吗?

而今造成数据不准确最大的原因是——没有去掉干扰数据和不可靠数据,比如行为数据最大的干扰就是爬虫,第二大干扰就是员工自己点击、对手点击,而第二点很容易被忽视。

在用数据前必须做清理工作,不然用这些不可靠的数据来决定网站产品的设计,就会很奇怪。这也是为什么BI队伍要借助技术团队的原因。

问题四:必须要用数据收集一切客户信息吗?

其实用户比我们想象的愿意告诉我们的信息要多,不一定所有地方都要用数据。一是可以设计流程来采集客户信息,比如客户进来明明可以问是男是女,为什么要用行为数据来看他是男是女呢,数据不能玩得太厉害了。二是电话直接沟通,有时候把八个人分两组直接电话问客户,和分析数据得到的结果差不了多少,这时候数据就不要太强调了。

问题五:从抓客户的层面上说,传统行业和电子商务行业有什么差别?

互联网很浪费,100个人进来,只有2.5个买单,这还算是不错的网站,多少人认真想过提高转化率?而楼下卖烟的店,有个人连续三天来了第四天没来,老板一定会心里有想法。

问题六:最好的买家就是出钱最多的吗?

不是。衡量客户价值,除了从购买能力这个维度来看之外,还应该看他在网络中的社会价值,比如有的人虽然购买的总量少,但是来的次数比较多,他在网络中与许多买家有千丝万缕的联系,能够带动许多人过来买东西,那么这个客户就是平台的核心用户了。  

爱华网本文地址 » http://www.413yy.cn/a/9101032201/83510.html

更多阅读

白鲜皮的功效与作用 白鲜皮的六大功效 银的六大功效

有很多的人对白鲜皮并不是很熟悉,白鲜皮是一种芸香科类的草本植物,白鲜皮的药用价值很高,我们可以用它来治疗很多的疾病,白鲜皮有哪些功效与作用呢?今天就和小编一起去看一看吧。白鲜皮的功效与作用白鲜皮味道较苦,性味寒凉,因此能够很好

陈钢 数据驱动的生命科学 北京大学生命科学学院

【静.沙龙】推出【主题分享】,每周三晚9:00-10:30,围绕大数据、人工智能、前沿科技与人文等主题进行微信群的在线交流、探讨。【静.沙龙主题分享】第9期 数据驱动的生命科学主讲嘉宾: 陈钢主持人: 中国经济网经营顾问 杨静嘉宾介绍:

徽剑IT评点:撕下大数据下的数据挖掘面纱

一、大数据没那么神秘二、数据是会说话的三、数据挖掘的流程四、核心之一:领域专家建模五、核心之二:数据采集六、记住,大数据其实不是那么数学和计算机七、可以的应用一、大数据没那么神秘最近一年来谈大数据的很火,到处都在说

误差理论与数据处理 误差理论与数据处理1-3

误差理论与数据处理一、判断题1. 测量结果的绝对误差是没有负值的。(×)2. 测量结果的相对误差大,则其引用误差一定也大。(×)3. 约定真值仅仅是真值的估计值,因为它具有不确定度。(√)4.测量结果的不确定度和测量误差都是用来说明测量结果

声明:《机器学习与数据挖掘 数据挖掘的六大难题》为网友拥抱让我踏实分享!如侵犯到您的合法权益请联系我们删除