主题:神马是数据科学家
嘉宾:林荟
主办:统计之都
场地:中国人民大学
组织:蔡锐 魏太云 张心雨 冯璟烁 于嘉傲 邓金涛 杨舒仪
纪要:杨舒仪
简介:第33期沙龙(北京)与2015年11月8日在中国人民大学顺利举办。本次沙龙由人大统院本科生于嘉傲主持,嘉宾林荟女士现任杜邦公司商业数据科学家,曾经在Iowa State University先后担任兽医学院统计咨询师及商学院统计咨询师,研究兴趣在预测模型,机器学习,数据可视化,市场营销调查分析,消费者行为分析,自然语义处理和文本挖据,健康与疾病统计分析等方面。
本次沙龙嘉宾林荟女士基于北美传统行业从业经验,谈了谈除了互联网行业外,数据科学家在传统行业的市场部门都干些什么、如何成为数据科学家、数据科学家需要什么技能、数据科学相关教育、北美数据科学家就业情况等相关问题。在炒得火热的大数据时代,为大家还原了一个真实的数据科学和数据科学家。
下面是对沙龙主要内容的回顾:
一、什么是数据科学家?
首先,林荟女士给出了针对数据科学家的多种定义,指出数据科学家这个行业的定义很模糊。接下来简单分析了几种和“从数据中获取信息”有关的职业(包括数据科学家、数据分析师,BI咨询师,统计学家,金融分析师等)之间的不同之处,并总结了这些职位的不同要求。
接下来,林荟女士通过展示各行业雇佣数据科学家的分布和数据科学家的工作经验分布,让参会者们对数据科学领域有了一个大致的感觉。随后,进一步给出定义:数据科学=数据+科学 数据科学家=数据+科学+艺术家=用数据和科学从事艺术创作的人。简单来说,数据科学就是从数据中得到问题答案的科学,而数据科学家是通过科学方法从数据中得到有实际意义的问题答案的人。她解释道,尤其是在市场当中需要和人打交道,结果交付的对象也基本是一些零技术背景的市场营销出身的人,没有一点艺术是不行的。
二、 数据科学家都干些什么?
林荟女士根据从业经验,总结出了从得到问题到通过数据解决问题的一般过程:从问题到数据、从数据到信息、从信息到知识。同时强调两个非常重要的技术环节:数据预处理和模型检验,并向大家推荐了一些相关论文和书籍。接下来,她向大家介绍了几个具体的应用例子:
预测模型:预测客户行为,销量等。她强调罚函数模型非常好用,同时提到Step-AIC线性回归、随机森林和支持向量机。
客户分组:林荟女士分析了这一经典的市场研究问题,并分享给大家她总结的客户分组流程图。
其他:用户评论文本挖掘、品牌认知、商业活动分析、新产品投放、缓冲库存等。
三、数据科学家需要的技能
林荟女士分享了一份非常全面的数据科学家技能总结,同时她强调数据科学家还应该具有好奇心、热爱/激情、抗压能力等软技能。
四、北美数据科学家就业情况
林荟女士幽默地介绍了目前北美数据科学家的就业情况,目前男女比例约为89%vs11%,总体来说这个职位供不应求。
五、北美的数据科学教育
林荟女士结合调查结果,谈到北美数据科学教育的现状:大部分数据科学家有硕士以上学位(92%)。其中48%有博士学位。拥有博士学位的一般情况下比硕士本科学位的人薪水高。当前数据科学家专业背景大多是统计、计算机科学以及工程学。另外,她还向大家介绍了数据科学这一新学位。
最后,林荟女士就现场参会者们提出的疑问进行了细致的解答,并在沙龙结束后与大家继续热情地讨论,本次沙龙圆满结束。
沙龙PPT下载地址请点击。
发表/查看评论