第六届中国 R 语言会议(北京会场)于 2013 年 5 月 18 日 ~ 19 日在中国人民大学国学馆113、114教室成功召开。会议由中国人民大学应用统计科学研究中心、中国人民大学统计学院、北京大学商务智能研究中心、统计之都(cos.name)主办。在两天的会议时间里,参会者齐聚一堂,就R语言在互联网、商业、统计、生物、制药、可视化等诸多方面的应用进行了深入的探讨。
会议概况
本次会议报名非常火爆,报名人数超过600人,约有 400 多名参会者前来参会,规模再创历届之最。参会者主要来自各大高校、科研机构、企业和事业单位,全体参会者所在单位汇总如下。
高校和研究所:
中央财经大学、中南大学、中山大学、中国农业科学院、中国社会科学院、中国石油大学、中国科学技术信息研究所、中国科学院北京基因组研究所、中国科学院大学、中国科学院南京地理与湖泊研究所、中国矿业大学(北京)、中国农业大学、中国科学技术大学、中国传媒大学、中国地质大学(北京)、浙江大学、浙江工商大学、芝加哥大学、燕山大学、医学信息研究所、香港城市大学、西南财经大学、微软互联网工程院,北京大学、温岭市委党校、天津医科大学、天津农学院、天津财经大学、天津大学、上海大学、山西医科大学、山西财经大学、中国人民大学、清华大学、南方医科大学、南开大学、内蒙古财经大学、内蒙古科技大学、宁波工程学院、华中农业大学、吉林大学、华北电力大学、河南大学、国防科技大学、第三军医大学、对外经济贸易大学、北京邮电大学、北京语言大学、北京协和医学院、北京师范大学、北京理工大学、北京林业大学、北京航空航天大学、北京交通大学、北京工商大学、北京大学、华侨大学、University of Birmingham、University of Nebraska、Rice University、Iowa State University
企业、事业单位:
Allianz、Amazon、Arvato China、Australian Curriculum, Assessment and Reporting Authority、EBAY、IBM、IMS、Lenovo、Madhouse、Merck、MVC、OMD、Opera solutions、Reyagroup、SAS、VHS、阿里巴巴、艾恩康医疗咨询有限公司、艾瑞咨询集团爱立信(中国)有限公司、爱奇艺、爱生活科技有限公司、安捷达(北京)顾问有效公司、奥浦诺管理咨询(上海)有限公司、百度、北京大学人民医院、北京东方国信科技股份有限公司、北京汉林信通、北京京诚鼎宇管理系统有限公司、北京柯莱特信息技术有限公司、北京洛神科技有限公司北京趣拿软件科技有限公司、北京瑞斯康达科技发展股份有限公司、北京市机械工业管理局党校(北京京城机电控股有限责任公司培训中心)、北京数海时代分析技术有限公司、北京随时传媒有限公司、北京网达信联科技发展有限公司、北京网元圣唐娱乐科技有限公司、北京伟们市场策划顾问有限公司、北京新浪广告有限公司、北京新媒传信科技有限公司、北京雪球科技有限公司、北京亿企通信息技术有限公司、北京永洪商智科技有限公司、北京掌汇天下科技有限公司、北京质量协会、北京致联必达信息咨询有限公司、博彦科技集团、才联智通、财新传媒、创腾科技、当当网、到到网、德勤华永会计师事务所(特殊普通合伙)北京分所、豆瓣、凡客诚品、风行、阜外心血管病医院、高血压研究所、广州乐聚信息技术有限公司、广州生物医药与健康研究院、国家气象中心、国家卫生和计划生育委员会、国家邮政局发展研究中心、果壳网、宏源证券、互动巅峰(好大夫在线)、华大基因研究院、疾控中心、京东商城、居然之家电子商务公司、军事医学科学院网络中心、零点研究咨询集团、美团网、美味书签(北京)信息技术有限公司、鹏元资信、品友互动、品有互动、汽车之家、钱方银通科技有限公司、去哪儿网、人民搜索、人人网、软通动力、瑞安、赛仕软件、桑德环境、山西省肿瘤医院、上海艾瑞市场咨询有限公司、上海伯豪生物技术有限公司、上海万达信息、上海文脉数据技术有限公司、深圳华大基因研究院、神州数码、数明科技(武汉)有限公司、数艺智库——中国传媒大学调查统计研究所、搜狗、搜狐、苏宁易购、随视传媒、泰山投资、淘宝网、腾讯、天际网、天津神舟通用数据技术有限公司、天津市智博通信工程有限责任公司、天津自然博物馆、天相投资顾问有限公司、豌豆荚、网略智慧、威盛电子、析数软件、新浪、新浪微博、杏树林、亚信、亚信联创科技(中国)有限公司、银华基金、永安期货股份有限公司、用友软件、有康爱帮、智联招聘、中国电信技术创新中心、中国国际航空公司、中国环境科学研究院、中国惠普有限公司、中国农业发展银行、中国外运、中国系统集成在线、中国医学科学院药用植物研究所、中国移动、中金数据系统有限公司、中经社控股、中科院沈阳应用生态研究所、中粮我买网、中信所、重庆绿色智能技术研究院、自由职业、字节跳动
会议内容
本次会议讨论的主题涵盖了 R 语言在科学研究领域、推荐系统、机器学习、网络文本挖掘、大规模数据分析、数据可视化动态交互、高性能计算、互联网研究等众多方面的最新进展,共包含嘉宾致辞、18 场精彩的报告、2个Lighting Talk和现场赠书,会场反响热烈。会议的流程和主要内容摘录如下。
1、吴喜之教授和会议主席陈昱致辞
2、赵彦云院长致辞
3、谢益辉——R包那些事儿
演讲介绍了演讲者开发8个R包的感想。演讲分享了如下几个感想:1、“好玩”是最强生产力。演讲者因为动态图的有趣,开发了animation包;2、需求源于小处。 演讲者由于做助教改学生作业的苦恼,开发了规范R代码的formatR。又为了实现文字、图形和计算的一体化,开发了自动化报告的knitr。演讲者还结合自己的经历,向大家分享了“善易者不卜”和“暗推销”的威力。
4、Graham Williams——Data Mining with Rattle and R
演讲者是Rattle的作者,Rattle 是一个非常优秀的数据挖掘方法集合体。演讲介绍了Rattle在R中的应用。目前,Rattle 在R语言上有了更多的数据挖掘的二次开发以及封装,在实际的挖掘项目中能够有效的提高项目的速度。
5、谢邦昌、刘思喆——DataMing云端决策平台CDMS Smart Score II——以R为基础
演讲介绍了云端计算的背景和广阔的发展潜力,以及目前各大企业在应对云端计算上的方式以及不足。演讲着重介绍了云端决策平台CDMS Smart Score II,并与其他类似平台进行对比,显示了CDMS Smart Score II广阔的应用前景。
6、John Maindonald——Rethinking Data Analysis and Data Analysis Tools
第一届中国R语言会议时,我们就邀请了 Maindonald 教授进行网络报告,5年后的今天,演讲者受邀参与了R语言会议的现场报告。演讲从高处介绍了数据分析的发展以及R语言的应用,并介绍了为何选择R语言作为数据分析工具,以及R语言与其他软件的对比情况。演讲还指出了R语言需要提高的地方,用户希望能有更多的强大的工具,需要调用C语言来满足更高的速度要求等。
7、李舰、周扬——禽流感分析中的R——MSToolkit, Rweibo, html5vis的介绍
演讲分享了在工作中的案例,展示了R语言在满足客户个性化需求和解决新颖性问题的作用。有情怀的演讲者分享了基于Shiny、 GoogleVis和html5vis的可交互的可视化图形,图形中时间维度的增加,充分的展现以往静态分析难以一并展现的时间特性。并以禽流感的传播和PM2.5为实例,介绍了在可交互的界面友好的动态图形上的信息呈现。
8、张晓华——displayHTS: a R package for displaying data and results from high-throughput screening experiments
演讲介绍了演讲者团队开发的displayHTS包,展示了其在高通量筛选试验中的应用以及图形的展示。张晓华老师还特别指出,这个软件包的开发者是一位年仅16岁的学生,以此鼓励在场听众积极参与到开发R包的行列中。
9、第一场 Lightning Talk
Lighting Talk环节的设置旨在沟通招聘者和求职者。该环节主持人为林祯舜博士,林博士分享了“善R者不愁工作”的理念,并“致敬我们曾经使用过的R版本”。之后分别由Merck的张晓华先生、万达信息的肖凯先生、中信银行的顾小波先生、Careerfocus的葛华云女士、数明科技的刘兵先生以及浙江大学软件学院金融数据分析的杭诚方教授,依次讲述各自单位对不同层次人才的需求。业界和学界对数据分析、数据挖掘或者Data Scientist人才的需求,由此可见一斑。
10、现场抽奖赠书
中国人民大学出版社、西安交通大学出版社、华章图书和图灵出版社以及王汉生教授分别向本次R语言会议赠送了R语言及数据分析相关的图书,用于现场抽奖赠书。魏太云和高涛主持本环节,并分别基于报名序号以及座位号随机抽取参会者,现场赠书。
11、张常有、张先轶——Julia语言介绍
Julia是一个新的高性能动态高级编程语言,提供了精度和分布式并行运行方式,高效支持外部函数的调用。演讲依次介绍了Julia语言的基本语法、外部函数调用、并行计算以及基于Julia语言搭建的协作云平台,向大家展示了Julia语言在计算效率和并行计算上的优势。
12、肖楠——Web Scraping with R
演讲详细的讲述了定向爬虫如何在R语言架构下的使用,分别阐述了R语言爬虫的平台选择、爬虫相关R包总结分析、异常处理以及并行化计算等方面。该报告详细的分析了基于R语言爬虫的各个阶段,是杀人越货,居家旅行必备之良器。
13、庄宝童——机器学习在互联网广告中的应用
演讲详细介绍了互联网广告中各阶段的主要研究方向和主要算法。演讲总结了互联网广告在各大著名网站收入的占比信息。互联网广告使到广告商-广告平台-用户三方各得其所,演讲中分别对互联网广告的三方参与者的研究进行了介绍,并对实践中的问题提出了自己的解决方式。
14、李忠、潘佳鸣——R在ebay大数据分析中的应用
演讲演示两个利用R来分析 eBay 大数据的应用案例。第一个案例演示了如何对 eBay 的移动用户购买行为进行深度分析,从三个不同的视角(地理分布,性别,年龄段)分析了用户数量,订单量,购买频率,购买金额,购买类别和购后评价,最后演示了如何分析和展现用户的保持率。第二个案例演示了如何对 eBay 的系统错误日志进行分类,为更好的为后台人员解决问题提供了支持。
15、第二场 Lightning Talk
该环节的主持人依旧由动感的林祯舜博士主持,林博士继第一天“致青春”后,今天果断转向“那些年-我们一起追的R版本”。标题进化者林博士今天确定的标题是:“学R不思则罔,思R不学则殆”,给人以深思。只知道学习却不思考,就会因为迷惑而无所适从;只知道思考却不去学习,就会对所有事情一知半解、不懂装懂。对于R学习,更是如此。
之后分别有阿里巴巴的郝智恒先生、eBay潘佳鸣先生、京东商城赵灿女士、百度侯俊琦先生、豆瓣稳国柱先生、Springer 出版社的 Niels P. Thomas 先生以及Supstat邓一硕先生依次讲述各自单位对不同层次人才的需求,会议现场更有参会者向心仪单位投递了简历,会下的交流更是火热。
16、稳国柱——R的工程实践和Data Scientist
演讲首先介绍了,在面对大数据量时,R的向量化运算的优势。并对R面对并行化运算时的特点进行了分析,给出了并行计算最合理的包搭配,之后展示了对Rpark的探索。演讲提议将R语言运用到它最擅长的领域,而不是将R语言万能化。演讲在第二部分通过三个层次的场景分析,阐述了豆瓣对Data Scientist职位的思考,演讲总结的“合格的人才符合职位,优秀的人才定义职位”引起与会者的广泛思考。
17、王浩——用户产生内容的质量评价与智能排序
演讲讲授了如何对UGC的质量进行评价以及智能排序方面的研究。已有的内容质量评价方法,主要包括利用众包的投票机制(如Digg 和Reddit),以及基于用户间互动的社交关系(如Facebook 的Newsfeed 和新浪微博智能排序)。这些方法,主要借助于用户消费内容后的自然反馈来评价内容质量。在实际的工作中,演讲者展示了借助于机器学习技术,基于UGC 的文字内容本身,对其进行质量评估,并针对具体的UGC 展示场景进行智能排序。
18、王汉生——On the ultrahigh dimensional linear discriminant analysis problem with a diverging number of classes
演讲介绍了对类别数超多情况下的线性判别分析问题研究。例如每个人写字的习惯不太一样,同样的字会有非常多的写法,于是就有了目前类别发散问题。演讲中的研究提出的解决办法是根据现有的特征,每个观测(字)两两擂台赛,根据观测的所有得分的累计来判断它的类别。该研究方法对类别数非常多的判别分类问题提出了新颖的解决方式。
19、周庭锐——移动应用里的线上行为:一个R的尝试
演讲展示了数据结构中同时包含结构的定量数据与非结构的文本数据的解决方式,即利用R语言中RMongo 包来整合数据,并展示了对一个200万用户数据的行为分析。以及讨论了在分析过程所遭遇的两个最主要的运算问题:内存不足,以及多线程脚本返回列表的汇总问题的处理方法。
20、李欣海——用R和WinBUGS实现贝叶斯分级模型
演讲介绍了分级模型的思想以及基于朱鹮的研究讲授其在R中的实现。分级模型在近十年中有较大的发展,逐渐成为描述物种分布的主流方法。贝叶斯方法通过MCMC 估计每个模型的参数,是当前分级模型参数估计的主要方法。研究者一般用R 整理数据,然后通过R2WinBUGS 包调用WinBUGS 进行参数估计和模型选择。最后利用MCMC 算出的参数在R 中进行模型验证。本研究以朱鹮在陕西汉中地区95 个流域的营巢数为因变量,分析每个流域的环境变量和野外调查对营巢数的影响。
21、王贺——网络舆情监测:基于R语言的网络文本挖掘与数据可视化
演讲者在完成一个文本信息抓取的作业的基础上,深入研究了网络文本挖掘、文本分析以及数据可视化方面,并由此形成了自己的研究。演讲分别展示了网络文本挖掘的过程,并抓取了“PM2.5”话题的微博数据,以此建立了词与词之间的关系,并使用社会网络分析软件Gephi 绘制关系图,对文本信息进行了可视化演示。演讲还进一步分析了网上商城的用户评价的文本数据,使用LDA 模型对评论进行浅层语义分析,并由此获取了评论的主题。与会者就文本分析的应用前景进行了广泛的讨论。
22、关菁菁——Data cloning: easy maximum likelihood estimation for complex models: an application to zero-inflated responses of Internet ads
该演讲是对互联网广告的点击行为的进行预测研究。针对互联网广告中广告点击次数为0大量存在,演讲者提出了使用零膨胀泊松回归对预测用户的点击行为,并通过使用Data Cloning的思想来估计模型系数,为预测用户对互联网广告的点击行为提出了自己的研究思路和解决方式。
资源下载
经演讲者的授权同意,已将所有同意公开的幻灯片加了超链接供大家下载学习(请遵循CC 3.0协议:署名-非商业性使用-相同方式共享)。 - 谢益辉:R包那些事儿
John Maindonald:Rethinking Data Analysis and Data Analysis Tools
庄宝童:机器学习在互联网广告中的应用
感想和建议
第六届R语言会在完成两天所有的日程安排后,顺利闭幕。两天的会议,深化了与会者各界之间的交流和讨论。
历届的R语言会议都不只是一个会议,更是一个大聚会。来自四面八方的R爱好者汇聚在一起,分享知识、聚集智慧、沉淀情感。于是才会有“相聚,缩短了距离;分享,交融了智慧;相识,艰难了离别”。
多届R语言会议参与者郝智恒会后发表微博:
“统计之都社群真正实现了由学生创建,从服务学生,到服务社会,学生进入业界又返回来回馈的良性循环。这对一个完全靠捐助运营的网站来说真的实属不易。每一年R语言的参会者都越来越多,业界的分享也越来越多,除了大数据话题渐热,我觉得大家都是带着感情来的。真情无价。”
与之遥相呼应的是,本届R语言会议秘书长高涛,在参加2009年第二届R语言会议之后表示:
“这是我第一次感觉到一个圈子里面的人是如此真诚、善意与专业!”
最后,才有了本届会议筹备组成员——冷静同学,在会议结束后扔出的一句
“醉笑陪君三万场,不诉离殇”!
如果您对于中国R语言会议还有任何感想、意见或建议,欢迎您在本页面、统计之都人人网页面或统计之都新浪微博留言,我们会尽力在今后对会议质量进行进一步的改善。
发表/查看评论