第六届中国 R 语言会议(上海会场)于 2013 年 11 月 2 日 ~ 3 日在华东师范大学中山北路校区的科学会堂成功召开。会议由华东师范大学金融与统计学院和统计之都(cos.name)主办。在两天的会议时间里,参会者齐聚一堂,就 R 语言在电商、互联网、金融、可视化、机器学习、数据挖掘等行业和领域展开了深入的探讨。
会议概况
本次会议报名非常火爆,受会场容量所限,开放报名的时间非常短,很快就报满了600人,约有 400 多名参会者前来参会,规模再创新高。参会者主要来自各大高校、科研机构、企业和事业单位,全体参会者所在单位汇总如下。
高校和研究所:
Purdue University、北京大学、北京邮电大学、第二军医大学、东华大学、东南大学、福建师范大学、复旦大学、广东工业大学、广西医科大学、贵阳学院、贵州财经大学、国家人类基因组南方研究中心、杭州电子科技大学、河海大学、华东理工大学、华东师范大学、华中科技大学、江南大学、江西师范大学、解放军理工大学、兰州大学、南昌大学、南方医科大学、南京大学、南京航空航天大学、南京农业大学、南开大学、山东大学、上海财经大学、上海大学、上海交通大学、上海教育科学研究院、上海科技大学(筹)、上海理工大学、上海立信会计学院、上海人类基因组研究中心、上海社会科学院、上海师范大学、上海外国语大学、上海中医药大学、苏州大学、天津大学、同济大学、温州大学、温州医科大学、武汉大学、武汉理工大学、西安石油大学、西北农林科技大学、西藏民族学院、云南财经大学、长安大学、浙江财经大学、浙江大学、浙江工商大学、浙江工业大学、浙江警官职业学院、浙江理工大学、中国科大、中国科学院寒区旱区环境与工程研究所、中国科学院青岛生物能源与过程研究所、中国科学院上海生命科学研究院、中国科学院水生生物研究所、中国科学院武汉病毒研究所、中国人民大学、中国药科大学、中科院大学、中科院生物物理研究所、中科院西双版纳热带植物园、中山大学。
企业、事业单位:
1号店、Affirm Inc、AHTC、ARM、AsiaAnalytics、AstraZeneca、B5M、bluedoor、byosoft、CBI易贸、CIC(WPP)、DCX、eBay、FICO、gamantra、Glamour Sales、Google、Huawei、IBC、IBM、IMS、infosys、Mango Solutions、McCANN、Mcgraw Hill Financial、Merkle、newegg、nielsen、Paypal、SanDisk、Supstat、thePOPcompany、UPS、VF Corporation、wind、Yingyun Biotech、阿里巴巴、艾德思奇科技有限公司、安徽科大讯飞信息科技股份有限公司、拜耳医药保健有限公司、北京东方国信、北京华章图文信息有限公司、北京宽连十方数字技术有限公司、北京新生代市场监测机构上海分公司、超传信息技术有限公司、创业邦、春宇供应链、点融网、豆瓣、堆糖、房讯广告(上海)有限公司、复旦大学附属肿瘤医院、富国基金、国海富兰克林基金管理有限公司、海讯、杭州数云信息技术有限公司、杭州曦彩服饰、杭州中翰金诺生物信息技术有限公司、合肥学堂信息技术有限公司、虹口区统计普查中心、汇添富基金、加百力咨询、建行卡中心、建行上开、江苏百盛工程咨询有限公司、杰之能信息科技有限公司、锦誉商务咨询(上海)有限公司、劲霸男装、精鼎、精硕科技邮箱公司、聚胜万合广告有限公司、凯捷咨询、勒卡斯、陆金所、路易威登、美国依鲁上海代表处、美吉生物、美库尔商务信息咨询上海有限公司、美沃贸易、南京安元科技有限公司、南京比藤信息科技有限公司、诺诺镑客金融信息服务有限公司、鹏华基金、浦发银行信用卡中心、群创光电、瑞斡咨询、瑞易信息技术(上海)有限公司、三思、森松集团、上海HP、上海艾客咨询有限公司、上海安吉汽车零部件物流有限公司、上海巴斯德研究所、上海丰核信息科技有限公司、上海积胜投资有限管理公司、上海计量测试技术研究院、上海杰之能信息科技有限公司、上海金字塔软件公司、上海晶能生物技术有限公司、上海民航华东凯亚系统集成有限公司、上海南方基因科技有限公司、上海清算所、上海三高计算机软件、上海晟碟半导体有限公司、上海双杨电脑高科技开发有限公司、上海水渡石信息技术有限公司、上海天会皓闻科技有限公司、上海天祥质量技术服务有限公司、上海吾思信息技术有限公司、上海吾为投资有限公司、上海薪紫投资公司、上海银行、上海浙大网新易得、上海证券交易所、上海资信有限公司、深圳市康拓普信息技术有限公司、斯凯网络、苏州工业园区服务外包职业学院、淘宝、天天动听、天翼视讯传媒有限公司、通策集团、通联支付、同程、同花顺、万达信息、旺旺集团、唯品会、无锡创业投资集团有限公司、武汉大众源生科技服务有限公司、西安交通大学出版社、析数软件、橡果国际、携程旅行网、新大陆、新华人寿保险股份有限公司浙江分公司、新浪支付、兴业银行股份有限公司、央视市场研究股份有限公司、益新、银联、永安期货、招商银行信用卡中心、浙商证券、致联市场研究有限公司、中博信息技术研究院有限公司、中诚信托有限责任公司、中国民航信息网络股份有限公司、中国平安保险集团、中国银行、中航集团、中软、中芯国际、众安在线
会议内容
本次会议共包含开幕致辞及19 场精彩的报告、1个Lighting Talk环节和1个嘉宾讨论环节,会场反响热烈。会议的流程和主要内容摘录如下。
1、汤银才教授致辞
2、Chih-Jen Lin:Experiences and Lessons in Developing Machine Learning and Data Mining Software
来自国立台湾大学的林智仁教授高屋建瓴地介绍了开发机器学习软件的经验。作为被广泛使用的libsvm的作者,林教授指出了现代的研究机器学习的学者与传统学者的不同,不仅仅只是开发算法,同时也要实现算法开发软件,算法和软件的设计及实现非常关键,这场精彩的报告对包括R在内的所有开源社区都有着重要的参考价值。
3、林祯舜:R与大数据对统计教育的影响
在大数据的时代,R 的快速发展会对传统的统计教育会产生哪些冲击?统计学家要如何在这个浪潮下调整思路,培养有领导力的未来数据科学家?在学界和业界都有了不起成就的林博士从顶层设计和自下而上的两个方向,阐明了大数据和R语言对统计教育的影响,并给高校及企业提供了一个清晰的大数据人才培养思路。
4、李忠:EBAY Multiscreen Insight
随着消费类电子产品不断地深入人们的生活,大家通过电商购物的行为也发生了一定的改变,来自eBay的李忠介绍了他们团队从不同客户端的屏幕入手进行的购买者行为的分析,是电子商务领域一个新的尝试。
5、赵扬:Large Data Analysis using Rhipe/Rhadoop
同样来自eBay的赵扬介绍了他们使用R+Hadoop进行大数据分析的经验。同时作为Rhipe开发团队的一员,赵扬也深入地比较了几种不同的R集成Hadoop的方案的差异,整个报告深入浅出又结合实际的案例,获得了听众广泛的好评。
6、朱筠珺:How R helps personalization analysis in marketing campaign
来自eBay中国分析中心的朱筠珺介绍了几个日常工作中关于市场活动个性化分析的实际案例,详尽地结合了eBay的大数据环境和具体的业务背景,将R的应用以及与其他工具的结合进行了非常直观的展示。
7、Lightning Talk
本次Lightning Talk环节,来自eBay、淘宝、携程、Mango Solutions、SupStat、北京数衡科技有限公司等企业,来自北京华章图文信息有限公司、浙江大学软件学院等高校和出版社,来自统计之都、中国统计网、数盟社区等各界同仁在各自5分钟的演讲时间内介绍了自己的公司和单位,并提出了招聘和合作的需求,现场互动的气氛非常好。
8、甘华来:R语言在旅游行业中的应用
携程是国内最大的在线旅行商(OTA),拥有丰富的用户行为数据和订单数据,演讲者介绍了携程的大数据挖掘,同时以携程Noshow订单预测项目为例,介绍了如何利用R使用GBM模型对订单进行预测。
9、严紫丹:x13季节调整方法的R实现及应用
美国普查局去年7月正式发布了x-13-arima-seat方法的源程序,这一方法是对x12的优化升级。目前这一方法很少能在普通软件中实现,本次演讲介绍了如何用R调用美国普查局的源程序进行季节调整和大批量数据处理的流程,并结合携程的分析需求介绍了针对中国节假日因素的参数设定方法。
10、魏太云,周扬:通向高富帅图表的R包——recharts
演讲者介绍了自己开发的recharts包,这是R对echarts的接口。ECharts基于Canvas,纯Javascript图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。与R结合后可以非常方便地将数据和模型的结果进行动态展示,实在是R中可视化的一大利器。
11、朱雪宁:微博那些事儿
微博,这一新生代大规模杀伤性社交武器近年来迅速在国内走红,其来势之汹,范围之广,威力之猛当不可小觑。演讲者通过很多有趣的例子介绍了用R分析微博数据的方法及建模点滴。
12、何通:豆瓣网标签的整理和分析
豆瓣网有众多的书、影、音条目,更有众多用户为它们打上了个性化的标签。这些标签内容丰富,但同时也有着噪声大、文本短小等特点。演讲者以在豆瓣实习时的工作与大家分享了对标签信息的整理与分析结果,并提出了更多有益的探索方向。
13、刘思喆:R语言企业级应用
演讲者是京东商城个性化推荐组的负责人,通过京东内部的应用案例介绍了基于R的一种企业级应用的架构,并和大家分享了常用的基于R进行数据挖掘、机器学习、推荐系统方面的技术方案及案例。
14、孙哲:小分队撬动大估值——关于零售金融服务行业的大数据应用模式探讨
演讲者是兴业银行量化策略团队的负责人,通过实际的案例介绍了大数据环境下数据在金融服务行业的应用中格局的转变,并关于以小型团队撬动企业估值的一种可行性进行了探讨。
15、许亮:复杂交易网络中的白富美挖掘
演讲者是天猫的数据挖掘专家,在双十一之前百忙中抽出时间到会议现场和大家分享了天猫在挖掘高品质买家的经验,包括复杂网络理论、交易网络中的生态群体、交易网络中的白富美买家发掘、交易网络中的高品质卖家挖掘等。
16、李洪成:用R进行高频金融数据分析简介
R的高频添加包highfrequency给出了大量的分析高频金融数据的工具,包括管理、清理和匹配高频交易和报价数据的许多函数。应用该包提供的工具函数,可以计算各种流动性指标、波动率等,同时也可以探测噪声的微观结构。本演讲对highfrequency包进行了介绍,并给出了应用示例。
17、邓一硕:quantstrat包与R中的量化投资之路
quantstrat 是一个专门用于量化投资的R包。不仅可以构建交易系统,还可以对构建的交易系统进行仿真测试。由于该包尚没有完备的帮助文档可供查询,因此,本演讲着重以实例来介绍quantstrat 包的使用方法,实在是学习该包的非常好的资料。
18、罗立辉:R语言在陆面建模系统上的应用研究
中科院的罗立辉给大家带来了R语言在陆面建模系统上的应用研究,研究过程中用到了相当多的R包,另针对R语言的不足又加入了NCO、CDO、GrADS等脚本语言来实现。
19、李舰:中文文本挖掘和tmcn包
演讲者在本次会议上正式发布了新开发的tmcn包,在介绍了R中目前存在的文本挖掘和自然语言处理的资源后,比较了已有工具的特点和不足,然后推出了自己开发的tmcn包,是使用中文进行文本挖掘的有力工具,能够很好地和已有的工具结合并弥补了其中的一些不足。
20、陈逸波:kaggle数据比赛的一些经验分享——以Amazon Employee Access Challenge为例
演讲者是著名的大数据分析竞赛平台kaggle上排名top 0.1% 的高手,以一场kaggle比赛为例,介绍了数据挖掘/有监督学习过程中的数据处理、模型训练、模型集成及效果评估等内容,并和大家分享了在kaggle上战斗的经历,引起了听众强烈的兴趣。
21、刘辰昂:use R for fun
作为本次会议的最后一场报告,刘辰昂生动的演示让大家倦意全无,原来R除了能够在学术上助我们一臂之力外,同样也可以给生活带来很多欢乐。
22、嘉宾讨论:R在企业中的应用
在所有的报告结束之后,在林祯舜博士的主持下,来自eBay、淘宝、Mango Solutions、SupStat的R语言应用的一线人员和参会嘉宾一起探讨了R在企业的应用中的关键问题和未来趋势。台下嘉宾问题很多、台上嘉宾谈性很浓,在热烈的讨论氛围下一直持续到下午6点,终于圆满结束了本次R语言大会。
资源下载
经演讲者的授权同意,已将所有同意公开的幻灯片加了超链接供大家下载学习(请遵循CC 3.0协议:署名-非商业性使用-相同方式共享)。
Chih-Jen Lin:Experiences and Lessons in Developing Machine Learning and Data Mining Software
林祯舜:R与大数据对统计教育的影响
朱筠珺:How R helps personalization analysis in marketing campaign
甘华来:R语言在旅游行业中的应用
严紫丹:x13季节调整方法的R实现及应用
魏太云,周扬:通向高富帅图表的R包——recharts [echarts介绍,recharts工程]
朱雪宁:微博那些事儿
何通:豆瓣网标签的整理和分析
刘思喆:R语言企业级应用
李洪成:用R进行高频金融数据分析简介
罗立辉:R语言在陆面建模系统上的应用研究
李舰:中文文本挖掘和tmcn包
刘辰昂:use R for fun
会议赞助
如果您对于中国R语言会议还有任何感想、意见或建议,欢迎您在本页面、统计之都人人网页面或统计之都新浪微博留言,我们会尽力在今后对会议质量进行进一步的改善。
发表/查看评论