- 主题:移动音频推荐系统实践二三事
- 嘉宾:陈开江
- 主办:统计之都、北京大学商务智能研究中心
- 场地:北京大学光华管理学院
- 组织:蔡占锐、闫晗、吕翔、邓一硕
- 纪要:吕翔
2014年10月19日,第22期COS沙龙(北京站)在北京大学光华管理学院如期举行。各位统计爱好者冒着京城茫茫的雾霾前来,统计沙龙为大家呈现了一场主题为“移动音频推荐系统实践二三事”的精彩分享。本次沙龙由人大统院本科生闫晗主持,嘉宾是考拉FM&考拉电子狗推荐系统的负责人陈开江。
陈开江先生毕业于北京理工大学信息与通信工程专业,研究方向为中文文本句法分析,曾任新浪微博商业产品部推荐团队高级算法工程师,专注文本挖掘、社交网络分析、推荐系统相关工作,期间参与翻译了machine learning for hackers一书(中文版书名:《机器学习:实用案例解析》),目前任考拉FM&考拉电子狗两款产品的推荐系统负责人,致力于打造最懂用户的移动网络音频推荐系统。
本次分享中嘉宾站在传统推荐系统设计的基础上,通过自己的实际经验对现有推荐系统的缺陷进行了细致的剖析,并对其各个方面进行了改进。分享主要内容回顾:
1. 排行榜依据的指标:
传统排行榜依据的指标一般对播放用户数目或者播放时长进行累加,但是存在用户被动推荐和不同节目的时长不等之类的问题。因此,嘉宾对传统的指标进行了综合并平滑处理,得到了结合节目播放次数和比例的贝叶斯平滑播放比例。
2. 收听时长的真实反映:
收听时长是最直接、数据量最大的用户反馈,但不同节目时长长短不一,时长并不纯粹反应用户的兴趣。于是,嘉宾对收听时长做了一定的假设,通过实际数据拟合建立了收听时长模型,将感兴趣和不感兴趣的人群的分布均包括进该模型,以此为依据通过模型得到分数对排行榜进行优化,使时长中蕴含的反馈信息能够真实充分的被利用。
3. 充分利用隐式反馈:
目前普遍采用反馈信息是显式反馈,但实际中隐式反馈占绝大多数,为了充分利用这一信息,嘉宾放弃传统市面上的明星算法,采用OCCF对隐式反馈进行协同过滤。
4. 对推荐系统的评价:
一般对分类器的评价中,AUC被广泛采用。而在考拉电子狗的推荐系统评估中,陈开江先生对原有的AUC进行了调整,改为了general-AUC,通过X轴和Y轴的归一化处理使得最优值不再是1。
同时,嘉宾和参会者分享了关于产品和技术的一些看法,妙语横生,引人深思。
来自阿里巴巴、百度、京东、搜狐、新浪、首钢、豆瓣、IBM、中国移动、58同城、中国兵器工业信息中心、光大银行、中国工商银行、北京大学、北京航空航天大学、清华大学、中国人民大学、北京理工大学、北京师范大学、中科院计算所的业界人士和高校学生以及创业者逾30余人报名参与了此次活动,席间与嘉宾积极互 动,围绕主题展开了深入精彩的讨论。本次沙龙取得圆满成功。
发表/查看评论