随着大数据时代的来临,从海量信息中迅速获取有用信息的需求日益强烈。个性化推荐系统以海量数据挖掘为基础,引导用户发现自己的信息需求,现已在多个领域得到广泛应用。传统上,通过定期分析数据来更新模型,导致推荐模型无法保持实时性,破坏对用户当前行为推荐结果的准确性。而实时个性化推荐系统可以通过实时分析用户产生的数据,更准确地为用户推荐,与此同时,还可以根据实时推荐结果进行反馈,改进推荐模型,提升系统性能。
北京大学信息科学技术学院网络与信息系统研究所、高可信软件技术教育部重点实验室崔斌研究员课题组与腾讯公司数据平台部从2014年起联合开展大数据实时推荐研发。研究工作针对海量性、实时性、精准性等大数据应用中的实际难点,创新性地同时从系统、数据和算法三方面着手解决,即:系统方面,针对现有系统的不足,提出由实时接入、实时处理和分布式K-V存储三部分组成的系统架构;数据方面,针对现实世界中严重的数据稀疏、隐反馈数据等问题,提出解决方案;算法方面,针对传统机器学习算法难于应对大规模数据实时计算的问题,提出增量计算模型和增量更新方法,有效地实现了分布式流式在线学习。由此研发的实时推荐系统应用于包括视频、新闻等腾讯的多项实际业务,现每天处理千亿条用户行为,支撑百亿级用户请求,推荐效果显著提升,点击率(click-through-rate, CTR)平均提高6%~18%。腾讯大数据日前的官方报道《大数据实时推荐:不只是统计》首日阅读量达上万次。
上述成果还以题为《TencentRec:实时流推荐的系统实践》(TencentRec: real-time stream recommendation in practice)和《实时视频推荐探索》(Real-time video recommendation exploration)的论文连续两年在美国计算机学会数据管理专业组年会(Association for Computing Machinery Special Interest Group on Management Of Data, ACM SIGMOD)上发表。第一作者均为信息学院博士研究生黄艳香,通讯作者是崔斌研究员。信息学院徐嬴、谢怡然等研究生以及腾讯平台部蒋杰等也参与该研究。
本研究得到国家自然科学基金、国家重点基础研究发展计划(即“973计划”)和腾讯云计算数据中心的支持。