1 / 17

基于大数据的视频推荐支撑平台

基于大数据的视频推荐支撑平台. 优酷土豆 单明辉. Outlines. 视频推荐系统简介 RecPlatform v1.0 RecPlatform v2.0 架构 设计考量 部署与应用效果 展望总结. 视频推荐系统. 业务抽象 - 接口. 相关推荐 依视频推相关视频 videoId ->{ videoId } 个性化推荐 向人推视频 userId ->{ videoId }. … 3579  1357,5792,2618 245912  2436,1355,53456,357623 ….

cindy
Télécharger la présentation

基于大数据的视频推荐支撑平台

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于大数据的视频推荐支撑平台 优酷土豆 单明辉

  2. Outlines • 视频推荐系统简介 • RecPlatform v1.0 • RecPlatform v2.0 • 架构 • 设计考量 • 部署与应用效果 • 展望总结

  3. 视频推荐系统

  4. 业务抽象-接口 • 相关推荐 • 依视频推相关视频 • videoId->{videoId} • 个性化推荐 • 向人推视频 • userId->{videoId} … 3579  1357,5792,2618 245912  2436,1355,53456,357623 … (user’s behavior) uid_1474289  234526,3456,238489

  5. 业务抽象-数据 • 数据量-大 • 活跃视频量:数千万;用户量:1-10亿 • 视频相关性矩阵:单算法几G~几十G • 数据读取 • 相关推荐:每日几亿;热点明显 • 个性化推荐:每日几千万;热点不明显 • 数据更新 • 每日更新,更新比例大(个性化+相关:2亿条/天)

  6. RecPlatform 1.0 • RecPortal • 接口适配; 结果封装 • 推荐在线算法服务器 • 提供单个相关算法在线服务 • 推荐离线算法服务器 • 统计,模型计算

  7. RecPlatform 1.0-局限 • 视频相关性矩阵越来越大 • 算法数增加 • 稀疏性降低 • 单个推荐结果附加属性增多 • 关注用户长期兴趣 • 用户级存储 • 后台计算量增加 • 模型更复杂,日志更多 • 支持更新粒度为日

  8. RecPlatform 2.0 系统结构

  9. Main Changes in RecPlatform 2.0 • 离线计算:hadoop • 线上数据:hbase+Memcache • 增加流控模块 • 流量可动态、连续切分;方便小流量实验 • 增加准实时、实时模块

  10. RecPlatform 2.0 设计考量 • Hbase • 元素/列/列簇/行/表 • 建表参数 (Version、TTL、In_Memory) • Id倒序 • 定期compact • 开启压缩(snappy)

  11. RecPlatform 2.0 设计考量 • Memcache • 用户级数据不cache(热点不明显) • 灵活配置Memcache、local cache(ehcache等) • 视需要自定义序列化

  12. RecPlatform 2.0 设计考量 • Hadoop • 标准化数据格式,复用中间数据 • 线上/线下业务分优先级 • 控制入库速度

  13. 系统服务器 • RecPortal服务器*15 • Memcache*6 • Hbase集群(主流量库11台,小流量库6台) • Hadoop集群:300 Nodes

  14. 系统性能指标 • 相关推荐请求 • 4亿次/天,平均响应时间3.5ms • 个性化推荐请求 • 3千万/天,平均响应时间30ms • Hbase • 入库2亿条/天 • 500G • 20kQPS,2-10ms

  15. 应用效果 • 推荐总量:60-80M播放/天 • UGC占比:1/3 • 相关CTR:40%

  16. 未来方向 • 实时推荐平台 • 集中计算、入库->实时计算 • 动态自适应调整内容曝光 • 全推荐平台 • 泛在个性化:用户行为更密集,上下文更丰富

  17. Q&A • 山猪们@weibo.com

More Related