1 / 32

豆瓣在推荐领域的 实践与思考

豆瓣在推荐领域的 实践与思考. 胖子 @ 豆瓣 2009.12.19. 豆瓣的推荐引擎 -- 豆瓣猜. 豆瓣猜的产品形态. 喜欢 XX 的也喜欢 豆瓣猜你会喜欢 今日推荐 围绕推荐设计的产品. 什么样的产品适合推荐?. 具有媒体性的产品 (Media Product) 口味 (taste) 很重要 单位成本不重要 有瀑布效应 (information cascade) 多样性. 媒体 类 产品的数据特征. 文章. 人. 图书. 条目数. 小组. 单曲. 唱片. 电影. 广告. 用户数. 图书. 文章. 广告. 稀疏性.

Télécharger la présentation

豆瓣在推荐领域的 实践与思考

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 豆瓣在推荐领域的实践与思考 胖子@豆瓣 2009.12.19

  2. 豆瓣的推荐引擎--豆瓣猜

  3. 豆瓣猜的产品形态 • 喜欢XX的也喜欢 • 豆瓣猜你会喜欢 • 今日推荐 • 围绕推荐设计的产品

  4. 什么样的产品适合推荐? • 具有媒体性的产品(MediaProduct) • 口味(taste)很重要 • 单位成本不重要 • 有瀑布效应 (information cascade) • 多样性

  5. 媒体类产品的数据特征

  6. 文章 人 图书 条目数 小组 单曲 唱片 电影 广告 用户数

  7. 图书 文章 广告 稀疏性 人 小组 唱片 电影 单曲 时效性

  8. 文章 图书 多样性 小组 单曲 唱片 电影 广告 时效性

  9. 文章 图书 多样性 小组 唱片 单曲 电影 广告 反馈

  10. 什么样的产品适合推荐? • 条目增长相对稳定 • 能够获得快速反馈 • 稀疏性、多样性和时效性的平衡

  11. 豆瓣的成长 通过算法分析应对高成长性

  12. 推荐系统的可扩展性 • User-Item矩阵 ,平均每行的非零元素个数是L个,考虑 的计算复杂性 • 假设A的非零元均匀分布,求S的非零元素个数 • S中任一元素非零的概率为,

  13. 则S的非零元素个数

  14. 考虑A中的元素非均匀分布的情况 let according to Cauchy-Schwarz Inequality so

  15. 推荐系统的可扩展性 • 降低存储空间 • 近似算法/分块 • 并行/分布式计算

  16. 推荐系统面临的挑战 • 产品形态 • 推荐是一项技术还是一种产品/功能? • 推荐能否有独立的产品形态?

  17. 兴趣过多 推荐质量 冷启动 用户收藏

  18. 评价指标 • Hit-rate / RMSE • 点击率 • 如何形成闭环?

  19. 黑盒推荐的问题 • 倾向于给出平庸的推荐 • 放大噪声 • 有信息,无结构 • 缺乏对用户的持续关注

  20. 下一代推荐系统

  21. Prediction • 明确的优化指标 • 静态模型/系统 • 由数据形成信息

  22. Forecasting • 闭环的系统 • 动态模型 • 由信息形成知识

  23. Recommendation • 以用户为中心,建立用户行为模型 • 有记忆的,进化的系统 • 由知识形成系统结构

  24. 下一代推荐系统 • 技术准备 • 云计算 • Open ID • Semantic Web • …

  25. Anti-Spammer 推荐 信息过滤 广告 • 个性化技术 机器学习 用户模型 … 聚类 协同过滤 矩阵分解 分类器

  26. 个性化推荐与非个性化推荐 • 人人都需要过滤器? ?

  27. 如何发现信息 • 排序 (Ranking) • 关联 (Correlation) • 聚类/分类 (Clustering/Classification) • 过滤 (Filtering)

  28. 一些有用的方法 EM Correlation Eigen Vector Bayes Boosting Meta-Heuristics

  29. Algorithms should facilitate rather than replace social processes.

  30. Thanks Q & A

More Related