180 likes | 323 Vues
基于矩阵分解模型利用社交网络、物品标签、浏览历史数据预测电影评分的算法. adaziw 王紫 清华计算机大三. 社交网络!. VVVVV. 物品标签. 模型融合. 历史记录!. 社交网络. 物品标签. Data Analysis Same Interest Model Same Fans Model. Data Analysis Only Tag Model Topic of Tag Model. 1 2 3 4. 历史记录. 模型融合. Data Analysis User CF Model Movie CF Model.
E N D
基于矩阵分解模型利用社交网络、物品标签、浏览历史数据预测电影评分的算法基于矩阵分解模型利用社交网络、物品标签、浏览历史数据预测电影评分的算法 adaziw 王紫 清华计算机大三
社交网络! VVVVV 物品标签 模型融合 历史记录!
社交网络 物品标签 • Data Analysis • Same Interest Model • Same Fans Model • Data Analysis • Only Tag Model • Topic of Tag Model • 1 2 • 3 4 历史记录 模型融合 • Data Analysis • User CF Model • Movie CF Model • Linear Combine • All the Models • Final Result
社交网络数据分析! 图1 社交网络用户影响力分布
社交网络数据分析! 图2 社交网络用户活跃度分布
把这个社交网络中目标用户关注的人当做和这个人有相同兴趣的群体把这个社交网络中目标用户关注的人当做和这个人有相同兴趣的群体 保留社交网络中入度较高的被关注者,作为用户的标签 利用社交信息对不同的用户进行区分训练 一些社交网络信息相关的Model
用户历史记录数据分析! 图3 用户活跃度分布
用户历史记录数据分析! 图4 电影流行度分布
基于用户的协同过滤 A. 找到和目标用户行为相似的用户集合 B. 综合该集合中的用户对目标电影的评价 基于电影的协同过滤 A.计算电影与电影的相似度 B.把与目标电影相似度高的电影作为物品特征加入模型 用Topic Model来训练每个人的历史记录? 克服用户数据稀疏的问题!
历史记录得到的 用LDA训练用户浏览记录数据得到的50个topic中的前5个下出现概率最高的20部电影
标签信息数据分析! 图5 标签流行度分布
不同的tag对于电影内容的贡献应该是不一样的,从而会影响打分的预测不同的tag对于电影内容的贡献应该是不一样的,从而会影响打分的预测 按tag的流行程度分 用LDA把tag分成了5类 标签也存在着数据稀疏性 利用标签信息克服评分预测时数据的稀疏性
标签信息数据分析! 用LDA训练出的5个话题下出现最多的10个tag
Step 3 • Combine the result with others Step 2 • Train on basic model Step 1 • Get the train and predict input
运用社交信息 运用历史记录 运用标签信息 线性模型融合