PKUSpace 中基于概念相似度的个性化推荐服务的设计与实现

PKUSpace中基于概念相似度的个性化推荐服务的设计与实现PKUSpace中基于概念相似度的个性化推荐服务的设计与实现王位春指导教师：张铭北京大学网络与信息系统实验室 2008年1月16日

大纲 • 论文背景 • 相关研究工作 • 研究内容 • 预期成果 • 工作计划与时间安排

PKUSpace简介 • 国家自然科学基金支持的“网络计算资源服务中间件” • 教育部博士点基金支持的“协作式科技论文网络共享平台” • 与惠普中国实验室的合作项目 • 以用户为中心，引导用户贡献内容 • 资源收藏 • 用户论文空间 • 资源评注 • 协调推荐 • 标签组织和论文浏览 • PKUSpace：科研服务平台 • 学术论文的组织、存储、检索 • 元搜索 • 分类导航 + Web2.0 • 数字资源管理系统DSpace • 数字资源的持久存储,分发,检索新的PKUSpace：科研交流平台

PKUSpace架构 界面收藏论文做标签评论…… 定期email推荐与在线文献推荐检索、主题展示论文资源的组织与流览逻辑层相关标签组织子系统数据读取接口论文推荐引擎标签挖掘子系统存储层 DSpace

个性化推荐技术

科技文献推荐相关研究 • 基于文本的研究比基于评分矩阵的研究少很多 • 没有结合语义的成熟研究 • 对Web2.0的特性运用不够

大纲 • 论文背景 • 相关研究工作 • 研究内容 • 基于概念相似度的个性化推荐服务的设计 • 子系统的实现与评测 • 预期成果 • 工作计划与时间安排

个性化推荐服务的设计 • Ontology的构建 • 研究使用系统数据构建语义概念 • 研究建立语义概念间的关系 • 用户个性化信息及文献特征的描述 • 研究使用哪些信息来表示用户个性及文献特征 • 研究如何使用语义概念来描述用户及文献的profile • 研究profile的相似度计算方法 • 个性化推荐技术 • 针对科技文献的特点研究新的个性化推荐技术

Ontology的定义

使用tag构建语义概念 • 从单个tag出发构建语义概念 [Li, R. et al. WWW07] d1 … ds … dt … dn u1 … ui … uj …

使用tag构建语义概念（续） • 加入基于wordnet本体的相似度计算

用户兴趣与文献特征的表示 • 用户和文献profile统一表示为语义概念的集合 • 用户profile从用户标记的所有tag出发构建 • 文献profile从文献被标记的所有tag出发构建 • 主要用于协同过滤的方法 • 文献特征向量 • 使用文献标题及摘要构建TFIDF向量 • 用于基于内容的过滤方法

语义概念相似度与profile相似度 • 语义概念相似度 • 两个语义概念中tag的匹配 • 匹配tag的相似度的加权平均 • 如果两个语义概念的相似度大于一个很大的阈值，将两个语义概念合并成一个概念 • profile的相似度 • profile中语义概念的匹配 • 匹配语义概念的相似度的加权平均

协同过滤 • 用户相似度 • Uc表示用户u1和u2标记过的文献的交集 • Us表示用户u1和u2标记过的文献的并集 • Ns=|Us|，Nc=|Uc| • Simprofile(i, j)表示两个profile的相似度

协同过滤（续） • 用户兴趣组 • 候选集选定 • 其中Ki表示用户ui标记过的文献集合 • 候选集作为基于内容的过滤方法的输入

基于内容的过滤 • 文献相似度 • 文献j对于用户i的新奇度 • wjk表示词k在文本j中的TFIDF权值 • 用户i对文献j的兴趣度

子系统实现 • 相关技术 • stop words，stemming，…… • 构建基于wordnet的ontology • 一些IR中的技术如TFIDF向量及余弦相似度计算 • 邮件推荐功能 • 定时对所有系统数据进行计算，推荐最好的N项 • 在线推荐功能 • 为提升速度，利用历史保存的信息进行计算

测试数据与评测 • 测试数据 • CiteULike的文献数据（标题、摘要、被标记的tag）与用户数据（用户标记的所有tag） • 子系统评测 • 验证新奇度的作用 • 对比引入新奇度的算法与原有算法，反映推荐的新奇性 • hit count评测 • hitPrecent=hitCount/(hitCount + missCount) • 对比本文提出的算法与原有算法，反映推荐的精确性 • 对PKUSpace的真实用户设计在线调查获取用户对推荐的满意度（精确性+新奇性）

预期成果 • 提高目前推荐子系统的精确性与新奇性 • 提高推荐算法的推荐完全性与准确性，增加用户对系统的信任度 • 发现用户感兴趣的新资源，拓展用户视野 • 支持多种推荐形式 • 定制定期的email推荐，在线实时推荐 • 提高用户满意度 • 推广运用 • 运用至“协作式科技论文网络共享平台” • 接受更多用户的检验

工作计划与时间安排 • 目前的系统状况 • PKUSpace系统运行稳定 • 已经积累一定的文献元数据与用户使用数据 • 目前已完成的工作 • 完成了基于wordnet的ontology的构建 • 完成了推荐算法的前期预处理模块 • 实现了基于文本相似度的过滤模块 • 完成了对测试数据的收集和预处理工作

工作计划与时间安排（续） • 下学期开学至3月底 • 实现语义概念的构建及相似度计算模块 • 实现协同过滤模块并形成完整的推荐子系统 • 将方法集成到系统进行实际应用 • 4月初至4月底 • 设计并进行评测实验 • 根据实验结果调整子系统的参数 • 论文写作

参考文献 • [Abbattista, F. et al. AI*AI2002] Abbattista, F., Degemmis, M., Fanizzi, N., Licchelli, O., Lops, P., Semeraro, G., and Zambetta, F. Learning User Profiles for Content-Based Filtering in e-Commerce, In Proceedings AI*AI Workshop su Apprendimento Automatico: Metodi e Applicazioni. Sienna, Italy. 2002. • [Bollacker, K.D. et al. IEEE00] Bollacker, K.D., Lawrence, S., Giles, C.L. Discovering relevant scientific literature on the Web. IEEE Intelligent Systems. 2000,15(2): 42 - 47 • [Burke, R. UMUAI02] R.Burke. Hybrid recommender systems: Survey and experiments. User Modeling and User-Adapted Interaction 12, 4 (2002), 331--370. • [Deshpande, M. et al. CIKM2003] Mukund Deshpande, George Karypis. Evaluation of Item-Based Top-N Recommendation Algorithms. Porceedings of the tenth international conference on Information and knowledge management, Atlanta, Georgia ,USA. 2003:247~254 • [Li, R. et al. WWW07] R. Li, S. Bao, B. Fei, Z. Su, and Y. Yu. Towards effective browsing of large scale social annotations. In WWW '07: Proceedings of the 16th international conference on World Wide Web, pages 943-952, New York, NY, USA. ACM Press.

参考文献（续） • [McNee, S. M. et al. CSCW06] S.M. McNee, N. Kapoor, and J.A. Konstan. Don't Look Stupid: Avoiding Pitfalls when Recommending Research Papers. In Proceedings of the 2006 ACM Conference on Computer Supported Cooperative Work (CSCW 2006), Banff, Canada, November 2006, pp. 171-180. • [Mobasher, B. et al. CACM2000] Bamshad Mobasher, Robert Cooley, Jaideep Srivastava. Automatic Personalization Based on Web Usage Mining. Communications of the ACM. 2000,43(8):142~151 • [Torres, R. et al. JCDL04] R. Torres, S.M. McNee, M. Abel, J.A. Konstan and J. Riedl. Enhancing Digital Libraries with TechLens+.in Proc. of the 2004 Joint ACM/IEEE Conference on Digital Libraries, pp. 228--236, 2004. • [Wei, Y. Z. et al. AAMAS2003] Y. Z. Wei, L. Moreau, and N. R. Jennings. Recommender systems: a market-based design. In AAMAS '03: Proceedings of the second international joint conference on Autonomous agents and multiagent systems, pages 600--607, New York, NY, USA, 2003. ACM Press.

谢谢！

PKUSpace 中基于概念相似度的个性化推荐服务的设计与实现

PKUSpace 中基于概念相似度的个性化推荐服务的设计与实现

Presentation Transcript