270 likes | 383 Vues
PKUSpace 中基于概念相似度的个性化推荐服务的设计与实现. 王位春 指导教师:张铭 北京大学网络与信息系统实验室 2008 年 1 月 16 日. 大纲. 论文背景 相关研究工作 研究内容 预期成果 工作计划与时间安排. PKUSpace 简介. 国家自然科学基金支持的“网络计算资源服务中间件” 教育部博士点基金支持的“协作式科技论文网络共享平台” 与惠普中国实验室的合作项目. 以用户为中心,引导用户贡献内容 资源收藏 用户论文空间 资源评注 协调推荐 标签组织和论文浏览. PKUSpace :科研服务平台
E N D
PKUSpace中基于概念相似度的个性化推荐服务的设计与实现PKUSpace中基于概念相似度的个性化推荐服务的设计与实现 王位春 指导教师:张铭 北京大学网络与信息系统实验室 2008年1月16日
大纲 • 论文背景 • 相关研究工作 • 研究内容 • 预期成果 • 工作计划与时间安排
PKUSpace简介 • 国家自然科学基金支持的“网络计算资源服务中间件” • 教育部博士点基金支持的“协作式科技论文网络共享平台” • 与惠普中国实验室的合作项目 • 以用户为中心,引导用户贡献内容 • 资源收藏 • 用户论文空间 • 资源评注 • 协调推荐 • 标签组织和论文浏览 • PKUSpace:科研服务平台 • 学术论文的组织、存储、检索 • 元搜索 • 分类导航 + Web2.0 • 数字资源管理系统DSpace • 数字资源的持久存储,分发,检索 新的PKUSpace: 科研交流平台
PKUSpace架构 界面 收藏论文 做标签 评论…… 定期email推荐 与 在线文献推荐 检索、 主题展示 论文资源的 组织与流览 逻辑层 相关标签组织 子系统 数据读取 接口 论文推荐 引擎 标签挖掘 子系统 存储层 DSpace
大纲 • 论文背景 • 相关研究工作 • 研究内容 • 预期成果 • 工作计划与时间安排
科技文献推荐相关研究 • 基于文本的研究比基于评分矩阵的研究少很多 • 没有结合语义的成熟研究 • 对Web2.0的特性运用不够
大纲 • 论文背景 • 相关研究工作 • 研究内容 • 基于概念相似度的个性化推荐服务的设计 • 子系统的实现与评测 • 预期成果 • 工作计划与时间安排
个性化推荐服务的设计 • Ontology的构建 • 研究使用系统数据构建语义概念 • 研究建立语义概念间的关系 • 用户个性化信息及文献特征的描述 • 研究使用哪些信息来表示用户个性及文献特征 • 研究如何使用语义概念来描述用户及文献的profile • 研究profile的相似度计算方法 • 个性化推荐技术 • 针对科技文献的特点研究新的个性化推荐技术
使用tag构建语义概念 • 从单个tag出发构建语义概念 [Li, R. et al. WWW07] d1 … ds … dt … dn u1 … ui … uj …
使用tag构建语义概念(续) • 加入基于wordnet本体的相似度计算
用户兴趣与文献特征的表示 • 用户和文献profile统一表示为语义概念的集合 • 用户profile从用户标记的所有tag出发构建 • 文献profile从文献被标记的所有tag出发构建 • 主要用于协同过滤的方法 • 文献特征向量 • 使用文献标题及摘要构建TFIDF向量 • 用于基于内容的过滤方法
语义概念相似度与profile相似度 • 语义概念相似度 • 两个语义概念中tag的匹配 • 匹配tag的相似度的加权平均 • 如果两个语义概念的相似度大于一个很大的阈值,将两个语义概念合并成一个概念 • profile的相似度 • profile中语义概念的匹配 • 匹配语义概念的相似度的加权平均
协同过滤 • 用户相似度 • Uc表示用户u1和u2标记过的文献的交集 • Us表示用户u1和u2标记过的文献的并集 • Ns=|Us|,Nc=|Uc| • Simprofile(i, j)表示两个profile的相似度
协同过滤(续) • 用户兴趣组 • 候选集选定 • 其中Ki表示用户ui标记过的文献集合 • 候选集作为基于内容的过滤方法的输入
基于内容的过滤 • 文献相似度 • 文献j对于用户i的新奇度 • wjk表示词k在文本j中的TFIDF权值 • 用户i对文献j的兴趣度
子系统实现 • 相关技术 • stop words,stemming,…… • 构建基于wordnet的ontology • 一些IR中的技术如TFIDF向量及余弦相似度计算 • 邮件推荐功能 • 定时对所有系统数据进行计算,推荐最好的N项 • 在线推荐功能 • 为提升速度,利用历史保存的信息进行计算
测试数据与评测 • 测试数据 • CiteULike的文献数据(标题、摘要、被标记的tag)与用户数据(用户标记的所有tag) • 子系统评测 • 验证新奇度的作用 • 对比引入新奇度的算法与原有算法,反映推荐的新奇性 • hit count评测 • hitPrecent=hitCount/(hitCount + missCount) • 对比本文提出的算法与原有算法,反映推荐的精确性 • 对PKUSpace的真实用户设计在线调查获取用户对推荐的满意度(精确性+新奇性)
大纲 • 论文背景 • 相关研究工作 • 研究内容 • 预期成果 • 工作计划与时间安排
预期成果 • 提高目前推荐子系统的精确性与新奇性 • 提高推荐算法的推荐完全性与准确性,增加用户对系统的信任度 • 发现用户感兴趣的新资源,拓展用户视野 • 支持多种推荐形式 • 定制定期的email推荐,在线实时推荐 • 提高用户满意度 • 推广运用 • 运用至“协作式科技论文网络共享平台” • 接受更多用户的检验
大纲 • 论文背景 • 相关研究工作 • 研究内容 • 预期成果 • 工作计划与时间安排
工作计划与时间安排 • 目前的系统状况 • PKUSpace系统运行稳定 • 已经积累一定的文献元数据与用户使用数据 • 目前已完成的工作 • 完成了基于wordnet的ontology的构建 • 完成了推荐算法的前期预处理模块 • 实现了基于文本相似度的过滤模块 • 完成了对测试数据的收集和预处理工作
工作计划与时间安排(续) • 下学期开学至3月底 • 实现语义概念的构建及相似度计算模块 • 实现协同过滤模块并形成完整的推荐子系统 • 将方法集成到系统进行实际应用 • 4月初至4月底 • 设计并进行评测实验 • 根据实验结果调整子系统的参数 • 论文写作
参考文献 • [Abbattista, F. et al. AI*AI2002] Abbattista, F., Degemmis, M., Fanizzi, N., Licchelli, O., Lops, P., Semeraro, G., and Zambetta, F. Learning User Profiles for Content-Based Filtering in e-Commerce, In Proceedings AI*AI Workshop su Apprendimento Automatico: Metodi e Applicazioni. Sienna, Italy. 2002. • [Bollacker, K.D. et al. IEEE00] Bollacker, K.D., Lawrence, S., Giles, C.L. Discovering relevant scientific literature on the Web. IEEE Intelligent Systems. 2000,15(2): 42 - 47 • [Burke, R. UMUAI02] R.Burke. Hybrid recommender systems: Survey and experiments. User Modeling and User-Adapted Interaction 12, 4 (2002), 331--370. • [Deshpande, M. et al. CIKM2003] Mukund Deshpande, George Karypis. Evaluation of Item-Based Top-N Recommendation Algorithms. Porceedings of the tenth international conference on Information and knowledge management, Atlanta, Georgia ,USA. 2003:247~254 • [Li, R. et al. WWW07] R. Li, S. Bao, B. Fei, Z. Su, and Y. Yu. Towards effective browsing of large scale social annotations. In WWW '07: Proceedings of the 16th international conference on World Wide Web, pages 943-952, New York, NY, USA. ACM Press.
参考文献(续) • [McNee, S. M. et al. CSCW06] S.M. McNee, N. Kapoor, and J.A. Konstan. Don't Look Stupid: Avoiding Pitfalls when Recommending Research Papers. In Proceedings of the 2006 ACM Conference on Computer Supported Cooperative Work (CSCW 2006), Banff, Canada, November 2006, pp. 171-180. • [Mobasher, B. et al. CACM2000] Bamshad Mobasher, Robert Cooley, Jaideep Srivastava. Automatic Personalization Based on Web Usage Mining. Communications of the ACM. 2000,43(8):142~151 • [Torres, R. et al. JCDL04] R. Torres, S.M. McNee, M. Abel, J.A. Konstan and J. Riedl. Enhancing Digital Libraries with TechLens+.in Proc. of the 2004 Joint ACM/IEEE Conference on Digital Libraries, pp. 228--236, 2004. • [Wei, Y. Z. et al. AAMAS2003] Y. Z. Wei, L. Moreau, and N. R. Jennings. Recommender systems: a market-based design. In AAMAS '03: Proceedings of the second international joint conference on Autonomous agents and multiagent systems, pages 600--607, New York, NY, USA, 2003. ACM Press.