Research Summary

Research Summary 任安建

报告内容 • 开题内容介绍 • 目前的工作进展 • 下一步工作计划

选题意义与背景

选题意义与背景 • Web1.0---------- Web 2.0 • 互联网的用户与资源的数量都爆炸性的增长 • 用户成了互联网的中心，每个用户都主动地提供自己的资源 • 如何在这个环境中使用户能有效的得到自己所感兴趣的资源？？？？

User Tag Resource Tag User Resource Tag Tag User Resource 选题意义与背景 • 标签：tag –web2.0时代用户与资源的桥梁 • 大多数web2.0网站都具备协同标签系统，例如：delicious, flickr。 • 用户可以按照自己的理解，自由地使用tag对自己所感兴趣的资源进行标注，用户，资源，tag三者之间构成了folksonomy这种三维结构，如下图： • 可以根据tag对资源进行访问，并且可以利用对自己感兴趣的其他人所作的tag去发现一些自己感兴趣的新资源。

选题意义与背景

选题意义与背景 • web2.0 需要一种个性化的推荐系统 • 用户作为web2.0网站的中心，应该需要按照用户个性需求来推荐其感兴趣的资源。 • 在大部分的web2.0网站中，资源都是由用户来自己去标注，可以说并没有专家去对资源进行分类。 • 对于这种用户，tag，资源的三维的关系结构，传统的推荐算法并不适合。 • 传统的推荐算法并没有考虑到tag所蕴含的个性化信息。

相关研究 • 标准推荐系统模型 • 协同过滤算法(CF)：如果一些用户他们都偏好相同的某一类资源，就可以认为他们为兴趣相似的用户，对于某一个用户来说，应该推荐给他和他兴趣相似哪一类用户的资源。 • 计算用户的相似性时，需要用户对资源进行打分来衡量其对该资源的偏好，通过这种方法每一个用户的兴趣可以用一个评分矩阵向量来表示，可以通过计算两个矩阵向量的相似度（例如cosine方法，Pearson相关系数）来表示两个用户的相似度。 • 以上方法是user-based，另外还有一种基于资源的（item-based）的协同过滤方法，其主要的思想是对于用户对某一资源的评分由该用户对与该资源相似的其他资源的评分得到。 • 文献：Unifying Userbased and Itembased Collaborative Filtering Approaches by Similarity Fusion. JWang, Arjen P. de Vries, Marcel J.T. Reinders, sigir 06.

相关研究 • 标准推荐系统模型

相关研究 • 标准推荐系统模型 • 基于内容的推荐算法：在基于内容的推荐系统中，每一个资源项目都是通过相关的特征的属性来定义，而每个用户会有一个自己的用户资料(user profile)，该资料会记录用户对于一些资源的偏好信息资料或历史信息。系统根据用户的资料信息，直接找到与用户兴趣最匹配的资源。 • 用户资料模型一般取决于一些机器学习中数据挖掘方法，结合资源的内容特征与用户的资料模型，可以计算两者之间相似度，从而进行推荐。

相关研究 • 标签推荐(tag recommendation) • 给定一个用户与一个资源，如何推荐给这个用户一些最合适的tag, 从而可以使得用户可以通过推荐的标签得到一些新的符合自己需要的资源。 • 这方面的研究比较著名的是：A. Hotho et al. [1]提出的FolkRank 算法。其主要的思想是：将用户，标签，资源三者之间的联系看作一个无向图，然后基于这个图结构，认为如果一个标签所标记的是重要的资源，并且是由重要的用户来标注的话，这个标签相对来说就更重要，这样可以对tag进行排序。 [1] R. Jaschke, L. Marinho, A. Hotho, L. Schmidt-Thieme, and G. Stumme. Tag Recommendations in Folksonomies. Lecture Notes In Computer Science, 4702:506, 2007.

相关研究 • 标签推荐(tag recommendation) • 这种方法的思想基本还是借鉴信息检索中排序的思想，主要是基于tag与资源以及tag与用户之间的链接信息，但这种方法并没有很好的考虑用户标签中所蕴含的个性化涵义。 • 对于不同的用户，推荐给其的标签均为一样的。 • 该方法推荐给用户的不是直接的资源而是标签，用户需要通过标签来自己去发现感兴趣的资源。

相关研究 • 聚类（clustering）的方法 • tag是由普通用户所随意标注，算是一种不规范的数据，大量的tag之间可能存在着冗余，歧义，和同义性。 • P. Heymann and H. Garcia-Molina.[1]的研究表明可以利用层次聚类的方法可以在一定程度上消除tag的以上的一些问题，也能将资源进行分类。 • A. Shepitsen et al. [2]认为利用层次聚类可以将tag聚类成topic相关的类，然后计算用户和这些相关tag类以及tag类与资源之间的相关性，从而可以将相关的资源推荐给用。 [1] P. Heymann and H. Garcia-Molina. Collaborative Creation of Communal Hierarchical Taxonomies in Social Tagging Systems. Technical report, Technical Report 2006-10, Computer Science Department, April 2006. [2] A. Shepitsen, J. Gemmell, B. Mobasher, and R. Burke. Personalized Recommendation in Social Tagging Systems Using Hierarchical Clustering. RecSys’08, October 23–25, 2008, Lausanne, Switzerland.

相关研究 • 将标签信息与传统推荐模型结合方面的研究 • 这方面的研究是个性化推荐系统研究的一个新方向。 • 文献[1] 认为用户所标记的标签反应用户的contextul 信息，并将该信息与协同推荐算法结合起来提出了一种新的基于tag的协同推荐模型，将用户的标记tag信息抽象为用户向量，然后可以计算用户的相似度，从而可以对资源进行协同推荐。 • 文献[2] 采取了类似的方法，主要是采用WordNet来计算tag之间的相似度，从而计算不同用户之间的相似度，进而可以进行协同推荐。 [1] R. Nakamoto, S. Nakajima, J. Miyazaki, and S. Uemura. Tag-based Contextual Collaborative Filtering. In 18th IEICE Data Engineering Workshop, 2007. [2] S. Zhao, N. Du, A. Nauerz, X. Zhang, Q. Yuan, and R. Fu. Improved Recommendation based on Collaborative Tagging Behaviors. IUI’08, January 13-16, 2008, Maspalomas, Gran Canaria, Spain.

相关研究 • 将标签信息与传统推荐模型结合方面的研究 • 以上的研究虽然在一定程度上考虑了tag所蕴含的信息，但是在如何对tag信息的利用只是采用了一些最简单表示，例如如果一个用户对某一个资源进行了tag标注，那么在这个用户的基于tag向量中被表示为1，否则为0 • 并没有考虑到tag其他的一些方面，例如不同的tag的质量或者说对用户的重要程度是不一致的。 • 没有考虑到tag数据的一些不规范因素，例如tag之间可能存在着冗余，歧义，和同义性

相关研究 • 研究基础 • 在过去的一年，我以及我们小组在个性化信息检索方面做了一些自己的工作，包括以下发表的论文： • A. Ren, X. Du, and P. Wang. Ontology-Based Categorization of Web Search Results using YAGO， in Proc. of the IEEE CSO , Conference, 2009. • J. Cui, P. Li, H. Liu, J. He and X. Du. A Neighborhood Search Method for Link-Based Tag Clustering. In Proc. of the ADMA, Conference, 2009. • 这些研究都为本课题提供了良好的基础。

C R U Item-based R U C C R U R C U R User-based R U 研究方案 • 主要研究内容 • 首先，在社会化的标签系统中，用户与资源之间的二维模型转化为一个用户，标签，资源之间的三维模型(folksonomy)，如何将这个三维模型进行处理，使之适应于标准的推荐模型成为一个关键的问题。为此，我们基于tag cluster 将该三维模型转化用户与标签类，标签类与资源这两个二维的模型：

C R U Item-based R U C C R U R C U R User-based R U 研究方案 • 主要研究内容 • how to define

研究方案 • 主要研究内容 • 在以上模型中关键的一环是如何找到一种好的聚类方法能将tag聚成主题（topic）相关的类。对于 tag聚类来说，聚类方法中的核心问题是如何计算tag之间的相似度，这个问题是我们所研究的一个主要问题。 —该聚类方法希望能综合考虑到tag与用户，tag与资源这两者之间的关系，使得聚类算法所产生的聚类能充分的反映与用户对某一topic的偏好程度，以及对资源的反应程度。 —是否能将基于语义与基于链接关系的这两种计算tag之间的相似度方法结合起来使得聚类更为准确也是本研究的一个可能的方向。

研究方案 • 主要研究内容 • 针对以上模型，如何将其与标准的个性化推荐算法相结合从而得到一个基于标签的个性化推荐模型是本研究的核心。在这里我们拟提出一种基于tag cluster的协同过滤方法（Tag Cluster- based Collaborative Filtering）：TCCF。TCCF可以将User-based 和 Item-based（这里的item即为resource）这两种CF方法结合起来，从而使得推荐算法更全面，如下： • 如何计算不同用户之间和不同资源之间的相似度是本研究中的一个关键问题，关键是如何定义用户对topic相关的聚类的偏好程度与聚类对于资源的反映程度。

研究方案 • 主要研究内容 • 是否可以在模型中考虑到用户其他的一些个性化因素，使得模型更能反映用户的个性化需求也是本研究的一个主要关注的问题。 —在上述模型中是否可以考虑到社会化网站中朋友（friend）的因素，从直觉上认为，如果一个用户是另一个用户的朋友，在上述模型中在计算基于tag cluster 与user-based 的CF 预测得分时，应该使其得分更高。 —对于用户在时间上比较新打的标签应该对用户来说反映他最近的一些兴趣与偏好，从直观上所应该比旧标签来说对用户的重要程度不一样，如何在上述模型中去反映这一点也是一个待解决的问题。

研究方案 • 主要研究内容 • 如何对所做的推荐的资源进行评价是目前推荐系统中一个研究的热点。最后的实验如何所推荐的资源给用户的满意度进行评价也是我们研究中一个主要问题。 —实验数据：可以考虑从delicious网站去获取用户，资源，标签这三者的关系数据，目前先采用的movielens数据集。 —是否可以借鉴机器学习方面的方法，将所选tag与资源分为训练子集和测试子集，该训练子集和测试子集应包含所有的用户。对每个用户所有已经用标签标记过的资源记为Iu, 对于子集中推荐的资源为Ru, 则对于该用户的推荐的Precison可以定义为： —是否可以考虑找人工的志愿者来进行一下满意度调查，也是值得研究的一个问题。

目前工作进展 • 完成开题报告 • 得到并处理数据集movielens • 实验阶段已经初步开始

数据集movielens介绍 • 数据集包含三个数据文件 • Ratings Data File UserID::MovieID::Rating::Timestamp • Tags Data File UserID::MovieID::Tag::Timestamp • Movies Data File MovieID::Title::Genres

数据集movielens介绍 • Tags Data File - statistics User数量：4009 Tag数量：16529 Movie数量：7601 Annotation数量：95580

对比实验 • R. NAKAMOTO, el. Tag-Based Contextual Collaborative Filtering. DEWS2007 • 我们采用以上论文提出的方法作对比实验，该方法没有考虑到tag之间的同义性，仅将两个tag是否完全相同作为用户兴趣是否相似的评价。 • 该算法采用CF 方法，和我们的基于tag聚类的TCCF算法是类似的。

对比实验 • R. NAKAMOTO, el. Tag-Based Contextual Collaborative Filtering. • Contextual CF User Similarity Model 实验已经基本实现。 • Contextual CF Score Prediction Model 待完成。

对比实验 • Contextual CF User Similarity Model

对比实验 • Contextual CF Score Prediction Model 待完成。

对比实验 • 已经完成的部分： • 对tag标记数据的初步处理。 • 对用户之间的相似度计算的已经完成。 • 对于选取的是否相似的阈值的计算。 • ……

对比实验 • 存在的问题： • 标注信息不太充分，单个用户所作的标签不是很多。 • 某个用户对不同资源所标注的tag都是一样，只有一个值，使得信息不充分。 • 另外数据中只标记过一次的tag数量太多，有9254个。 • 计算的用户的相似度区分不明显，如何选取一个合适的阈值。

对比实验 • 待解决的问题： • 希望能进一步把数据集再处理一下，看算法能不能得到更好的效果。 • 选取一个合适的K值，使得算法的效果更好。 • 另外完成后续的Contextual CF Score Prediction Model 的实现。

用户模型的思考 • 用户模型是否除了tag标记信息之外，能否将tag标记的时间因素考虑进去... • 可以借鉴下以下这篇遍文章： Hung el. Tag-Based User Profiling for Social Media Recommendation，In Workshop on Intelligent Techniques for Web Personalization and Recommender Systems, AAAI 2008

用户模型的思考 • Hung 认为用户对某个资源所打的标签的顺序可以反映该标签对资源的重要程度，如下:

用户模型的思考 • Hung 认为可以先求出每一个标签的顺序的权重，然后根据这个权重可以计算出标签t 对 r的反映能力

用户模型的思考 • 从而可以得到用户的user profile 模型

用户模型的思考 • 是否可以借鉴以上的思想，对tag按时间先后进行排序，时间在先的tag对资源的反映程度要比时间在后的tag对资源的反映程度要大。 • 是否可以按时间段，分区间来考虑。 • 然后将这个因素考虑到用户与tag聚类的相似度计算中去去反映标记时间这个个性化因素。

下一步工作计划 • 在12月份能尽快完成对比实验，并有一个初步的结果及对结果进行分析。 • 在12月份希望在movielens数据集上实现TCCF 算法，并能对结果与对比实验的结果进行比较。

Research Summary