120 likes | 269 Vues
QT 语义一致性. 王朋朋 浙江大学. 主要方法. TF-IDF 编辑距离 Jaccard 相似度 分词结果对齐 词性过滤 词性特征 同义词 算法设计. TF-IDF. 分词: ICTCLAS 方法:合并 train 与 test ,计算词的 idf 值 目标:降低无关词的权重,增加关键词的权重. 编辑距离. 方法:增加 “替换”操作的权重 ,根据 query 和 title 的长度做归一化 处理 替换权重: 1.5 归一化 : 目标 :替换操作会使句子的语义发生较大的变化, 如 “现代 新途胜的年销售量 ”
E N D
QT语义一致性 王朋朋 浙江大学
主要方法 • TF-IDF • 编辑距离 • Jaccard相似度 • 分词结果对齐 • 词性过滤 • 词性特征 • 同义词 • 算法设计
TF-IDF • 分词:ICTCLAS • 方法:合并train与test,计算词的idf值 • 目标:降低无关词的权重,增加关键词的权重
编辑距离 • 方法:增加“替换”操作的权重 ,根据query和title的长度做归一化处理 • 替换权重:1.5 • 归一化: • 目标:替换操作会使句子的语义发生较大的变化,如 • “现代新途胜的年销售量” • “现代I30月销售量是多少啊” • 归一化可以避免长句跟短句不可比的情况
Jaccard相似度 • 方法:|A intersect B| / |A union B| • 目标:衡量query与title的关键词重合度,计算时选取名词
分词结果对齐 • 方法: 微信视频安全吗 手机下载微信安全吗 微信视频安全吗 手机下载微信安全吗 • 目标:分词器缺乏好的词库,分词结果不准确。
词性过滤 • 方法:过滤叹词,连词,介词,语气词等干扰词,过滤名词,\x(分词器未标注的词)中长度小于1的词 • 目标:降低无关词的干扰
词性特征 • 方法:使用向量模型计算query和title的相似度,计算时取动词,副词,形容词以及词性标注为ns,nz的词,PosValue • 目标:衡量query与title的限定词重合度,作为第二个判定指标(提高了约3个点,0.54到0.57)。
同义词 • 方法:word2vec,训练train和test,词与词之间的相似度,计算query和title的相似度(完全相同的词相似度置为0) • 目标:解决概念一致但是描述不同的case,提高约1个点
算法设计 上面两个参数是根据经验设置的,并且如果编辑距离和jacardSim大于某个特定值直接返回1,最后设定sim的阈值
可改进的地方 • 结合编辑距离和词性特征,使得操作不同词性的时候有不同的权值,更细致地去区分query和title • 选取好的词库和大的语料计算idf值以及同义词,以便逼近真实数据 • 句法分析,提取特殊结构,如“的”字短语,分析依存关系,抽取关键词和限定词并比对