370 likes | 539 Vues
语义实体识别. 大纲. 动机 语义实体 相关概念 两类特征 序列标注模型 试验. 动机. 传统文本挖掘的第一步就是分 “词” 分词粒度对不同 web 应用的影响 搜索应用对分词粒度不敏感 语义分析要求具有特定含义的词语组合不能被分开,比如: 小沈阳 甲型 H1N1 流感 女性车厢 云锦袈裟 公交自燃 绿坝花季护航. 语义实体. 语义实体: web 文档中描述现实世界中确切对象名称的词语组合。 person( 释永信 ,周跑跑 , 西单天使,大 S) location( 上海市普陀区 ) organization (华师大)
E N D
大纲 • 动机 • 语义实体 • 相关概念 • 两类特征 • 序列标注模型 • 试验
动机 • 传统文本挖掘的第一步就是分“词” • 分词粒度对不同web应用的影响 搜索应用对分词粒度不敏感 • 语义分析要求具有特定含义的词语组合不能被分开,比如: • 小沈阳 • 甲型H1N1流感 • 女性车厢 • 云锦袈裟 • 公交自燃 • 绿坝花季护航
语义实体 • 语义实体:web文档中描述现实世界中确切对象名称的词语组合。 person(释永信,周跑跑,西单天使,大S) location(上海市普陀区) organization(华师大) product(OPPO手机) event(公交自燃) Common object(云锦袈裟,救生锤) Abstract concept(新农村,甲型H1N1流感)
语义实体相关概念 • 命名实体(MUC, TREC,CONLL,ACE,SIGHAN) • 人名,地名,机构名,日期,时间,数值,百分比 • 区别 • 传统命名实体类别有限,本文定义的语义实体不限制其类型。
语义实体相关概念 • 方法区别 • 传统命名实体识别方法主要使用CRF模型,本文将CRF模型的输出作为特征之一,结合语言无关的统计特征,使用SVM进行训练。
语义实体的两类特征 • 语义实体上下文特征 语义实体本身的文本内容,以及周围的文本内容蕴含了大量提示信息 • 语义实体的统计特征 语义实体多次在不同的上下文出现
实体上下文特征 • 广东省交通厅展开了修复工作。据广东省交通厅副总工程师左智飞介绍,修复工程主要由两部分组成:即受损梁体拆除及南主桥重建,其中在南主桥重建过程中,采用了2×100米独塔组合梁斜拉桥作为重建桥桥型方案。 • 通过序列标注模型获得实体上下文特征度量
序列标注模型 • X={x1,x2,x3,….,xn}为观察到的序列 • Y={y1,y2,y3,….,yn}为针对X的标注序列 B M E分别代表实体三个组成部分,即开始部分,中间部分,末尾部分 O表示不是实体的任何组成部分
序列标注模型 • Training Data Set {[X(1),Y(1)], [X(2),Y(2)], [X(3),Y(3)],…, [X(n),Y(n)]} Build a model to predict Ygiven X Y*=argmax P(Y*/X) • 经典序列标注模型 • HMM • MEMM • CRF
Generative Models(HMM) • HMM对联合概率P(X,Y)建模。 • 通过两个假设求P(X,Y) 假设1:当前状态仅与前一个状态有关 假设2:当前的观察仅与当前状态有关
参数估计 • 给定训练集 {[X(1),Y(1)], [X(2),Y(2)], [X(3),Y(3)],…, [X(n),Y(n)]} • 如何调整模型参数A,B, p, 使得 最大
推理 • 给定观察序列X=x1,x2,…xT以及参数A,B, p, 如何选择一个对应的状态序列Y= y1,y2,…yT,使 得Y能够最为合理的解释观察序列X?
Y1 Y2 … … … Yn X1 X2 … … … Xn HMM的缺点 • HMM的两个假设在很多情况下都不成立 在很多情况下,当前状态可能依赖于整个观察序列。 • 我们需要的是P(Y|X),可是HMM优化的目标是P(X)
Conditional Random Field • 直接对条件概率P(Y/X)进行建模 • 线性CRF的假设:当前状态yj依赖于前面的状态yj-1和整个观察序列X • 对当前状态yj,前面的状态yj-1,整个观察序列X的依赖关系,通过特征函数fi(yj-1,yj,x)刻画。
特征函数 1 yj-1=B,yj=E,xj-1=‘李’,xj=‘明’ f1(yj-1,yj,x) 0 1 yj-1=B,yj=M,xj-1=‘上海’,xj+1=‘公司’ f2(yj-1,yj,x) 0
特征函数 m个特征函数 yj,yj-1,X的依赖关系 Y,X的依赖关系
特征函数 归一化
训练 • Maximum likelihood
1 2 2 K 1 1 1 1 … x1 x2 x3……………………..xn 2 2 2 2 … … … … … K K K K … 推理 Y*=argmax P(Y*/X) http://en.wikipedia.org/wiki/Forward-backward_algorithm http://en.wikipedia.org/wiki/Viterbi_algorithm
1 2 2 K 1 1 1 1 … x1 x2 x3……………………..xn 2 2 2 2 … … … … … K K K K … Forward-backward algorithm αt(i)表示从位置1到位置t,并且位置t的状态为i的所有路径概率之和。 βt(i)表示从位置n到位置t,并且位置t的状态为i的所有路径概率之和。 所有路径概率之和:
边缘概率 • 在位置j标注为B的边缘概率P(yj=‘B’/X) • 在位置j+k标注为E的边缘概率P(yj+k=‘E’/X)
统计特征 Mi越高说明ab越相关,越可能成为实体 • 1)语义实体的内部紧密性 • 2)语义实体的上下文独立性(Accessor Variety) AV(ab)=min(|XL|,|XR|) 其中XL ={x|xab为文档中的连续汉字串} 其中XR ={x|abx为文档中的连续汉字串} |XL|,|XR|分别为集合XL, XR包含的元素个数 AV值越高说明ab上下文独立性越强,越可能成为实体
新华 网 北京 6 月 8 日 电 ( 记者 周 婷 玉 ) 作为 我国 内地 唯一 具备 大 流行 流感 疫苗 生产 资质 的 企业 , 北京 科 兴 生物制品 有限公司 8 日 拿到 来自 美国 CDC 的 甲型 H1N1 流感 疫苗 生产 用 毒 株 , 这 意味着 我国 甲型 H1N1 流感 疫苗 “ 盼 尔 来 福 ” 的 批量生产 正式 启动 。 记者 8 日 从 卫生部 获悉 , 由 美国 疾病 预防 控制 中心 和 英国 生物制品 检定 所 提供 的 , 为 世界 卫生组织 认定 的 甲型 H1N1 流感 疫苗 毒 株 8 日 下午 相继 运 送到 京 , 这些 疫苗 毒 株 被 立即 发往 相关 疫苗 生产 企业 。 此前 , 英国 生物制品 检定 所 提供 的 疫苗 毒 株 分别 于 6 月 3 日 和 6 月 5 日 运往 华 兰 生物 工程 股份有限公司 和 大连 雅 立 峰 生物 制药 有限公司 。 北京 科 兴 公司 总经理 尹 卫 东 介绍 说 , 在 国家 应对 甲型 H1N1 流感 联防 联 控 保障 组 以及 海关总署 和 国家 质检 总局 等 部门 的 大力 支持下 , 来自 美国 CDC 的 甲型 H1N1 流感 疫苗 生产 用 毒 株 NYMCX-179A 于 8 日 晚 送 抵 北京 科 兴 。 北京 科 兴 拿到 毒 株 后 迅速 启动 毒 株 种子 批 制备 工作 。 据了解 , 单 批 疫苗 生产 需 经历 病毒 接种 、 病毒 培养 、 病毒 灭 活 、 纯化 、 配比 、 分 包装 及 批 签发 等 步骤 才能 最终 投入 使用 。 为 达到 疫苗 的 保护 效果 , 并 节省 抗原 , 北京 科 兴 这次 甲型 H1N1 流感 疫苗 采 用了 佐 剂 疫苗 的 生产 工艺 。 顺利 的 话 第 一批 疫苗 将 在 7 月底 生产 出来 。 北京 科 兴 现有 大 流行 流感 疫苗 生产线 的 设计 年生产能力 为 2000 万 至 3000 万 支 , 是 我国 内地 唯一 具备 大 流行 流感 疫苗 生产 资质 的 企业 。 由于 大 流行 流感 疫苗 的 需求量 巨大 , 北京 科 兴 的 产能 难以 完全 满足 国家 和 公众 的 需求 。 为 给 尽可能 多 的 人群 提供 保护 , 北京 科 兴 决定 与 国内 几家 季节性 流感 疫苗 生产 厂家 结成 联盟 , 把 北京 科 兴 从 2004 年 以来 开展 的 相关 研究所 形成 的 大 流行 流感 疫苗 生产 关键 技术 与 合 作者 分享 , 共同 承担 疫苗 “ 盼 尔 来 福 ” 的 生产 。 尹 卫 东 告诉 记者 , “ 盼 尔 来 福 ” 的 生产 和 检定 将 严格 按照 国家 食品 药品 监管 局 批准 的 《 大 流行 流感 病毒 灭 活 疫苗 制造 及 检定 规程 》 进行 。 国家 食品 药品 监管 局 也 已 及时 出台 《 大 流行 流感 疫苗 特别 审批 应急 工作 方案 》 , 使 疫苗 合作 生产 有法可依 , 保证 疫苗 的 生 产科学 、 依法 、 有序 、 高效 地 进行 , 保证 疫苗 使用 的 安全性 。 2004 年 , 北京 科 兴 与 中国 疾病 预防 控制 中心 合作 , 在 科技 部 、 卫生部 的 支持下 开始 大 流行 流感 原型 疫苗 的 研究 , 并在 国家 发展 改革 委 的 支持下 建设 了 一条 全新 的 自动化 分 包装 线 。 2008 年 这一 疫苗 成功 完成 临床 研究 并 获 国家 食品 药品 监管 局 颁发 的 生产 批件 。 北京 科 兴 公司 一直 致力于 人用 疫苗 及 相关 产品 的 研发 、 生产 及 销售 。 目前 上市 产品 包括 甲型 肝 灭 活 疫苗 “ 孩 尔 来 福 ” , 甲 乙型 肝炎 联合 疫苗 “ 倍 尔 来 福 ” 等 。
统计特征 • 甲型H1N1流感疫苗 av=3 • 国家食品药品监管局 av=3 • 甲型H1N1流感疫苗 mi=0.0962 • 国家食品药品监管局 mi=0.1875
统计特征 (3) IDF(Inverse document frequence) N: 文档总数 dfi:包含单词 ti的文档数 idfi = log (N/dfi) 语义实体周围通常有大量低idf值的词语 不但 是满文军 ,所有 明星 们 都 不必 对 老百姓 道歉 广州、武汉、杭州、南京 等 多个 城市 的 水幕电影都是 宜兴 人 “ 造 ” 出来 的 取证难是高空抛物的第一大难题,有90%多的高空抛物事件找不到肇事者,根据《民法通则》的有关规定,对高空坠物(包括乱扔东西)导致他人受损害的案件,庭审将实行“举证倒置”。
的 2.282223610840561 在 2.984607091520017 和 3.0261431167739294 是 3.4095322731828936 了 3.5045149956901813 年 3.7774996834197982 月 3.8359578839063926 为 3.892722906710583 日 3.9269296621121192 对 3.969967173792101 与 4.039233232003877 等 4.109251218906073 中 4.15420260676834 发展 4.179815182625067 有 4.225661570750485 也 4.250662872955902 国家 4.302622611886613 这 4.321465699688093 以 4.329651284274533 工作 4.346226249368745 记者 4.346226249368745 中国 4.357430848381608 他 4.391818190691084 说 4.418407644880324 地 4.4214061478765805 经济 4.4214061478765805 从 4.4274302624799615 将 4.43653502947288 新 4.4612276420632515 要 4.502700890269827 一个 4.519121620482155 我们 4.570066422097403 就 4.584101740213787 而 4.594759034687774 鹿儿岛 10.229548637857024 鹿特丹 10.229548637857024 麦当劳 10.229548637857024 麦苗 10.229548637857024 麻省 10.229548637857024 麻袋 10.229548637857024 黄埔 10.229548637857024 黄山 10.229548637857024 黄昏 10.229548637857024 黄河流域 10.229548637857024 黄浦 10.229548637857024 黄牛 10.229548637857024 黄玉 10.229548637857024 黎族 10.229548637857024 黑了 10.229548637857024 黑人 10.229548637857024 黑暗 10.229548637857024 黑洞 10.229548637857024 黑白 10.229548637857024 黑马 10.229548637857024 黔东南 10.229548637857024 黔江 10.229548637857024 默默无闻 10.229548637857024 鼓劲 10.229548637857024 鼓掌 10.229548637857024 鼓楼 10.229548637857024 鼓浪屿 10.229548637857024 鼓鼓 10.229548637857024 齐家治国 10.229548637857024 齐心 10.229548637857024 龃龉 10.229548637857024 龙舞 10.229548637857024 龙门 10.229548637857024 IDF特征
统计特征 • (4) X=xa…by EL(x) x为实体左边单词的概率 EH(a) a为实体头单词的概率 EE(b) b为实体尾单词的概率 ER(y) y为实体右边单词的概率
统计特征有用吗? 小沈阳这个名字是他随了舞台上他的搭档——“四舅母”、“老婶”也是生活中他的媳妇的名,而且这个名小沈阳和妻子沈春阳字的由来还有一段故事。19岁那年,学完了三年二人转他就去长春准备寻找个搭档。当时经别人介绍,说这丫头唱得不错,小沈阳当机立断就跟沈春阳组了一副架,而且名字还为了配合她改了。她叫沈春阳,当时改叫沈阳,后来觉得没特点就又改叫小沈阳了。改名时,小沈阳和沈春阳还没好上呢,是唱了三四年后才有的感情。不过后来团里的演员都说小沈阳有心眼,用个名换个老婆。小沈阳倒觉得没啥大不了的,随过去就随过去呗。小沈阳的女儿很可爱了,看到他累了,她会用不太灵光的话跟我说:“爸爸,加油!”有时好几天看不见爸爸,还问他“这是为什么呢?”虽然她吐字还不太清楚,可是看到她,小沈阳的累呀,委屈呀就都没了。 • 嵌套语义实体 小沈阳 西单天使 黄光裕案 Proctor and Gamble Intel and IBM Land of the Lost • 弱文本特征的语义实体 女性车厢 大S/飞人/飞侠 绿坝-花季护航 有些语言没有大写特征,比如德语 上下文特征将”沈阳”识别为地名实体 在大量不同上下文中频繁出现,具有较强的统计特征
特征向量 • X=xixi+1…xi+k P(yi=‘B’/xixi+1…xi+k) xi为语义实体头的概率 P(yi+k=‘E’/xixi+1…xi+k) xi+k为语义实体尾的概率 AV(xixi+1…xi+k) MI(xixi+1…xi+k) IDF(xi-1) 实体X前一个词语的IDF IDF(xi+k+1) 实体X前一个词语的IDF LEN(xixi+1…xi+k) EL(xi-1) EH(xi) EE(xi+K) ER(xi+K+1)
试验数据 • 数据:人民日报 1998.1 • 人名总数:8834 • 将数据分成三份A,B,C • A+B 训练出CRF模型 • 利用A训练出crf,预测B,得到B中实体的边缘概率,利用B中实体的统计特征,训练出SVM模型 试验目的:CRF+统计特征>CRF
试验环境 • 工具:CRF++ , LIBSVM • 5-fold cross validation • Grid.py 寻找训练参数
曲线crf: 仅仅通过conditional random field获得的性能 曲线crf+mi+av+idf+EL+EH+EE+ER+SVM: 由各种统计特征和CRF输出的边缘概率作为特征向量,通过SVM分类器获得的性能
下一步工作 • 跨语料 • 其他语言 • 增加语义实体类型