1 / 69

Web からの 研究者ネットワークの抽出と利用

Web からの 研究者ネットワークの抽出と利用. 情報技術研究部門 知的コンテンツグループ 松尾 豊. 発表の内容. 成果の概要 研究内容の説明 「 Web からの研究者ネットワークの抽出」 今後の研究予定、目標. 研究成果概要:研究テーマ. 2002 年 4 月入所 ~ 2004.7 サイバーアシスト研究センター ~現在 情報技術研究部門 建物内の位置履歴からのユーザモデリングの研究 競争的資金: 総務省 戦略的情報通信研究開発推進制度( SCOPE-R )( H15 ~ 17 )研究代表者 臨海副都心センターでの位置情報取得の実験など

Télécharger la présentation

Web からの 研究者ネットワークの抽出と利用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Webからの研究者ネットワークの抽出と利用 情報技術研究部門 知的コンテンツグループ 松尾 豊

  2. 発表の内容 • 成果の概要 • 研究内容の説明 • 「Webからの研究者ネットワークの抽出」 • 今後の研究予定、目標

  3. 研究成果概要:研究テーマ • 2002年4月入所 • ~2004.7 サイバーアシスト研究センター • ~現在 情報技術研究部門 • 建物内の位置履歴からのユーザモデリングの研究 • 競争的資金: • 総務省 戦略的情報通信研究開発推進制度(SCOPE-R)(H15~17)研究代表者 • 臨海副都心センターでの位置情報取得の実験など • 位置の履歴だけから、ユーザの属性をある程度推測することができる • ユビキタス空間における情報提供で重要 • Webからの研究者ネットワーク抽出の研究 • 競争的資金 • 科研費基盤B(H17~19)研究代表者 • NEDO 産業技術研究助成事業「人の社会的関係を考慮した情報提供に関する研究」 (H17~19、代表:西村 拓一)で主要な研究分担者 • Webから研究者の協働関係を抽出する。Polyphonetシステム

  4. 研究成果の概要 • 成果 • 論文:計20件(筆頭9件)の誌上発表、40件以上の国際会議での発表 • 文書処理、Webマイニング、ユーザモデリング、センサデータの解析等 • 人工知能学会論文賞を受賞。 WWW2006やAAAI-06に採択。 • 特許出願:7件(筆頭5件)、3件のプレス発表、新聞報道は10件以上 • 産業との連携 • Web系ビジネスと研究コミュニティをつなぐ橋渡し • 2003年「Blog勉強会」第1回~3回 • 70人以上。アカデミックでは最も早い時期。多くのIT技術者。 • 2005年「Webが生み出す関係構造と社会ネットワーク分析ワークショップ」 • 日本初のSNSのワークショップ。プレスも含め100名以上が参加 • Polyphonet: • 大阪市のロボットラボラトリーでの試験運用。 • 産総研イノベーションズと連携し、各企業への技術移転を進めている。 • 海外との連携 • スタンフォード大学CSLI(言語情報研究センター) • 2006年4月からは、日本学術振興会の海外特別研究員として長期出張

  5. Webからの研究者ネットワークの抽出と利用

  6. Webからの研究者ネットワークの抽出と利用 • 「人」そして「人間関係」の重要性 • ユビキタス環境 • 情報検索、セマンティックオーサリング、セマンティックウェブ:情報の信頼性 • 「行為を決定するのは、行為者を取り囲む関係構造である.」 • 社会ネットワーク分析 • 人同士の社会的関係を記述することは困難 • Web上の情報から研究者のネットワークを抽出する。 • 情報が新しく、多様。今、まさに起こっている関係を捉えられる。 • 好むと好まざるに関わらず、情報が第三者によって記述される。 • 研究者ネットワークの抽出:POLYPHONET • 研究者の協働関係ネットワーク • 融合領域、産学官連携の重要性

  7. 研究者ネットワーク

  8. 運用実績: POLYPHONET • 人工知能学会全国大会: JSAI2003,2004,2005 • UbiComp2005, WISS2005 • 横浜トリエンナーレ • ロボットラボラトリー(大阪市) • 予定: AAMAS2006, JSAI2006 ※ 実世界指向インタラクションG、国立情報学研究所等と連携 POLYPHONET = POLYPHONY + NETWORK

  9. 研究者ネットワークの抽出 • Webマイニング • 情報検索、自然言語処理、機械学習などの技術を組み合わせて、Web上の情報を自動的に加工・処理し、有用な知識を抽出する。 • 処理の流れ • ノード:研究者のリストを与える:名前+所属 (用意する情報はこれだけ) • エッジ:全ての2人の間の関係の強さを測定 • エッジラベル:関係が強いと判断された2人の間の関係の種類を測定 • 共著 • 研究室:同じ研究室や研究所に所属していた • プロジェクト:同じプロジェクトや委員会に所属していた • 発表:同じ研究会や全国大会で発表した • その他:研究者の「研究キーワード」、2人の間の「関係キーワード」を抽出。研究者を研究分野に自動で分類する。

  10. 抽出の方法 例)124件 • メンバーのリスト(名前、所属)は所与 • 検索エンジン(Google)を使って、共起関係の強さを測る。 • Jaccard係数、相互情報量などさまざまな尺度があるが、閾値つきOverlap係数を用いる。 • 例)  • “松尾豊 石塚満”:123件 強い • “松尾豊 溝口理一郎”:11件 弱い • “石塚満”:791件 • “溝口理一郎”:813件 • 検索されたWebページから、ページの特徴量を抽出し関係を把握。 •  共著、 研究室、 プロジェクト、 発表 • Simpson係数は、関係の強さを的確に表す。  • 9割程度の適合率(再現率は2割~5割):アンケート調査

  11. 共起の指標 • Frequency |X∩Y| • Mutual Information log N|X∩Y| / |X||Y| • Dice coefficient 2|X∩Y| / (|X|+|Y|) • Jaccard coefficient |X∩Y| / |X∪Y| • Simpson coefficient |X∩Y| / min(|X|,|Y|) • Cosine |X∩Y| / (√|X||Y|) • We use threshold-based Simpson (overlap) coefficient.

  12. Simpson coefficient Frequency Dice coefficient Jaccard coefficient H-axis: index, V-axis: probability of co-authorship

  13. 同姓同名の問題 • “松尾豊”ではなく、“(松尾豊 AND 産業技術総合研究所)” • いろいろなケース • 複数の所属名、過去の所属名:全部ORでつなぐ • 所属名の略称など:機関の略称リストを用意 • 松尾豊 AND (産業技術総合研究所 OR 産総研 OR 東京大学 OR 東京大 OR 東大) • 例えば、“松尾豊”903件中256件が私。 • この拡張で、262件(適合率86%、再現率93%)となる • ※ 日本人ではうまくいくが(必ずと言っていいほど、所属+姓名で書く)、英語名では工夫が必要。実は、表現形と実体を結び付ける奥深い問題。

  14. 関係の種類の判別 “X and Y”で検索した上位5件のページを対象 属性リスト ・2人の氏名の共起回数  ・Simpson係数が閾値以上か ・Xの出現回数 ・Yの出現回数・{出版、論文、発表、活動、テーマ、賞、著者}のいずれかの語がタイトルに含まれるか ・{メンバー、研究室、研究所、研究機関、チーム}のいずれかの語がタイトルに含まれるか ・{ワークショップ、会議、セミナー、ミーティング、スポンサー、シンポジウム}のいずれかの語がタイトルにふくまれるか ・・・・ ・{出版、論文、発表、活動、テーマ、賞、著者}のいずれかの語が最初の5行に含まれるか ・・・ ページの特徴属性 (more than one, yes, yes, more than one, more than one, no, no, no, no, no, no, yes, no, no, no, yes, no) 判別ルール NumCo = more_than_one → 共著 NumCo = more_than_one & GroFFive(F)=no → 研究室 (Rel=yes & GroTitle(E)=no & GroFFIve(C)=no → 研究室 ・・・・ 関係のクラス: 共著、研究室、プロジェクト、発表

  15. Polyphonet • 研究者ネットワーク抽出・検索システム Polyphonet • polyphony(多声音楽) + network • 研究者情報の検索、自分とのつながりの検索、調べたい研究者の登録などができる。 • 学会等での運用 • JSAI2003-06 人間関係ネットワーク支援システム • UbiComp05 • Polyphonetレスキュー版 • 神奈川県・レスキューテクノロジーソリューションデータベース • Polyphonetロボット版 • 大阪市・ロボットラボラトリー • Polyphonet 横浜トリエンナーレ版 • Polyphonet WISS2005

  16. Polyphonetに関する研究成果 • 基本的なアルゴリズム[Matsuo03, 松尾05, Matsuo06] • 検索エンジンの負荷を下げる[浅田05] • n^2のクエリー数のオーダをnにする • 研究者の分類をする[浅田06] • 氏名がどのような語と共起するかで専門分野の分類を行う • 研究者のキーワードを抽出する[森05] • 氏名とよく共起する研究に関するキーワードを取得する • 同姓同名の解決[Bollegara06] • 対象となる人物を同定するクエリーを見つける • 中心性の分析[友部05、安田04,05] • 得られたネットワークを分析し、重要な人物の同定、研究成果との相関を調べる • 研究者ネットワーク以外のネットワーク抽出[金06] • 企業間のネットワーク、アーティストネットワーク

  17. 横浜トリエンナーレ2005のアーティスト IT・電機系等の企業

  18. 関連研究 • Semantic Web • MIT A. McCallumら:WebやEmailからの社会ネットワーク抽出 • アムステルダムFree大 P. Mikaら:WebやFOAFからの社会ネットワーク抽出 • Maryland大学 Tim Fininら: FOAFネットワークの収集・分析 • ドイツKarlsruhe大学 S. Staabら:Web上のテキストパターンを用いたエンティティ間のオントロジの抽出 • 自然言語処理 • Kilgariffら:Web as corpus。検索エンジンを用いた言語処理 • P. Turneyら:検索エンジンを用いた類義語。TOEFLで普通の学生よりもよい結果

  19. 今後の研究: 技術的方向性Webからの高次情報のマイニング • 一般の人の日々の活動までWebに載るようになってきた • Blog、掲示板、SNS、検索エンジンの進歩 • 知識:コミュニティ • 常識的な知識を抽出できる可能性: • オントロジの自動獲得、世界知識の獲得、評判の抽出・・・ • 量の変化が質の変化をもたらしている • 検索エンジンよりひとつ高次なレイヤー • 欲しいのは、実世界の情報であって、必ずしも文書ではない。 • 明に現れていない高次情報の抽出、価値の高い情報の提示 • ネットワーク的視点 • 対象の関係性を、総体として捉える。俯瞰を得る。 • 構造のマイニング:企業間ネットワーク、語のネットワーク・・・ • 情報システムにおける社会性 • コミュニティ、SNS、blog、ソーシャルタギング • 人は他人との関係性の中で日常生活を送っている • 社会性をどう情報システムに取り込み利用するか

  20. 今後の研究:目標 • 日常生活の場面での情報支援 • Webの情報を整理し、生活の各場面で有用な情報を提供:「社会性」 • アノテーション・オーサリング等の技術との融合 • ロボットやユビキタスといった実世界での情報支援 • 意思決定に必要な情報の収集・統合・整理 • 価値の高い情報の提示:「ネットワーク的視点」 • 情報の意味内容や情報の価値に関する研究 • 産業との連携 • Webは今後もさらに生活に密着し、情報技術において重要性を増す • Web技術における連携 • アカデミックのコミュニティと産業との連携が十分ではない。⇔シリコンバレー • これまでにも意識してきた第2種基礎研究を継続する。 • ロボットやユビキタスの文脈で生きる、日本独自のWeb技術を目指す

  21. おわり

  22. 検索エンジンに対する負荷 • 普通にやると・・・ • 氏名リストにn個の氏名があるとすると,共起ページ数の検索に必要なクエリ数はnC2 個(ほぼO(n2)) • overlap係数の分布 • 0  約67% • 0から0.2  約98% ほとんどが弱い関係

  23. 着想 『浅田洋平』の検索結果の上位ページには、浅田洋平と関係の強い人がほとんど出現している.(そうでない人も含まれる) ⇒上位ページから共起を調べる名前の候補を出す

More Related