1 / 32

Web リンク構造を用いた 観光情報分析

Web リンク構造を用いた 観光情報分析. 北海道工業大学 電気工学専攻 齋藤翔太. 研究背景. インターネット上での観光情報発信が活発となっている. この情報を有効活用するための試みが行われている. 北海道観光の分析を,W eb リンク構造に着目して行なう. インターネット上の北海道観光情報の発信状況について調査. 観光サイトの発見・収集の可能性の検討を行なった.. 研究背景. Web マイニング データマイニングを Web 上の情報に適用 Web 利用マイニング Web サーバに対するアクセスパターンの発見 Web 内容マイニング

gamba
Télécharger la présentation

Web リンク構造を用いた 観光情報分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Webリンク構造を用いた観光情報分析 北海道工業大学 電気工学専攻 齋藤翔太

  2. 研究背景 • インターネット上での観光情報発信が活発となっている. • この情報を有効活用するための試みが行われている. • 北海道観光の分析を,Webリンク構造に着目して行なう. • インターネット上の北海道観光情報の発信状況について調査. • 観光サイトの発見・収集の可能性の検討を行なった.

  3. 研究背景 • Webマイニング • データマイニングをWeb上の情報に適用 • Web利用マイニング • Webサーバに対するアクセスパターンの発見 • Web内容マイニング • Webドキュメントにおける内容パターンの発見 • Web構造マイニング • ハイパーテキストのリンク構造パターンの発見

  4. 分析方法 • 定義 • 北海道市町村の集合 • 市町村自治体URLの集合 ※2005年7月現在のTmax=207 • キーワード

  5. 市町村名とURL • 207市町村全てが,Webサイトを開設している.

  6. 分析方法 l1 l2 l3 l4 l5 l6 • キーワードSWをサーチエンジンに入力した結果の取得 ※ iの値は,結果順位の値とする. L(SW) キーワードSW

  7. 分析方法 • liに含まれるURL(出次)集合を取得 • liにリンクしているURL(入次)集合を取得 IL(li) OL(li) li

  8. 実験 • 207市町村(2005年7月現在)全てを対象として,以下の実験を行なった. • 実験1 • 各北海道市町村名とキーワードから抽出されたURLについて重複数の調査 • 実験2 • 観光入込数と市町村自治体サイトへの入次数との関係について調査 • サーチエンジンには,Livedoorウェブサーチを用いた. ※ ※http://www.livedoor.com/

  9. 実験1 • キーワードSWは,ti+”観光” • サーチエンジンにSWを入力し,L(SW)を取得 • 全検索結果から,重複URLを抽出 • 出現URLの平均順位の算出 • 調査日 • 2005年7月 • 2005年12月 • 2006年2月

  10. 実験1結果 ページ別(2005年7月) ※重複数の%はカバー率 (重複数をTmax(= 207)で割った値)

  11. 実験1結果 ページ別(2005年12月) ※重複数の%はカバー率 (重複数をTmax(= 207)で割った値)

  12. 実験1結果 ページ別(2006年2月) ※重複数の%はカバー率 (重複数をTmax(= 207)で割った値)

  13. 実験1結果 ホスト別(2005年7月) ※重複数の%はカバー率 (重複数をTmax(= 207)で割った値)

  14. 実験1結果 ホスト別(2005年12月) ※重複数の%はカバー率 (重複数をTmax(= 207)で割った値)

  15. 実験1結果 ホスト別(2006年2月) ※重複数の%はカバー率 (重複数をTmax(= 207)で割った値)

  16. 実験1 SW=“北海道”+”観光” によるキーワードサーチで,上位に出現するサイト

  17. 実験1 考察 • ページ単位では,自治体・観光サイトへのリンクを集めたページが多く出現する傾向にある. • ホスト単位では,自治体・観光サイトが多く出現する. • “北海道 観光”をキーワードとした結果とは異なる

  18. 実験2 • 各自治体サイト si に対しての入次 IL(si)を取得 • 観光入込数とIL(si)との関係を調査 • 入次は,リンクページサーチ機能による結果を用いた • 「link: si 」 をキーワードとして入力する • 例(札幌市) link:http://web.city.sapporo.jp/ • siにリンクされているページが検索結果となる • 入込総数は,北海道経済部による平成16年度の調査を基にした

  19. 実験2の結果(1) ※入込総数は,北海道経済部による平成16年度の調査を基にした

  20. 実験2の結果(2)2005年7月 札幌市 帯広市 千歳市 旭川市 小樽市 函館市 全市町村 • 札幌市が他市町村から大きく離れている • 入込数,入次数ともに「市」が高い値を示す傾向にある

  21. 実験2 カテゴリでの考察(市) 2005年7月 札幌市 帯広市 千歳市 旭川市 小樽市 釧路市 函館市 登別市 市カテゴリ

  22. 実験2 カテゴリでの考察(村) 2005年7月 大滝村 中札内村 厚田村 洞爺村 占冠村 留寿都村 村カテゴリ

  23. 実験2 カテゴリでの考察(圏域) 2005年7月 道南圏域 道北圏域 道央圏域 十勝圏域 オホーツク圏域 釧路・根室圏域 入込数最大値 16000 入次数最大値 1800 ※圏域分類は,北海道経済部調査「平成16年度 北海道観光入込数調査書」による

  24. 実験2 カテゴリでの考察(道央) 2005年7月 札幌市 喜茂別町 千歳市 虻田町 小樽市 登別市 道央圏域

  25. 実験2 カテゴリでの考察(道南) 2005年7月 函館市 上磯町 森町 長万部町 七飯町 道南圏域

  26. 実験2 カテゴリでの考察(道北)2005年7月 旭川市 稚内市 中富良野町 東川町 富良野市 上川町 美瑛町 道北圏域

  27. 実験2 カテゴリでの考察(十勝) 2005年7月 十勝圏域 帯広市 新得町 足寄町 音更町

  28. 実験2 カテゴリでの考察(オホーツク) 2005年7月 紋別市 網走市 小清水町 北見市 美幌町 斜里町 留辺蕊町 オホーツク圏域

  29. 実験2 カテゴリでの考察(釧路・根室) 2005年7月 釧路市 厚岸町 根室市 阿寒町 弟子屈町 釧路・根室圏域

  30. 実験2 考察 • 観光入込数と自治体サイトへのリンク数は比例していない • 入込数が少なくとも,インターネット上で注目されている市町村がある

  31. まとめ • インターネット上における北海道観光情報の発信状況についてWebリンク構造利用の観点から調査した. • 今後の課題 • ページ内容の形態素分析等を含めた調査

  32. Webリンク構造を用いた観光情報分析 北海道工業大学 電気工学専攻 齋藤翔太

More Related