形態素解析

| コメント(0) | トラックバック(0)
tanabata09.gif
ふとGoogleを開けたらそうか、今日は七夕だったか、、、憎いねGoogle。

ということで、先般作ったエコポイント検索システムから派生したQ&Aシステムのシステム化案を勘案中です。
なぜならQ&Aが好評で炎上中w
商品検索システムを作ったはずなのに、サブコンテンツが賑わう異常事態が発生したためです。

もともと取り組みに対する説明責任が不十分なまま取り組むから炎上するわけですが、実はこの会社にとっては画期的な「Q&Aを業務画面に統合したシステム」だったからこその悩みどころでもあるわけです。
元来Q&Aというのは、名のとおり質問と回答の2つの要素から成り立っています。
1つのQに対し、1つのAの構造を作成すればよいわけですが、1つのAから更に派生したQが発生したり、多くなってくれば同じQを再度投稿されることが多くなります。
これが起きた際、通常のサイトの成長は2つのコンテンツを作ります。
  1. ある程度まとめてFAQページを作成し、【よくある質問】としてまとめる。
  2. キーワード検索窓を用意し、先に過去問い合わせを検索させる。
ところが、類似の質問はいつになっても消えません。
なぜか。日本語の場合ニュアンスや表現の違いで、自分のQと違うものと捉えるケースがあることと、そもそもワタシの質問に答えて欲しいのである!という方が多いのかもしれません。
現場は悠長にパソコン使って検索なんてのは時間があるときです。
介して問い合わせされて分からなくて急いでて・・・というのが現状なのかも・・・と考えています。
先に検索させるとかFAQを読ませるなんてある程度のITリテラシーがあって、そういうものだで分かってないと無理。
ならば、Qを書かせて確認画面に遷移したら、【過去に類似の質問があります】なんてのが出せたらいいなぁ、と思い、現在研究中なのが【形態素解析】です。
学術論文を漁っていたところ「出現頻度と連接頻度に基づく専門用語抽出」なんちゅう論文を見つけてしまい、なかなかアカデミックな展開になってきました。

それには質問本文中からキーワードを検索し、過去の質問と類似点をスコアリングしながらマッチさせる方式がベストなわけで、これをプログラムに置き換えると・・・というなかなか面白い仕掛けになりそうです。
これは実はインターネットの世界では素で行っている【ググる】に近い発想で、ブログなんかでは記事を書く際に明示的に【タグ】を指定します。
質問を投稿した段階で、自動でキーワードを抽出してタグ化して累積、質問本文のタグ化されたキーワードをマッチさせるという手法でいけるかな?むぅ~自動でタグ化か・・・

統計学的にはベイズ理論(迷惑メールの振り分けロジックで使ってるやつね)なんてのもありましたが、日本語となると言語学が絡んできてかなり難解かも。

たかがQ&A、されどQ&Aという面白いシステムの企画ができそうです。

トラックバック(0)

トラックバックURL: http://www.komaba.org/mt-tb.cgi/5

コメントする

このブログ記事について

このページは、mitchが2009年7月 7日 01:42に書いたブログ記事です。

ひとつ前のブログ記事は「仮説:IT関係の仕事してるヤツは実家のパソコンのメンテナンス係」です。

次のブログ記事は「続:形態素解析」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

ウェブページ

Powered by Movable Type 4.261