nakamura244 blog

所属団体とは関係なく、個人的なblog

TFIDFを検索に活かせるかを考えてみた

はじめに

最近自分のmission変更がありまして、検索システムを開発する事になりました。その設計をする中で気になったことを軽くまとめてみようと思います。

別軸で機械学習系をかじり始めました!!

TFIDF?

tf-idf - Wikipedia

まぁその文章の特徴となっている言葉を抽出する手法になるかと思います

なぜ、TFIDFが検索に活かせると思ったのか

きっかけ

makuakeというサイトがありましてね。

クラウドファンディング - Makuake(マクアケ):サイバーエージェントグループ

ここのヘッダーにある検索で 日本酒,保冷というキーワードで検索をして見ます

そうすると下記のような結果になります。

f:id:tsuyoshi_nakamura:20190427214558p:plain

日本酒とは関係のなさそうなプロジェクトがヒットする事はちょっとおいておくとして....😅

日本酒関連のプロジェクトがヒットするのは良いんですが、makuakeでいうと日本酒,保冷で検索するとグッドデザイン賞などで大々的にニュースになった冬単衣のプロジェクトが出てきて欲しい!!と思うわけであります。

日本酒だけのキーワード検索であれば、新着順の日本酒のプロジェクトが検索結果になるのが良いのかな〜

corporate.jp.sharp

www.g-mark.org

改善を考えてみる

機械学習系をかじりはじめてて、TFIDFがシンプルに活用できるんじゃないっと安易に思って、ちょっと試してみることにした。

プロジェクトの文章からそのページを特徴となるキーワードをTFIDFで抽出して、検索された時に活用するよいうイメージ

こんなの作って見た

f:id:tsuyoshi_nakamura:20190427215511p:plain

結果

お米,ひと口,よう,フルーツ,上品,保冷,味わい,新しい,日本酒,本来,段階,甘い,甘み,試み というキーワードを抽出できた

日本酒,保冷というキーワードが抜き出せた。ちょっとイイ感じかも

試した中での課題感など

最後

検索精度が向上する糸口が見えた気がする。まぁ少なくとも検索して結果のscoreに考慮してあげても良いとは思えた

でもプロダクション投入レベルに持っていくのそれはそれで色々あるんだよなーと思いつつお疲れ様でした。👋