キュアセブン技術ブログ

考えたこと,学んだことを書きます

tf-idf

tf-idf

tf-idf - Wikipedia

tf-idfは単語の重要度を表すための式.文書の特徴語を抽出するのにこの式を使います.

if

単語の出現頻度.よく出てくる単語は重要とし,値を高くする.

$$ tf = \frac{ 文書Aにおける単語Xの出現頻度 }{ 文書Aにおける全単語の出現頻度の和 } $$

idf

逆文書頻度.どんな文書にもよく出てくるようであれば重要度は下げる.

$$ idf = log\frac{全文書数}{単語Xを含む文書数} $$

 

tf-idfはtf * idfしたもの.

 

実装

先輩はscikit-learnでtf-idfを実装したとおっしゃっていたので今後試す.

qiita.com

参考

dev.classmethod.jp