tf-idf
tf-idf
tf-idfは単語の重要度を表すための式.文書の特徴語を抽出するのにこの式を使います.
if
単語の出現頻度.よく出てくる単語は重要とし,値を高くする.
$$ tf = \frac{ 文書Aにおける単語Xの出現頻度 }{ 文書Aにおける全単語の出現頻度の和 } $$
idf
逆文書頻度.どんな文書にもよく出てくるようであれば重要度は下げる.
$$ idf = log\frac{全文書数}{単語Xを含む文書数} $$
tf-idfはtf * idf
したもの.
実装
先輩はscikit-learnでtf-idfを実装したとおっしゃっていたので今後試す.