簡単なBoWの計算を行ってきました。BoWを分析するには、同種の単語を同じと解釈しましょう。
具体的には、「します」を「する・ます」と解釈して「する」と「ます」でBoWを作ります。
janomeでは解析した結果から、基本形(base_form)を割り出して使えるようになっています。
from janome.tokenizer import Tokenizer
text = 'オリンピックを日本でします'
tokenizer = Tokenizer()
tokens = tokenizer.tokenize(text)
result = [token.base_form for token in tokens]
print(result)
['オリンピック', 'を', '日本', 'で', 'する', 'ます']
出力中で、’し’, ‘ます’ではなく’する’, ‘ます’となるのを確認してください。
このように、基本形を使うときは、wakati=Trueを指定しません。
コメント