未分類 クラスタリングをする 文章からベクトル形式のBoWをbowvec変数に計算できました。この情報を使ってクラスタリングしてみましょう。クラスタリングは、sklearn.cluster.KMeansを使います。%run3.ipynbCounter({'する':3,'... 2022.03.29 未分類
python code BoWをベクトル表現にする 分析するためには、BoWをベクトル表現に変える必要があります。手順は以下のようになります。全単語を求めます全単語の順番を値とする辞書を作成します全単語数の次元数からなる単位行列を作成します辞書形式のBoWを多次元のベクトルに変換します要素は... 2022.03.29 python code
python code 形態素解析 特定の単語に絞る 形態素解析では、文章の特徴を分析するために、単語の品詞を求めます。ここでは、BoWの対象を名詞と動詞に限定します。対象を絞ることで、特徴が使いやすくなります。データは、下記の2冊の小説の文章の抜粋が入ったdata.csvを使います。坊っちゃ... 2022.03.28 python code
python code 小説のBoWを計算する data.csvに下記の2冊の小説の文章の抜粋が入っています。このテキストからBoWを計算しましょう。坊っちゃん:夏目漱石著銀河鉄道の夜:宮沢賢治著文章の抜粋は、Content列に入っています。各行に400文字程度の文章が入っています。da... 2022.03.28 python code
python code 基本形を割り出して使えるようにする 簡単なBoWの計算を行ってきました。BoWを分析するには、同種の単語を同じと解釈しましょう。具体的には、「します」を「する・ます」と解釈して「する」と「ます」でBoWを作ります。janomeでは解析した結果から、基本形(base_form)... 2022.03.28 python code
python code Bag of Wordsを計算する このパートでは、文章をクラスタリングすることが目標です。そのためには、文章をデータ化して特徴量にしないといけません。前回、日本語の文章から、単語のリストを取得できました。ここでは、単語のリストからBagofWords(以降BoW)という特徴... 2022.03.28 python code
python code 形態素解析:わかち書き 日本語処理のためには、文章を単語に分解する必要があります。単語に分解することをわかち書きといいます。本パートでは、janomeという形態素(けいたいそ)解析のライブラリーを使います。※「通常の文章を形態素に分解して品詞等を判別すること」を形... 2022.03.28 python code
python code AICを使った変数選択 ステップワイズ AICを使った変数選択の方法として、ステップワイズ法を学習します。ステップワイズ法は、「たくさんの説明変数の中から汎化性能の高い説明変数の組み合わせを求める」アルゴリズムで、勘によらずに良いモデルを求められます。ステップワイズ法は、以下の種... 2022.03.28 python code
python code lru_cacheの使い方 lru_cacheは、fuctoolsライブラリーに定義されているデコレーターです。LRUは、LeastRecentlyUsedの略で、最も直近で使われていないデータを最初に捨てるキャッシュアルゴリズムです。ここでは、同じ引数であれば、結果... 2022.03.22 python code
python code AICを使ったモデル作成 赤池情報量規準(Akaike'sInformationCriterion;AIC)は、元統計数理研究所所長の赤池弘次先生が考案した統計モデルの良さを評価するための指標です。小さいほど良いといえます。AICの特徴として過学習を避けるしくみがあ... 2022.03.22 python code