python code Dataframeの基本情報 pandasでは、DataFrameの基本情報を確認するための機能が多数用意されています。たとえば、次のようなものです。DataFrameの先頭数行を表示(head())DataFrameの末尾数行を表示(tail())DataFrameの... 2022.04.02 python code
python code Pandas データ取り込み pandasの機能を使って、CSVファイルからデータを読み込んでみましょう。pd.read_csv(ファイルパス)のように書くと、CSVファイルを読み込みDataFrameを生成します。importpandasaspd#CSVファイルからデ... 2022.04.02 python code
python code Pandas Dataframe 基本の操作 DataFrame(データフレーム)とは、2次元の表形式のデータ構造です。pandas.DataFrameクラスを使います。DataFrameの各行には行名が、各列には列名がふられており、これらの名前を使って特定の行・列にアクセスできます。... 2022.04.02 python code
python code BoWをベクトル表現にする 分析するためには、BoWをベクトル表現に変える必要があります。手順は以下のようになります。全単語を求めます全単語の順番を値とする辞書を作成します全単語数の次元数からなる単位行列を作成します辞書形式のBoWを多次元のベクトルに変換します要素は... 2022.03.29 python code
python code 形態素解析 特定の単語に絞る 形態素解析では、文章の特徴を分析するために、単語の品詞を求めます。ここでは、BoWの対象を名詞と動詞に限定します。対象を絞ることで、特徴が使いやすくなります。データは、下記の2冊の小説の文章の抜粋が入ったdata.csvを使います。坊っちゃ... 2022.03.28 python code
python code 小説のBoWを計算する data.csvに下記の2冊の小説の文章の抜粋が入っています。このテキストからBoWを計算しましょう。坊っちゃん:夏目漱石著銀河鉄道の夜:宮沢賢治著文章の抜粋は、Content列に入っています。各行に400文字程度の文章が入っています。da... 2022.03.28 python code
python code 基本形を割り出して使えるようにする 簡単なBoWの計算を行ってきました。BoWを分析するには、同種の単語を同じと解釈しましょう。具体的には、「します」を「する・ます」と解釈して「する」と「ます」でBoWを作ります。janomeでは解析した結果から、基本形(base_form)... 2022.03.28 python code
python code Bag of Wordsを計算する このパートでは、文章をクラスタリングすることが目標です。そのためには、文章をデータ化して特徴量にしないといけません。前回、日本語の文章から、単語のリストを取得できました。ここでは、単語のリストからBagofWords(以降BoW)という特徴... 2022.03.28 python code
python code 形態素解析:わかち書き 日本語処理のためには、文章を単語に分解する必要があります。単語に分解することをわかち書きといいます。本パートでは、janomeという形態素(けいたいそ)解析のライブラリーを使います。※「通常の文章を形態素に分解して品詞等を判別すること」を形... 2022.03.28 python code
python code AICを使った変数選択 ステップワイズ AICを使った変数選択の方法として、ステップワイズ法を学習します。ステップワイズ法は、「たくさんの説明変数の中から汎化性能の高い説明変数の組み合わせを求める」アルゴリズムで、勘によらずに良いモデルを求められます。ステップワイズ法は、以下の種... 2022.03.28 python code