%matplotlib inline
import pandas as pd
# 売上データのcsvファイルの読込み
df_case_log = pd.read_csv('dataset/case_log.csv')
箱ひげ図
# 箱ひげ図の表示
df_case_log.boxplot(showmeans=True);
# 箱ひげ図の範囲を広げる
df_case_log.boxplot(showmeans=True, whis=2);
showmeans=True
オプションをつけると、▲で示される平均を追加で表示します。第3四分位数 + 1.5×IQR
を超えるか、第1四分位数 - 1.5×IQR
未満の値は、
外れ値となり○で表示されます(ただし、IQR = 第3四分位数 - 第1四分位数
)。
1.5の値は、whis
オプションで変更できます。
ヒストグラムの作成
%matplotlib inline
import pandas as pd
# 売上データのcsvファイルの読込み
df_case_log = pd.read_csv('dataset/case_log.csv')
# ヒストグラムの確認
df_case_log.hist(bins=10, range=(0, 10));
#一列のみのヒストグラムを作成するには
1列のDataFrameは、DataFrame[[列名]]で作成できます。
例)
df1[['Price']].hist(range=(1000,10000), bins=90);
DataFrame.hist
でヒストグラムを表示できます。bins
オプションで区間数を、range
オプションで表示範囲を指定できます。
# 散布図
df_case_log.plot.scatter('Num', 'Case');
DataFrame.plot.scatter(列名1, 列名2)
で、列名1と列名2の散布図を表示できます。
あるいは、plt.scatter(Seriesのオブジェクト1, Seriesのオブジェクト2)
でも表示できます。
# 散布図行列
pd.plotting.scatter_matrix(df_case_log);
pandas.plotting.scatter_matrix
でDataFrameの散布図行列を表示できます。
散布図行列は、対角線にヒストグラムを、対角線以外に散布図を表す行列です。
%matplotlib inline
from pandas.plotting import scatter_matrix
scatter_matrix(df)
#簡単にするにはこれで良い。
# 相関行列
df_corr = df_case_log.corr()
df_corr
コメント