import pandas as pd
# 売上データのcsvファイルの読込み
df_log = pd.read_csv('dataset/product_log.csv')
# 件数
len(df_log)
40 →件数のみが表示される
# shape はデータの形状を表します。DataFrame では(行数,列数)になります
df_log.shape[0]
40
# 型やメモリの確認
df_log.info()
<class 'pandas.core.frame.DataFrame'> RangeIndex: 40 entries, 0 to 39 Data columns (total 3 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Date 40 non-null object 1 Num 36 non-null float64 2 Product 40 non-null object dtypes: float64(1), object(2) memory usage: 1.1+ KB
# サマリ表示
df_log_describe = df_log.describe()
df_log_describe
# 50%点は、median
df_log.Num.median()
4.0
# 四分位数の代わりに 30%点と60%点を表示します
df_log.describe([0.3, 0.6])
# 50%点は必ず表示されます
df_log.describe([])
# デフォルトでは、数値のみ表示されますが、include='all' で数値以外も表示されます
# uniqueは重複を除いた種類数を、freqは最頻値の個数を表示します
# Dateのtopは、(setを使っているため)表示が変わることがあるのでご注意ください
df_log.describe(include='all')
コメント