pandasを用いたデータサマリの確認

import pandas as pd

# 売上データのcsvファイルの読込み
df_log = pd.read_csv('dataset/product_log.csv')
# 件数
len(df_log)

40 →件数のみが表示される

# shape はデータの形状を表します。DataFrame では(行数,列数)になります
df_log.shape[0]

40

# 型やメモリの確認
df_log.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40 entries, 0 to 39
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Date     40 non-null     object 
 1   Num      36 non-null     float64
 2   Product  40 non-null     object 
dtypes: float64(1), object(2)
memory usage: 1.1+ KB
# サマリ表示
df_log_describe = df_log.describe()
df_log_describe
# 50%点は、median 
df_log.Num.median()

4.0

# 四分位数の代わりに  30%点と60%点を表示します
df_log.describe([0.3, 0.6])
# 50%点は必ず表示されます
df_log.describe([])
# デフォルトでは、数値のみ表示されますが、include='all' で数値以外も表示されます
# uniqueは重複を除いた種類数を、freqは最頻値の個数を表示します
# Dateのtopは、(setを使っているため)表示が変わることがあるのでご注意ください
df_log.describe(include='all')

コメント

タイトルとURLをコピーしました