2022-05

Dataframe

agg():集約方法に辞書を指定

DataFrame.agg()では、列ごとに別の集約値を指定できます。次のように、引数で辞書を指定します。df.agg(辞書)辞書のキーには、列名を指定します。辞書の値には、これまで指定してきたような関数名や関数名のリストを指定します。※ ...
Dataframe

agg():複数の集約値を一括で計算

agg()では、複数の集約値を一括で計算できます。次のように、集約に使う関数名のリストを渡します。df.agg(関数名のリスト)agg()の戻り値は下記のようになります。DataFrame.agg()Series.agg()引数が関数名Se...
Dataframe

agg():データの集約

agg()は、次のようにして使います。df.agg(func=集約に使う関数,axis=計算の軸)引数の説明func:集約に使う関数を指定します。axis:処理の方向を指定します。0がインデックスで列ごとの集約になり、1が列名一覧で行ごとの...
Dataframe

基本的な統計量の求め方②

ここで上げたメソッドはすべて欠損値が対象外になっています。count():個数nunique():ユニークな値の数mode():すべての最頻値value_counts():種類ごとの出現回数具体例で確認しましょう。以下のdfを使います。頻度...
Dataframe

基本的な統計量の求め方①

本クエストでは、describe()で取得した統計量を個別に取得する方法を学びます。まずは数値の列について、describe()で表示される項目を、個別に取得してみましょう。ここでは、下記のSeriesのメソッドを確認します。写経では確認し...
Dataframe

sort_values:複数の列を基準にしたソート

複数の列を基準にしてソートすることもできます。下記のようにします。df.sort_values(列名のリスト)列名のリストを指定する場合、先に書いた方の列の値が優先されます。具体例で確認しましょう。下記の、処理すべきタスク一覧を使います。T...
Dataframe

sort_values:列を基準にしたソート

データ分析では、データを並べ替えて確認したり処理したりしたい場面があります。たとえば、次のようなケースです。顧客のデータを、総購入金額が高い順で並べ替えて確認する毎日の売上のデータを、日付が新しい順で並べ替えて確認する試験結果のデータを、点...
Dataframe

value_count 種類ごとの出現割合

value_counts()では下記のように引数によっていろいろな数え方ができます。引数normalize=True:出現割合を取得引数ascending=True:少ない順(昇順)に取得引数subset=列名や列名のリスト:特定の列の結果...
Dataframe

Value_count 種類ごとの出現回数

種類ごとに何回出現しているかを取得します。具体例で確認しましょう。前問と同じく、惣菜店の販売履歴を表した以下のdfを使います。DateItemNum02022/04/02弁当A212022/04/02中華B322022/04/03中華B13...
Dataframe

データの確認:ユニークな値

大量のデータをそのまま見ると、どのような種類の値があるかがわかりにくいです。このような時、ユニークな値を確認することで、データの種類を把握しやすくなります。具体例で確認しましょう。惣菜店の販売履歴を表した以下のdfを使います。DateIte...