seaborn pairplotの使い方

import matplotlib
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
%matplotlib inline

titanic_df = pd.read_csv('titanic.csv') 
titanic_df.head(5)

pairplotとは、データ内の分布と関係(相関図)を手早く調べるためのメソッドである。

pairplotで調べられるのは、数値データだけであることには注意すべきだが、データを概観する上で非常に役立つ。

その際、扱うカラムはSurvived", "Pclass", "SibSp", "Age", "Fare"の5つで、生存したかどうかで色分けをせよ。

また、青を基調とし、マーカーを+、サイズを2インチに指定せよ。

sns.pairplot(titanic_df,vars=["Survived", "Pclass", "SibSp", "Age", "Fare"],hue="Survived",palette="Blues",markers="+",height=2)
  • pairplotの代表的な引数
    • data:使用する元のデータ pandas.DataFrameオブジェクト。
    • vars:扱いたいカラム名のリストを取る。
    • hue:色分けの基準としたいカラム名をもとのデータから選択。
    • palette:色の指定(代表的には、Purples、Reds、Blues、Greens、Orangesなどがある)
    • markers:マーカーの指定(matplotlibのmarkersを調べてほしい。)
    • size:単位はインチ。

heatmapによる可視化

heatmapとは、2次元データの個々の値を色や濃淡を用いて、表現したグラフである。

sns.heatmap(titanic_df.corr(),annot=True,cmap="Purples",vmax=1,vmin=-1,center=0,square=True)
  • heatmapの代表的な引数
    • data:使用する元のデータ pandas.DataFrameオブジェクト。corr()メソッドで求めたものを使うことが多い。
    • annot:Trueにすると数値が表示される。
    • cmap:色の指定(代表的には、Purples、Reds、Blues、Greens、Orangesなどがある)
    • vmax:最大値
    • vmin:最小値
    • center:中央値
    • square:Trueにすると正方形に整形され表示される。

data以下は指定する必要はなく、指定しない場合は、デフォルト値が使われる。

コメント

タイトルとURLをコピーしました