import matplotlib
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
%matplotlib inline
titanic_df = pd.read_csv('titanic.csv')
titanic_df.head(5)
pairplotとは、データ内の分布と関係(相関図)を手早く調べるためのメソッドである。
pairplotで調べられるのは、数値データだけであることには注意すべきだが、データを概観する上で非常に役立つ。
その際、扱うカラムはSurvived", "Pclass", "SibSp", "Age", "Fare"
の5つで、生存したかどうかで色分けをせよ。
また、青を基調とし、マーカーを+
、サイズを2インチに指定せよ。
sns.pairplot(titanic_df,vars=["Survived", "Pclass", "SibSp", "Age", "Fare"],hue="Survived",palette="Blues",markers="+",height=2)
- pairplotの代表的な引数
- data:使用する元のデータ pandas.DataFrameオブジェクト。
- vars:扱いたいカラム名のリストを取る。
- hue:色分けの基準としたいカラム名をもとのデータから選択。
- palette:色の指定(代表的には、Purples、Reds、Blues、Greens、Orangesなどがある)
- markers:マーカーの指定(matplotlibのmarkersを調べてほしい。)
- size:単位はインチ。
heatmapによる可視化
heatmapとは、2次元データの個々の値を色や濃淡を用いて、表現したグラフである。
sns.heatmap(titanic_df.corr(),annot=True,cmap="Purples",vmax=1,vmin=-1,center=0,square=True)
- heatmapの代表的な引数
- data:使用する元のデータ pandas.DataFrameオブジェクト。corr()メソッドで求めたものを使うことが多い。
- annot:Trueにすると数値が表示される。
- cmap:色の指定(代表的には、Purples、Reds、Blues、Greens、Orangesなどがある)
- vmax:最大値
- vmin:最小値
- center:中央値
- square:Trueにすると正方形に整形され表示される。
data以下は指定する必要はなく、指定しない場合は、デフォルト値が使われる。
コメント