seabornはmatplotlibを補助する可視化モジュールだ。
seabornのメリットは、使用頻度の高いグラフを素早く、短いコードで書けることだ。
細かい調整は難しく、matplotlibを用いる方が無難だが、大まかに情報を把握したい場合は非常に有用だ。
import pandas as pd
titanic_df = pd.read_csv('titanic.csv', encoding="shift-jis")
titanic_df.head(5)
PassengerId | Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | 0 | 3 | Braund, Mr. Owen Harris | male | 22.0 | 1 | 0 | A/5 21171 | 7.2500 | NaN | S |
1 | 2 | 1 | 1 | Cumings, Mrs. John Bradley (Florence Briggs Th… | female | 38.0 | 1 | 0 | PC 17599 | 71.2833 | C85 | C |
2 | 3 | 1 | 3 | Heikkinen, Miss. Laina | female | 26.0 | 0 | 0 | STON/O2. 3101282 | 7.9250 | NaN | S |
3 | 4 | 1 | 1 | Futrelle, Mrs. Jacques Heath (Lily May Peel) | female | 35.0 | 1 | 0 | 113803 | 53.1000 | C123 | S |
4 | 5 | 0 | 3 | Allen, Mr. William Henry | male | 35.0 | 0 | 0 | 373450 | 8.0500 | NaN | S |
seabornのインポート
import seaborn as sns seabornをインポート SNSと省略される
import matplotlib.pyplot as plt
%matplotlib inline
seabornの数あるメソッドの中でも、使用頻度の高いcatplotを紹介する。
catplotは、特徴量の相関を把握する際に使われる
sns.catplot(x="Sex",y="Survived", data=titanic_df, kind="bar")
- catplotの代表的な引数
- data:使用する元のデータ 今回の場合は、titanic_dfに読み込んだデータを入れている
- x:x軸に使用するデータ。使用する元のデータのカラム名から選択、
- y:y軸に使用するデータ。使用する元のデータのカラム名から選択
- kind:作成するグラフの種類を指定。棒グラフや箱ひげ図など様々なグラフを作成できる
- hue : 次回扱う
- kindに代入できる代表的な値
- 棒グラフ:bar
- 箱ひげ図:box
- ポイントプロット:point(それぞれの平均値を直線で結んだグラフで、直感的にデータを可視化したいときに使われる)
- ストリップチャート: strip(散布図、どのようなデータがあるのか単純に表示したいときに使われる)
グラフのカスタマイズ
graph = sns.catplot(x="Sex",y="Survived", data=titanic_df, kind="bar",label=["male","female"])
graph.set_xlabels("Gender")
graph.set_ylabels("Survived Probability")
plt.title("Graph")
plt.show()
- x軸名を指定する : 対象となるグラフ.set_xlabels(指定したい名前)
- y軸名を指定する : 対象となるグラフ.set_ylabels(指定したい名前)
気になる点としては、set_xlabelsのsだろうか。
実はset_xlabelsは、複数のグラフに使うことが基本想定されているのである。ただし、1つのグラフであっても使うことができるので安心してほしい。
コメント