機械学習

ハイパーパラメーターチューニング 機械学習

ランダムフォレストのパラメータをチューニングrf_modelRandomForestClassifier(random_state=0)ランダムフォレストで今回チューニングするパラメータmax_depth :決定木の深さの最大値n_esti...
機械学習

学習と予測 機械学習

y_target=fnData['default.payment.next.month']x_explanatory=fnDatax_explanatory=x_explanatory.drop('default.payment.next....
機械学習

機械学習実践 特徴量エンジニアリング

仮説や前処理した結果から得られた知見データサイエンスの知識に基づく知見ドメイン知識に基づく知見などを用いて、新たな説明変数を構築することです。説明変数が増えることにより、機械学習のモデルとしては精度向上に貢献する強力なツールとなりえますが、...
機械学習

機械学習実践 次元削除と可視化

特徴量の作成カテゴリカルデータの前処理などを行ったので再度次元削減を行い、結果を確認してみますPCAでデータを2次元に圧縮して可視化pca2=PCA(n_components=2)normalizeData=StandardScaler()...
機械学習

機械学習 データの可視化 python

seabornを使ったデータの可視化sns.countplot()を用いて正解ラベルの割合を確認可視化をすると正解ラベルが不均衡データであることが視覚的にも分かりますsns.countplot(x='default.payment.next...
機械学習

機械学習実践 前処理 python

importnumpyasnpimportpandasaspdimportpandas_profilingaspdpimportmatplotlib.pyplotasplt%matplotlibinlinefrommpl_toolkits....
機械学習

機械学習実践 学習データ 検証データ

【Point】一般的な機械学習のモデルの生成の流れ与えられたデータを学習データ、検証データに分割学習データを使ってモデルのパラメータをチューニング検証データでモデルの精度を測る機械学習タスクの第一歩としてはデータを学習データと検証データに分...
機械学習

機械学習実践 データの初期解析

パッケージのダウンロードとインポートimportnumpyasnp#!pipinstallnumpy#!condainstallnumpyimportpandasaspd#!pipinstallpandas#!condainstallpan...
Numpy

size Numpy

sizeは行列の全要素の数を求めます。importnumpyasnpA=np.array([[0,0,1],[1,0,0]])shape=A.shapesize=A.sizeprint(shape)#(2,3)print(size)#6si...
機械学習

k-meansとk-means++

【k-meansのアルゴリズム】分割するクラスター数Kを決めるクラスターの中心点の初期値をランダムにK個選択する全てのデータ点と各中心点の距離を測るそれぞれのデータ点を最も近い中心点のクラスターに分類する。各クラスターのデータ点の重心を求め...