python code 手書き文字の画像を認識する importpandasaspd#データの読み込みdf=pd.read_csv('./input/mnist.csv.zip')df.head()#1行目のデータをとりだしd=df.iloc[0,:-1].to_numpy()#1行のデータ... 2022.02.28 python code
python code 文章から抽出して判定する 以下のようにして、DataFrame dfの文章の列textを特徴行列に変換できます。fromsklearn.feature_extraction.textimportCountVectorizercv=CountVectorizer()X... 2022.02.28 python code
python code 機械学習の演習 結果の標準偏差、モデルセレクションについてimportpandasaspddf=pd.read_csv('./input/bank.csv')#名義尺度を除くdf=df.drop(labels=["職種","結婚","学歴","連絡手段",... 2022.02.22 python code
python code 順序がないもの:one-hotエンコーディング ここでは名義特徴量であるcolorも整数値にエンコーディングすることを考えます。もし、下記のようにエンコーディングしてしまうと、本来順序がないデータにも関わらず、「red>green>blue」のような大小の関係が成り立ってしまいます。bl... 2022.02.22 python code
python code 順序特徴量のマッピング カテゴリーデータは主に以下の2種類に区別されます。順序特徴量名義特徴量順序特徴量はTシャツのサイズの「XL>L>M>S」のように数値ではないが順序付けできるうようなデータのことを指します。一方でTシャツの色の「赤」「青」「緑」「黄色」のよう... 2022.02.22 python code
python code 欠損値の補充 欠損値を補完する一般的な方法は平均値補完(meanimputation)です。ある列に欠損値(NaN)が存在する場合に、その列の値の平均値を欠損値(NaN)と置き換えるというものです。このように補完する時はscikit-learnのSimp... 2022.02.22 python code
python code 欠損値の対応 欠損値の除去 機械学習ではアルゴリズムへ入力する前にデータセットを精査し、以下のように前処理することでデータの品質をあげることが大切です。欠測値を削除、補填する文字列を対応する数値に置き換える数値を標準化する欠損値の確認#行・列ごとに欠損値をひとつでも含... 2022.02.22 python code
python code SVMでの曲線での分離 SVM(サポートベクターマシン)のSVC(SVM分類)は、ロジスティック回帰と同じように線形に分類するアルゴリズムです。ですが、「カーネル化」という手法を組み合わせたカーネルSVMを使うことで非線形分離問題にも対応できます。以前ロジスティッ... 2022.02.21 python code
python code 過学習を避けるために 決定木はデータセットに合わせて過度に深くなっています。ここでロジスティック回帰のクエストでC=というハイパーパラメーターを指定したことを思い出してください。ロジスティック回帰のハイパーパラメーターについては、解説で説明します。Logisti... 2022.02.21 python code
python code 決定木を用いた解析 データの読み込みデータのプロット説明変数(X)と目的変数(y)の取得トレーニング・テスト用にデータを分割モデル作成とトレーニングデータの学習テストデータでスコア算出学習した領域のプロット%matplotlibinlineimportnump... 2022.02.21 python code