2022-04

Dataframe

CSVファイルの読み込み 列ごとの型の指定

read_csv()はデフォルトでは、各列のデータの値から型を自動的に推測して読み込みます。たとえば、次のようなファイルについて考えてみましょう。CSVファイルsample_1.csvA,B,C東京,10,1.1大阪,20,2.1名古屋,3...
Dataframe

CSV読み込み コーディングの指定

read_csv()では、引数encodingを使って文字エンコーディングを指定できます。#文字エンコーディングを指定して読み込みdf=pd.read_csv(ファイルパス,encoding=文字エンコーディング)引数encodingでは、...
Dataframe

CSVファイルの読み込み 区切り文字

CSVファイルでは、データの区切りをカンマ(,)で表現しています。類似したフォーマットに、カンマの代わりに半角スペースで区切るケースや、タブ区切りで区切るケース(TSVファイル)もあります。このような場合、read_csv()では、引数se...
Dataframe

ヘッダーがないCSVファイルの読みこみ

前回の問題では、read_csv()の基本の動作について学びました。前問で扱ったCSVファイルには、列名一覧に相当するヘッダーが1行目にありました。しかし、実務で扱うCSVファイルではヘッダーがない場合もあります。read_csv()では、...
Dataframe

csvファイルの読み込み

pandasでCSVファイルを読み込むには、read_csv()関数を使います。次のように、第1引数に読み込みたいファイルのパスを指定します。df=pd.read_csv(ファイルパス)read_csv()にはたくさんのオプションがあります...
Dataframe

DataFrame 概要 describe

DataFrameには、データの概要を知るための便利なメソッドがあります。それは、describe()です。以下のdfで、データの概要を確認しましょう。NameAge0Alice171Bob242Carol29実行すると、下記を返します。d...
Dataframe

DataFrame 形状 shape

DataFrameは、2つの軸(インデックスと列名一覧)を持っています。「各軸ごとのサイズをタプルにしたもの」を、pandasではDataFrameの形状といいます。インデックスと列名一覧のサイズなので、行数と列数に相当します。同様に、Se...
Dataframe

DataFrameの要素の形

Seriesは、要素の型を属性として持っています。たとえば、整数が格納されたSeriesの場合、要素の型はint64になります。また、Seriesの要素の型は必ず1種類になります。たとえば、整数と浮動小数点数が混じったデータからSeries...
Dataframe

欠損値の個数

データ分析では、主に「欠損値でない値」に対して、計算を行います。したがって、「欠損値が存在するのか」「何個存在するのか」は、分析前に確認すべきです。「欠損値でない値」の個数は、count()で確認できます。欠損値の個数を直接求めるメソッドは...
Dataframe

欠損値の含まれる列、Series

生徒のテストの点数を表すデータを考えてみましょう。Aliceさんは、テストを欠席したので、点数がありません。このとき、点数を0としたのでは、本当に0点だったのか欠席したのか区別がつきません。このような「データが存在しないことを表す値」が、欠...