pandas.read_ファイル形式()で、ファイルを読み込み、DataFrameに変換できます。
- Excel:
read_excel
- テキストファイル:
read_table
- HTMLのtableタグ:
read_html
- JSON:
read_json
- リレーショナルデータベース:
read_sql
- Google BigQuery:
read_gbq
import pandas as pd
# csvファイルを読み込んでデータフレームに展開
df = pd.read_csv('dataset/stationery.csv', encoding='utf-8')
df
df.head() # 先頭の5行のみ
DataFrame.head
は先頭の5行を取り出します。DataFrameの中身をちょっと確認するのに便利です。df[:5]
のようにスライスも使えます。
様々なデータの取り込み
# 大きなサイズのcsvファイルの読込み
df_log_big = pd.read_csv('dataset/product_log.csv', low_memory=False)
df_log_big.head()
# 日本語などでUTF-8を使用している時
df_log1_utf8 = pd.read_csv('dataset/product_log.csv', encoding='utf-8')
df_log1_utf8.head()
UTF–8 (UCS Transformation Format 8) は World Wide Web において最も一般的な文字エンコーディングです。 UTF–8 は、すべての標準 Unicode 文字を表現することができます。
# 日本語などでShift_JIS(shift_jis)を使用している時
df_log_sjis = pd.read_csv('dataset/product_log.csv', encoding='shift_jis')
df_log_sjis.head()
コメント