pandasでのデータの読み込み

pandas.read_ファイル形式()で、ファイルを読み込み、DataFrameに変換できます。

  • Excel: read_excel
  • テキストファイル: read_table
  • HTMLのtableタグ: read_html
  • JSON: read_json
  • リレーショナルデータベース: read_sql
  • Google BigQuery: read_gbq
import pandas as pd

# csvファイルを読み込んでデータフレームに展開
df = pd.read_csv('dataset/stationery.csv', encoding='utf-8')
df
df.head() # 先頭の5行のみ

DataFrame.headは先頭の5行を取り出します。DataFrameの中身をちょっと確認するのに便利です。df[:5]のようにスライスも使えます。

様々なデータの取り込み

# 大きなサイズのcsvファイルの読込み
df_log_big = pd.read_csv('dataset/product_log.csv', low_memory=False)
df_log_big.head()
# 日本語などでUTF-8を使用している時
df_log1_utf8 = pd.read_csv('dataset/product_log.csv', encoding='utf-8')
df_log1_utf8.head()

UTF8 (UCS Transformation Format 8) は World Wide Web において最も一般的な文字エンコーディングです。 UTF8 は、すべての標準 Unicode 文字を表現することができます。

# 日本語などでShift_JIS(shift_jis)を使用している時
df_log_sjis = pd.read_csv('dataset/product_log.csv', encoding='shift_jis')
df_log_sjis.head()

コメント

タイトルとURLをコピーしました