PandasのDataFrameは、美しいものです。
PythonのDataFrameは、データの取り扱いを非常に使いやすくします。
Pandasを使って大きなデータセットをインポートし、それを効果的に操作することができます。
CSVデータをPandasのDataFrameに簡単にインポートすることができます。
この記事もチェック:PythonとPandasで大規模データセットを扱うコツ4つ
しかし、Pythonのデータフレームとは何でしょうか、そしてどのように使うのでしょうか?
データフレームは2次元のラベル付きデータ構造で、さまざまなタイプのカラムを持つことができます。
DataFrameは様々な分析に利用することができます。
データセットが大きすぎて、一度にデータセット全体を見ることができないことがよくあります。
その代わりに、Dataframeのサマリーを見たいと思います。
要約では、データセットの最初の5行を得ることができ、またデータの簡単な統計的要約を得ることができます。
それ以外にも、データセットにある列の種類についての情報を得ることができます。
この記事では、PythonでDataFrameの要約を表示する方法を学びます。
この記事では、California Housing dataset をサンプルデータセットとして使用する予定です。
この記事もチェック:PandasでデータフレームをHTML形式で表示する
1. PandasのDataframeでデータセットをインポートする
まずはデータセットをPandasのDataframeにインポートしてみましょう。
PandasのDataframeにデータセットをインポートするには、以下の行を使用します。
import pandas as pd
housing = pd.read_csv( 'path_to_dataset' )
|
これは、データセットを DataFrame として変数 ‘housing’ に格納します。
それでは、Pandasで利用できる様々なタイプのデータサマリーを見てみましょう。
2. 最初の5行を取得する
データセットを初めてインポートした後、データサイエンティストはデータフレームの最初の5行を見るのが一般的です。
これは、データがどのようなものであるかについての大まかなアイデアを与えてくれます。
Dataframeの最初の5行を出力するには、以下のコードを使用します。
housing.head() |
次の行を実行すると、.Dataframe の出力が表示されます。
import pandas as pd
housing = pd.read_csv( 'path_to_dataset' )
housing.head() |
Dataframeの最初の5行を表示するための完全なコードは、以下のとおりです。
housing.describe() |
3. 統計的サマリーの取得
Dataframeの統計的なサマリーを取得するには、pandasが提供する.describe()メソッドを使用します。
統計的なサマリーを表示するコードラインは以下の通りです。
import pandas as pd
housing = pd.read_csv( 'path_to_dataset' )
housing.describe() |
この行を実行すると、以下のような出力が得られます。
housing.info() |
完全なコードは以下の通りです。
housing.count() |
出力は、平均、標準偏差、最小、最大、百分率のような量を表示します。
以下のすべての例で同じコードを使用することができ、各例で言及されているように関数名を置き換えるだけです。
3. データの簡単な説明を取得する
テーブル内のデータの種類の簡単な説明を取得するには、Pandasが提供する.info()メソッドを使用します。
次のようなコードで説明を得ることができます。
housing.hist() |
出力は以下のようになります。
出力はデータセットの各カラムの行を含みます。
各列のラベルについて、NULL でない項目の数とその項目のデータ型が得られる。
データセット内の列のデータ型を知ることで、そのデータを使ってモデルを学習する際に、より適切な判断ができるようになる。
4. 各カラムのカウントを取得する
Pandasの.count()メソッドを使用すると、各カラムのエントリ数を直接取得することができます。
このメソッドは、次のコードのように使用できます。
出力は以下のようになります。
各列のカウントを表示することで、データに欠落している項目があることを知ることができます。
その後、データのクリーニングを計画することができます。
データセットの各カラムのヒストグラムを取得する
Pandasでは、たった1行のコードで各カラムのヒストグラムを表示することができます。
ヒストグラムを表示するには、次のようなコードを使用します。
上の行を実行すると、次のような出力が得られます。
データサイエンティストは、データをよりよく理解するためにヒストグラムをよく利用します。
この記事もチェック:PythonのライブラリのPandasでカラム名を表示する3つの簡単な方法
まとめ
この記事では、PythonのDataframeで取得できる様々なタイプのクイックサマリーについて説明しました。
楽しく学んでいただけたら幸いです。