PythonのNumpyやPandasや不要な行や欠損値を削除する方法

2023.01.18 2022.08.14

今日はこのチュートリアルで、Pythonでデータをきれいにする方法と、なぜそれが重要なのかを学びます。

データクリーニングとは？

データクリーニングとは、データベースに渡す必要のあるすべてのデータを、データの欠落、不正確、不正確な書式、重複、無関係な情報を更新または削除することによって、きれいにするプロセスのことです。

長年にわたってクリーニングされていないデータが積み重なるのを避けるため、定期的にデータクリーニングを実施する必要があります。

データのクリーニングが適切に行われないと、マーケティング効果の低下を含め、大きな損失が発生する可能性があります。

したがって、データのクリーニングは、主要な結果におけるすべての不正確さを避けるために、本当に重要になります。

効率的なデータクリーニングは、より少ないエラーを意味し、その結果、顧客を幸せにし、従業員の不満を軽減します。

また、生産性の向上とより良い意思決定につながります。

では、インターネットからダウンロードしたランダムな csv ファイルに対してデータクリーニングを実行してみましょう。

データセットの名前は ‘San Francisco Building Permits’ です。

データを処理する前に、まずファイルにデータをロードします。

データロードのためのコードを以下に示す。

import numpy as np

import pandas as pd

data = pd.read_csv('Building_Permits.csv',low_memory=False)

まず、必要なモジュールがすべてインポートされ、次にcsvファイルがロードされる。

私は low_memory というパラメータを追加しましたが、これはプログラムが巨大なデータセットのためにメモリエラーに陥らないようにするためのものです。

このデータセットには198900件の許可証の詳細と43のカラムが含まれています。

データセットのカラムは以下の通りです。

データセットを見てみると、非常に多くのカラムがあることがわかる。

しかし、処理中にいくつかのカラムをスキップすることができる。

ここでは、TIDF Compliance、Fire Only Permit、Unit Suffix、Block、Lotというランダムなカラムを削除することにします。

columns_to_drop=['TIDF Compliance', 'Fire Only Permit', 'Unit Suffix', 'Block','Lot']

data_dropcol=data.drop(columns_to_drop,axis=1)

まず、データセットから削除するすべてのカラム名を格納したリストを作成します。

次の行では drop 関数を使用し、作成したリストを関数に渡しています。

また、 axis パラメータを渡しています。

このパラメータには、0 (行単位でのドロップ) または 1 (列単位でのドロップ) のいずれかを指定します。

このコードを実行すると、新しいデータには43列ではなく38列が含まれるようになります。

欠損値のある行の直接削除に移る前にまず、データセットにどれだけの欠損値があるのかを分析しましょう。

そのために、以下のようなコードを使用します。

no_missing = data_dropcol.isnull().sum()

total_missing=no_missing.sum()

コードを実行したところ、データセットには1670031個の欠損値があることがわかりました。

欠損値が多いので、欠損値のある行を削除する代わりに、欠損値が最大となる列を削除します。

そのためのコードを以下に示します。

drop_miss_value=data_dropcol.dropna(axis=1)

このコードでは、最大の列が削除され、結果のデータセットには10列しか残らなかった。

データセットからほとんどの情報が削除されましたが、少なくともデータセットは適切にクリーニングされました。

すごい! これで、データクリーニングについて、そしてライブデータセットでデータクリーニングを行う方法について理解できました。

何か学んでいただけたでしょうか？お読みいただきありがとうございました。