今回は、Python isna()とPython notna()関数について詳しく説明します。
では、さっそく始めましょう。
データサイエンスや機械学習の分野では、データ解析や前処理が非常に重要な役割を果たします。
データ前処理の全過程において、欠損値解析は開発に向けた重要なステップです。
欠損値分析とは、ソースデータから欠損値またはNA値を検出し除去するプロセスを意味します。
そのため、データセットに欠損値があることを検出する方法は数多くあります。
本日は、欠損値の存在を検出するための2つの簡単な関数についてご紹介します。
- Python isna()関数
- Python notna()関数
このトピックでは、Bike Rental Prediction データセットを使用します。
データセットはこちらです。
それでは、以下に1つずつ見ていきましょう。
この記事もチェック:データ解析のためのPandasの便利な数学のメソッドを紹介していく
1. Pythonのisna()関数
Python isna()関数を使用すると、データセット内のNULLまたはNA値、すなわち欠損値の存在を簡単に検出することができます。
これは欠損値を探すブーリアン関数で、欠損値を検出した場合はTRUEを返します。
以下の構文を見てください。
dataframe.isna() |
例えば、以下の様になります。
この例では、欠測値の存在を確認するために isna() 関数を使用しました。
データには欠損値がないため、FALSE を返します。
import pandas
import os
#Changing the current working directory os.chdir( "D:/Ediwsor_Project - Bike_Rental_Count" )
BIKE = pandas.read_csv( "day.csv" )
BIKE.isna() |
結果は以下の通りです。
dataframe.notna() |
2. Python notna() 関数
Python notna()関数を使うと、欠損値やNA値がないデータを簡単に抽出することができます。
notna() 関数は、データに欠損値がない場合は TRUE を返し、そうでない場合は FALSE を返します (NA 値がある場合)。
構文は以下の様な感じです。
import pandas
import os
#Changing the current working directory os.chdir( "D:/Ediwsor_Project - Bike_Rental_Count" )
BIKE = pandas.read_csv( "day.csv" )
BIKE.notna() |
例えば、以下の様になります。
上で見たように、データセットには欠損値がない。
従って、notna()関数はTRUEを返す。
を出力せよ。
まとめ
何か疑問があれば、お気軽にコメントください。
要約すると、Pythonのisna()とnotna()関数を使うと、特に巨大なデータセットで欠損値の存在を素早くチェックすることができます。
また、欠損値を処理するために必要な救済策を簡単に計画することができます。
Pythonプログラミングに関連するこのような投稿をもっと見るには、私たちにご期待ください。