Pythonのcatboostの使い方|2値分類問題を解いてみた

2023.01.18 2022.08.12

この記事では、Catboostモジュールと、もう少し複雑な概念である CatboostClassifier について学びます。

それでは始めましょう。

catboostモジュールとは？
Catboost分類器の実装
まとめ

catboostモジュールとは？

CatBoostモジュールは、決定木やその他の機械学習タスクにおいて、高速でスケーラブル、非常に高性能な勾配ブーストシステムであるオープンソースライブラリです。

また、GPUにも対応しており、学習速度を向上させることができます。

Catboostは、kaggleで利用可能な回帰問題や分類問題の範囲に使用することができます。

この記事もチェック：Pythonとtensorflowを使ってニュースを見出しで分類する機械学習をする

Catboost分類器の実装

1. モジュールのインポート

catboostモジュールの簡単な実装では、3つのモジュールをインポートすることになります。

catboostモジュールは明らかに、データを可視化するための matplotlib と、データセットを生成するためのnumpy` モジュールをインポートします。

もし、モジュールのインポートでエラーが発生した場合は、 pip コマンドを使用してモジュールをインストールしてください。

正しいモジュールと正しい関数をインポートするためのコードは以下の通りです。

from catboost import CatBoostClassifier

import matplotlib.pyplot as plt

import numpy as np

2. トレーニングデータとテストデータの準備

次に、catboostモジュールを学習させるためのテストデータを作成し、ランダムポイントを確認するためのテストデータを作成します。

トレーニングデータ

学習データのサンプルを作成するには、平均と共分散の2つの行列が必要です。

平均は点の中心を表し、共分散は点の広がりを表します。

後で、平均と共分散行列を点の数とともに渡して、多変量正規分布を作成します。

2つの異なるクラスのデータを作成するコードは以下のとおりです。

mean1=[8,8]

covar1=[[2,0.7],[0.7,1]]

d2=np.random.multivariate_normal(mean1,covar1,200)
 
mean2=[1,1]

covar2=[[2,0.7],[0.7,1]]

d2=np.random.multivariate_normal(mean2,covar2,200)

テストデータ

学習ポイントを得るために、randomモジュールをインポートし、後で学習済みモデルに渡すための10個のランダムなxとyの座標を生成します。

次に、xとyの座標をforループを使ってリストにまとめます。

そのためのコードを以下に示します。

import random

x_cord_test = [random.randint(-2,10) for i in range(5)]

y_cord_test = [random.randint(-2,10) for i in range(5)]

test_data = []

for i in range(len(x_cord_test)):

    test_data.append([x_cord_test[i],y_cord_test[i]])

モデル準備のための最終学習データ

最後のステップは、2つのクラスのデータを1つのデータフレームに結合して、最終的な学習データを作成することです。

結果のデータの行数は、両方のクラスのデータポイントの合計に等しくなります。

列の数は3列となり、列には点のx、y座標とラベルが格納されます。

すべての値を0としたダミーのデータフレームを作成し、ラベルとともに2つのクラスのデータをデータフレーム内の正しい位置に配置します。

最後に、データのシャッフルを行う。

plt.style.use('seaborn')

plt.scatter(d1[:,0],d1[:,1],color="Red",s=20)

plt.scatter(d2[:,0],d2[:,1],color="Blue",s=20)

for i in test_data:

    plt.scatter(i[0],i[1],marker="*",s=200,color="black")
plt.show()

データビジュアライゼーション – 2

それでは、以下のコードで最終的なデータを可視化してみましょう。

df_rows=d1.shape[0]+d2.shape[0]

df_columns=d1.shape[1]+1
 
df=np.zeros((df_rows,df_columns))
 
df[0:d1.shape[0],0:2]=d1

df[d1.shape[0]:,0:2]=d2

df[0:d1.shape[0],2]=0

df[d1.shape[0]:,2]=1
 
np.random.shuffle(df)

最終的なグラフは以下のようになります。

これで CatBoostClassifier に渡すデータの準備が整いました。

plt.scatter(df[:,0],df[:,1],color="Green")

for i in test_data:

    plt.scatter(i[0],i[1],marker="*",s=200,color="black")
plt.show()

この記事もチェック：半教師付き学習(SSL)を用いてラベルのないデータから分類器モデルを学習するための初心者向けチュートリアルです。

3. catboost モジュールの使用 – CatBoostClassifier

CatBoostClassifierを実装するために、反復回数をパラメータとするモデルオブジェクトを作成します。

また、モデルには GPU を使用する予定なので、パラメータとして tak_type を渡します。

次のステップでは、fit関数を用いて学習データ点とラベルをフィッティングし、モデルを学習させます。

また、各テスト点を predict 関数に渡して、結果を取得します。

model = CatBoostClassifier(iterations=100,task_type="GPU")

model.fit(df[:,0:2],df[:,2],verbose=False)

結果は以下のようになります。

グラフから、かなり正確な結果であることがクロスチェックできます。

(6,3) ==> 0.0
(10,4) ==> 0.0
(6,-2) ==> 0.0
(1,7) ==> 1.0
(3,0) ==> 1.0

この記事もチェック：Pythonでアイリスデータの機械学習|SVMやKNN,決定木、ランダムフォレストでの実装方法を解説

まとめ

本日は、CatBoost という高速で素晴らしい分類器について学ぶことができました。

皆さんも様々なデータセットで試してみてください。

お読みいただきありがとうございました。