今日はこのチュートリアルでoshashモジュールについて説明します。
私たちのシステムにどのように取り込んで使うことができるかを探ります。
また、この方法が他のアルゴリズムと比較して、性能面でどのような違いがあるのかを分析します。
その後、そのインスタンスをいくつか見て、よりよく理解できるようにします。
では、さっそく始めましょう。
ハッシュ化入門
ハッシュ化とは、関数やアルゴリズムを使って、オブジェクトのデータを代表的な整数値に対応させることです。
これは、キーと値のペアを持つテーブルを使用することで実現されます。
ハッシュ関数は、値に対応するキー(ハッシュキー/ハッシュコードとも呼ばれる)を返すことで、値を迂回するように動作します。
そして、その整数のハッシュコードは、我々が持っている固定サイズにマッピングされる。
このことから、ハッシュ関数とは、可変サイズのデータを固定サイズの値に変換するために用いることができるあらゆる関数を指すと考えることができる。
ハッシュ値、ハッシュコード、または単にハッシュは、ハッシュ関数が返す値です。
さて、ハッシュの基本を理解したところで、モジュール “oshash” に進みます。
オシャッシュモジュールは何が優れているのですか?
効率的なアルゴリズムはいろいろありますが、”Oshash “はハッシングを実現するためにいくつかの異なる手法を探りました。
他のアルゴリズムとは対照的に、その主な目的は、他のアルゴリズムが遅れをとっているときに、良い速度を達成することです。
遅れをとる一番の欠点は、ファイル全体を一度に読んでしまうことです。
“oshash “ではこれは推奨されません。
その代わり、ファイルを断片的に読みます。
しかし、その内部動作やハッシュ関数にはこだわる必要はなかった。
ここでは、その応用に重点を置くことにします。
まず、インストールから始めて、例題に進みましょう。
Oshashモジュールのインストール
pipを使用して、以下のコマンドでインストールできます。
pip install oshash |
Oshashモジュールの実装
さて、インストールが完了したら、どのように使うか見てみましょう。
一つはプログラムファイルでの利用、もう一つはコマンドラインインタフェースでの利用です。
それぞれの例を見てみましょう。
どちらの場合も、ハッシュファイルを返します。
プログラムファイルの構文
1
2
|
import oshash
file_hash = oshash.oshash(<path to video file >)
|
コマンドラインインターフェイスの構文
$ oshash <path to file >
|
先ほどの例ではこのようなテクニックは見られませんでしたが、以下の構文に示すようにバックグラウンドでハッシュが作成されます。
1
2
3
4
5
6
|
file_buffer = open ( "/path/to/file/" )
head_checksum = checksum(file_buffer.head( 64 * 1024 )) # 64KB
tail_checksum = checksum(file_buffer.tail( 64 * 1024 )) # 64KB
file_hash = file_buffer.size + head_checksum + tail_checksum
|
まとめ
あなたはPythonのOshashモジュールについて学びました。
このチュートリアルは気に入りましたか?いずれにせよ、以下のチュートリアルを見てみることをお勧めします。
- xlrdモジュール – PythonでExcelファイルを扱うには?
- pyzbarモジュール。Pythonでバーコードをデコードする
- Python HTTPモジュール – 知っておくべきこと全て!
- Python tabulateモジュール。Pythonで簡単にテーブルを作成する方法とは?
お時間を割いていただき、ありがとうございました! 何か新しいことを学べたでしょうか!