PythonのWikipediaモジュールを使ってWikipediaのページを取得する方法

スポンサーリンク

今日はこのチュートリアルで、Wikipediaという新しいモジュールについて学びます。このモジュールは、必要なあらゆる情報を得るために使用することができます

では、始めましょう。

スポンサーリンク

Pythonで作るWikipediaモジュール入門

Python の Wikipedia モジュールは、私たちがよく知っている Wikipedia ウェブサイトからたくさんの情報を取得するために使うことができます。

まずは wikipedia モジュールをプログラムにインポートすることから始めましょう。もしインポートコマンドがエラーを出したら pip` コマンドを使用してモジュールをインストールしたことを確認してください。

Wikipediaからのデータ取得モジュール

では、実際にPythonでwikipediaモジュールを実装する方法を学びましょう。

1. ランダムなページ名の取得

検索するために良いタイトルを選ぶことは、時に大変な作業です。ランダムなタイトルを得るには、 random メソッドを使用します。

このメソッドは、複数のランダムなタイトルが必要な場合に、ページ数をパラメータとして受け取ることができます。この関数はタイトルのリストを返します。

以下はそのコードです。

1
2
import wikipedia
print(wikipedia.random(pages=5))

この関数の出力は以下のように表示されます。

['Bharathi Kannamma', 'Sancergues', 'Live in Gdańsk', 'Allery Sandy', 'Ronald (disambiguation)']

2. 要約の取得

summary` メソッドを使用すると、任意の項目の要約を取得することができます。以下のコードを使用することで、同様のことが可能です。

summary` メソッドは、検索するタイトルを指定する文字列をパラメータとして受け取ります。このメソッドは、指定されたタイトルの文章をいくつか返します。

また、パラメータとして必要な文章数を追加することで、保存されるデータを制限することができます。そのためのコードを以下に示す。

1
2
s1 = wikipedia.summary('Frank Johnson (musician)',sentences=50)
print(s1)

このコードの出力は以下の通りです。

Frank Johnson (c. 1789 – 1871) was an American popular fiddle player and brass band leader based in North Carolina, near Wilmington, United States, for most of the nineteenth century. Although largely forgotten by history books and often confused with composer Francis "Frank" Johnson, he helped define the sound of African-American fiddle and brass-band music in the mid-19th century.
 
 
== Personal life ==
Johnson was born into slavery circa 1789, in North Carolina, and became a free man sometime before 1830. He showed a talent for music early on and established himself as a popular fiddle player for dances. Using money he earned from performances, he bought the freedom of himself, his wife and his children.
A contemporary account of Johnson while performing at a "pic nic" describes him: "To say that he is handsome would not be strictly true, and still, when he is living so full of music that his features follow the changes of his tune, it is fair to say he looks very 'becoming'."He was buried in Pine Forest Cemetery, Wilmington, after a well-attended funeral: "the largest, we think, that has ever occurred in this city, it being estimated that there were at least two thousand persons in the procession, including the colored fire companies in uniform, with standards draped in mourning, the colored Masonic fraternity in regalia, etc., the whole preceded by a brass band."
 
 
== Career ==
Johnson assembled his freed sons and various nephews into an eponymous brass band by 1830. The band consisted of about 15 members. Johnson himself played many instruments, but was known for his mastery of the fiddle, clarinet, and cornet. The Frank Johnson Band was popular with white planters and often played for state fairs, picnics, cotillions, college commencement balls (e.g., at Chapel Hill, North Carolina), and political rallies (but only for Democrats).

3. ウィキペディアの全ページを取得する

Wikipedia からページ全体を取得するために、ページのタイトルをパラメータとして受け取る page 関数を使用します。

この関数は言及されたタイトルのページオブジェクトを返します。さらに、作成されたページオブジェクトからデータを抽出することができます。そのためのコードを以下に示します。しかし、作成されたページオブジェクトを印刷しても、有益な情報は得られません。

ページオブジェクトからデータを取得するためには、そのページから必要な情報を正確に記述する必要があります。

以下のコードを見てください。

1
2
3
4
5
6
7
page_obj = wikipedia.page('Yarwil')
print(page_obj)
print("TITLE OF THE PAGE:
"
,page_obj.original_title)
print("

")

print("CATEGORIES OF THE PAGE CHOOSEN:
"
,page_obj.categories)
print("

")

print("CONTENTS OF THE PAGE INCLUDE:
"
,page_obj.content)

上記のコードの出力は以下のとおりです。

<WikipediaPage 'Yarwil'>
TITLE OF THE PAGE:
 Yarwil
 
 
 
CATEGORIES OF THE PAGE CHOOSEN:
 ['All stub articles', 'Articles with short description', 'Companies based in Bærum', 'Norwegian company stubs', 'Short description matches Wikidata', 'Technology companies of Norway', 'Use dmy dates from January 2014']
 
 
 
CONTENTS OF THE PAGE INCLUDE:
 Yarwil AS is a joint venture between Yara International and Wilhelmsen Maritime Services. The Norwegian registered company provides systems for reduction of NOx emissions from ship engines. The technology is based on the Selective Catalytic Reduction (SCR) method using Urea as a reactant. This method can reduce NOx emissions from ships by as much as 95%.
The company was established as a reaction to the increased focus by the global community on emissions to air from the maritime industry.  New IMO regulations, MEPC 58, are in place, which demand a reduction in NOx emissions from ships globally of 20% by 2011 and 80% by 2016.
There are several different technologies available for the reduction of NOx, however the Selective Catalytic Reduction method is the only known technology that can reach the 2016 target of 80%.
Yarwil was registered on 22 August 2007 and has its headquarters at Lysaker just outside Oslo in Norway.On 21 October 2013 a press release was issued by Yara International stating they had acquired full ownership of Yarwil and that the company would become part of their NOxCare initiative as of 1 January 2014.
 
 
== References ==
 
 
== External links ==
Acticle about Yarwil in Emissions Worldview
Article about Yarwil by Lloyd's List
Article on NOx reduction by Bellona
NOxCare.com

4. 異なる言語でのデータ取得

異なる言語の情報を取得するには、set_lang関数を使用して、パラメータとして言語を指定します。

この関数は、データを指定された言語に変換します。そのためのコードを以下に示します。以下のコードでは、 *French 言語の情報を取得します。

1
2
wikipedia.set_lang("fr")
print(wikipedia.summary('Mickey',sentences="5"))

以下のような出力になります。

Mickey Mouse [mikɛ maus] (en anglais : [ˈmɪki maʊs] ) est un personnage de fiction américain appartenant à l'univers Disney, apparaissant principalement dans des dessins animés, dans des bandes dessinées et des jeux vidéo. Véritable ambassadeur de la Walt Disney Company, il est présent dans la plupart des secteurs d'activité de la société, que ce soit l'animation, la télévision, les parcs d'attractions ou les produits de consommation. Mickey est utilisé comme un vecteur de communication et ses qualités doivent respecter la morale prônée par « Disney », que ce soit par Walt ou par l'entreprise elle-même. Mickey Mouse est connu et reconnu dans le monde entier, sa célèbre silhouette formée de trois cercles étant devenue indissociable de la marque Disney.
Mickey a été créé en 1928, après que Walt Disney eut dû laisser son premier personnage créé avec Ub Iwerks, Oswald le lapin chanceux, à son producteur.

まとめ

この記事では、あるトピックに関する情報を収集するための新しいライブラリ、wikipediaについて学びました。

何か新しいことを学んでいただけたでしょうか?お読みいただきありがとうございました。

タイトルとURLをコピーしました