ライバルブログが WordPress で作られたのかを判別するプログラム (Python) を作ってみた【備忘録】

スポンサーリンク

ライバルサイト調査を行うにあたり、
対象のライバルサイト、ライバルブログが WordPress であるかを
判別する必要に迫られたため、自動的にその判別を行ってくれる
プログラムを作成しました。

Python を使用したスクレイピングということで、
Requests と BeautifulSoup を使用しています。

スポンサーリンク

WordPressブログと判別する方法

あるサイトやブログがあったときに、そのサイトが WordPress によって
作成されているのかを判断するには、どうやればよいのでしょうか?

僕が少し調べたところでは、以下のようにいくつかの方法がありました。

  • WordPress判別サイトを利用する
  • 対象サイトの HTML ソースを確認する
  • ブラウザのプラグインを使用する
  • ブラウザの拡張機能を使用する

それぞれ軽ーくご紹介します。

WordPress判別サイトを利用する

対象サイトのURLを入力すると、そのサイトが WordPress のものかを
判別して教えてくれるサイトがあります。

isitwp

そのサイトで使用されている WordPress のバージョンなども
教えてもらえます。

対象サイトが WordPress で作成されているかを判別してくれるサービス「isitwp」

対象サイトの HTML ソースを確認する

判別したい対象のサイトをブラウザで表示させ、
ブラウザのメニューなどで HTML ソースを表示させます。

Ctrl + f で「wp-content」と検索し、
ヒットする場合には、そのサイトは WordPress で作成されたものと
判断してよいでしょう。
(WordPress ブログ内のフォルダ名を検索している)

htmlソース内に wp-content の文字列が見つかった場合は、そのサイトは WordPress で作成されています

ブラウザのプラグインを使用する

僕自身は使用していないので紹介のみですが、
Chrome や Firefox には、Wordpress ブログ判別をしてくれるプラグインを
追加することができようです。

プラグイン名: Wappalyzer

気になる方は検索してみてください。

ブラウザの拡張機能を使用する

僕自身は Chrome を使っていないので紹介のみですが、
Chrome には対象サイトの情報を表示させてくれる
拡張機能があり、その機能によって WordPress かを判断できるようです。

拡張機能名: Chrome Sniffer

気になる方は検索してみてください。

WordPressブログか判別してくれるコード

1つや2つのサイトを判別する場合は、
上述した判別サイトを使ったり、ブラウザのプラグインでコツコツ調べたりしても
良いかもしれません。

しかし、例えばあるキーワードで記事を書きたいときに、
その事前調査としてライバルの WordPress サイトがいくつあるのかを
調べたいときや、Wordpress ブログに絞って情報抽出したい場合などには、
上記の方法では大変です。

そのため、以下のように、Wordpress サイトのソースコードから
Wordpress 固有の文字列を検索し、判別してくれるプログラムを作りました。

対象の URL が WordPress であれば TRUE が返却されます。
参考にしてみてください。

最後に

WordPress を使ってサイト作成している大企業などの場合、
Wprdpress 固有のフォルダ名自体を独自のフォルダ名に変更していることも
少なからずあるようです。

その場合は、上記のプログラムでは判別しようがないため、
あくまで参考程度に利用するのが良いですね。


ではでは。

コメント