ライバルサイト調査を行うにあたり、
対象のライバルサイト、ライバルブログが WordPress であるかを
判別する必要に迫られたため、自動的にその判別を行ってくれる
プログラムを作成しました。
Python を使用したスクレイピングということで、
Requests と BeautifulSoup を使用しています。
WordPressブログと判別する方法
あるサイトやブログがあったときに、そのサイトが WordPress によって
作成されているのかを判断するには、どうやればよいのでしょうか?
僕が少し調べたところでは、以下のようにいくつかの方法がありました。
- WordPress判別サイトを利用する
- 対象サイトの HTML ソースを確認する
- ブラウザのプラグインを使用する
- ブラウザの拡張機能を使用する
それぞれ軽ーくご紹介します。
WordPress判別サイトを利用する
対象サイトのURLを入力すると、そのサイトが WordPress のものかを
判別して教えてくれるサイトがあります。
→ isitwp
そのサイトで使用されている WordPress のバージョンなども
教えてもらえます。
対象サイトの HTML ソースを確認する
判別したい対象のサイトをブラウザで表示させ、
ブラウザのメニューなどで HTML ソースを表示させます。
Ctrl + f で「wp-content」と検索し、
ヒットする場合には、そのサイトは WordPress で作成されたものと
判断してよいでしょう。
(WordPress ブログ内のフォルダ名を検索している)
ブラウザのプラグインを使用する
僕自身は使用していないので紹介のみですが、
Chrome や Firefox には、Wordpress ブログ判別をしてくれるプラグインを
追加することができようです。
プラグイン名: Wappalyzer
気になる方は検索してみてください。
ブラウザの拡張機能を使用する
僕自身は Chrome を使っていないので紹介のみですが、
Chrome には対象サイトの情報を表示させてくれる
拡張機能があり、その機能によって WordPress かを判断できるようです。
拡張機能名: Chrome Sniffer
気になる方は検索してみてください。
|
|
WordPressブログか判別してくれるコード
1つや2つのサイトを判別する場合は、
上述した判別サイトを使ったり、ブラウザのプラグインでコツコツ調べたりしても
良いかもしれません。
しかし、例えばあるキーワードで記事を書きたいときに、
その事前調査としてライバルの WordPress サイトがいくつあるのかを
調べたいときや、Wordpress ブログに絞って情報抽出したい場合などには、
上記の方法では大変です。
そのため、以下のように、Wordpress サイトのソースコードから
Wordpress 固有の文字列を検索し、判別してくれるプログラムを作りました。
対象の URL が WordPress であれば TRUE が返却されます。
参考にしてみてください。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 |
# 必要なモジュールをインポート import requests from bs4 import BeautifulSoup import lxml.html url = "https://ryoz001.com/1013.html" h3_list = [] response = requests.get(url) response.encoding = response.apparent_encoding # パース bs = BeautifulSoup(response.text, 'lxml') website_html = str(bs) # Wordpress ブログのサイトソースには "wp-content" という文字列が含まれるため、 # これが存在するかを確認する if "wp-content" in website_html: result = True else: result = False print(result) |
最後に
WordPress を使ってサイト作成している大企業などの場合、
Wprdpress 固有のフォルダ名自体を独自のフォルダ名に変更していることも
少なからずあるようです。
その場合は、上記のプログラムでは判別しようがないため、
あくまで参考程度に利用するのが良いですね。
ではでは。
コメント