webスクレイピングとは
scraping=削り取る。webスクレイピングでwebサイトから目的の情報を取得し、加工することができる。今回はGoutteというPHPライブラリを使用してwebスクレイピングを行いたい。
スポンサードリンク
インストール
以下の二つをダウンロードしていく
GitHub – FriendsOfPHP/Goutte: Goutte, a simple PHP Web Scraper
Goutte.phar
使い方
例として、このサイトのアイキャッチを取得してみる。
ダウンロードしたファイルをルートに置いて以下を記述する。
1 2 3 4 5 6 7 8 9 10 11 12 13 |
<?php require_once 'goutte.phar'; use GoutteClient; $a = new Client(); $b = $a->request('GET', 'https://sleep-sheep.info//');//URLを取得 $b->filter('.kanren .clearfix dt')->each(function($PutText)//ほしい場所を選択 { echo $PutText->html()."<br>";表示する }); ?> <img class="aligncenter size-full wp-image-2285" src="https://sleep-sheep.info//wp-content/uploads/2016/07/e8ab43c57db302f9bf47f64a3e0be039.png" alt="PHPスクレイピング Goutte" width="863" height="551" /> |
取得できました!