PHP抓取資料的3中形式

阿新 • • 發佈：2019-01-31

什麼叫採集？

就是使用PHP程式，把其他網站中的資訊抓取到我們自己的資料庫中、網站中。

PHP製作採集的技術：

從底層的socket到高層的檔案操作函式，一共有3種方法可以實現採集。

1. 使用socket技術採集：

socket採集是最底層的，它只是建立了一個長連線，然後我們要自己構造http協議字串去傳送請求。

<?php
//連線,$error錯誤編號,$errstr錯誤的字串,30s是連線超時時間
$fp=fsockopen("www.youku.com",80,$errno,$errstr,30);
if(!$fp) die("連線失敗".$errstr);
//構造http協議字串，因為socket程式設計是最底層的，它還沒有使用http協議
$http="GET /?spm=a2hww.20023042.topNav.5~1~3!2~A HTTP/1.1\r\n"; // \r\n表示前面的是一個命令
$http.="Host:www.youku.com\r\n"; //請求的主機
$http.="Connection:close\r\n\r\n"; // 連線關閉，最後一行要兩個\r\n
//傳送這個字串到伺服器
fwrite($fp,$http,strlen($http));
//接收伺服器返回的資料
$data='';
while (!feof($fp)) {
$data.=fread($fp,4096); //fread讀取返回的資料，一次讀取4096位元組
}
//關閉連線
fclose($fp);
var_dump($data);
?>

打印出的結果如下，包含了返回的頭資訊及頁面的原始碼：

2. 使用curl_一套函式

curl把HTTP協議都封裝成了很多函式，直接傳相應引數即可，降低了編寫HTTP協議字串的難度。

前提：在php.ini中要開啟curl擴充套件。

//生成一個curl物件
$curl=curl_init();
//設定URL和相應的選項
curl_setopt($curl, CURLOPT_URL, "http://www.youku.com");
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);

//將curl_exec()獲取的資訊以字串返回，而不是直接輸出。
//執行curl操作
$data=curl_exec($curl);
var_dump($data);

打印出的結果如下，只包含頁面的原始碼：

3. 直接使用file_get_contents（最頂層的）

前提：在php.ini中設定允許開啟一個網路的url地址。

//使用file_get_contents()
$data=file_get_contents("http://www.youku.com");
var_dump($data);

3種方式的選擇

網路之間通訊主要使用的是以上三種。其中後兩種用的較多：如果要批量採集大量的資料時使用第二種【CURL】，效能好、穩定。

偶爾發幾個請求發的頻繁不密集時使用第三種。

擴充套件：圖片的防盜鏈如何破？

比如7060網站上的圖片做了防盜鏈：在他的網站中可以看到圖片，把圖片拿到站外就無法訪問。

原理：在HTTP協議中有一個referer項，代表發這個請求的來源地址，伺服器會判斷如果這個請求不是這個網站發來的就會過濾掉這個請求：

解決辦法：發HTTP時自己模擬referer即可：

擴充套件：有些要採集資料時時必須先登入，可以使用模擬的試模擬在登入狀態下的採集：

a. 先用瀏覽登入一下，登入完，瀏覽器的COOKIE中就會有SESSIONID

b. 發PHP發HTTP協議時，把瀏覽器中的SESSIONID放到PHP的HTTP協議請求裡，這樣就在以登入的狀態發請求。

總結：所有客戶端發過來的資料都可以被模擬，所以伺服器上的程式必須要必要的地方過濾客戶端的資料。

什麼時候用以上東西？介面開發時、採集時。

二、資料採集

例如我要採集這個url裡的所有美國電影的資訊,

則先要知道電影所在的節點的結構，我們使用firebug檢視。

然後開始寫程式碼：完整程式碼如下

/**
* 發一個GET請求獲取資料
*/
function get($url)
{
global$curl;
// 配置curl中的http協議->可配置的薦可以查PHP手冊中的curl_
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
curl_setopt($curl, CURLOPT_HEADER, FALSE);
// 執行這個請求
return curl_exec($curl);
}
// 生成一個curl物件
$curl = curl_init();
$url='http://list.youku.com/category/show/c_96_a_%E7%BE%8E%E5%9B%BD_s_1_d_1_p_3.html';
$data=get($url);
// 匹配電影所在位置
$list_preg = '/<li class="yk-col4 mr1">.+<\/li>/Us';
// 匹配img標籤上的src和alt
$img_preg = '/<img class="quic" _src="(.*)" src="(.*)" alt="(.*)" \/>/U';
//匹配電影的url
$video_preg='/<a href="(.*)" title="(.*)" target="(.*)"><\/a>/U';
//把所有的li存到$list裡，$list是個二維陣列
preg_match_all($list_preg,$data,$list);
//var_dump($list);
foreach ($list[0] as$k => $v) { //這裡$v就是每一個li標籤
/* 獲取圖片及電影名稱
preg_match($img_preg,$v,$img); //把匹配到的圖片的資訊存到$img裡
var_dump($img);
*/
/*獲取電影地址
preg_match($video_preg,$v,$video); //把匹配到的電影的資訊存到$video裡
var_dump($video);
*/
preg_match($img_preg,$v,$img);
preg_match($video_preg,$v,$video);
echo$img[0].'<a href="'.$video[1].'">'.$video[2].'</a>';
}

測試：

列印$list;

列印$img

列印$video

最終效果：

如果需要把圖片拷貝到硬碟上，則在foreach迴圈里加上以下程式碼：

$imgData = get($img[1]);
// 把圖片檔案寫到硬碟上【下載】
// 因為作業系統是GBK的，所以要把UTF8轉成GBK
is_dir('./youkuimg/') ? '': mkdir('./youkuimg/');
file_put_contents('./youkuimg/'.mb_convert_encoding($img[3], 'gbk', 'utf-8').'.jpg', $imgData);

效果如下：在當前目錄下的youkuimg目錄下就會有下載好的圖片。

PHP抓取資料的3中形式

什麼叫採集？就是使用PHP程式，把其他網站中的資訊抓取到我們自己的資料庫中、網站中。 PHP製作採集的技術：從底層的socket到高層的檔案操作函式，一共有3種方法可以實現採集。 1. 使用socket技術採集： socket採集是最底層的，它只是建立了一個長連線，然

CDC抓取資料過程中所遇到的問題集合

1. 關於過濾POSTCODE LIKE '%8%' CDC裡面支援過濾條件，但過濾條件只能是個布林值；而你所列的條件的返回值非布林值，所以可以考慮定義一個儲存過程，通過儲存過程來判斷。滿足條件時儲存過程返回值為1，否則為0。然後看在過濾條件中判斷該行是否滿足條件。此處

php抓取網頁內容，獲取網頁資料

php通過simple_html_dom實現抓取網頁內容，獲取核心網頁資料，將網頁資料寫入本地 xxx.json 檔案其程式碼實現邏輯： 1. 引入simple_html_dom.php檔案 require_once 'simple_ht

vue專案中jsonp抓取資料實現方式

先安裝依賴：cnpm install --save jsonp 程式碼如下： 1. 然後建立一個jsonp.js import originJSONP from 'jsonp' //引用jsonp 　　export default function jsonp(url,data,opt

ros如何抓取資料包及如何解析包中資料

從小車抓資料包小車自動作業後或執行後，先source 環境 A: source cleaner/workspace_a/app_pkg/setup.bash B: rosbag record –o bagwang /scan 這個將topic scan中的所有內容都存

PHP抓取頁面中a標籤的href屬性值以及a中間內容

$str = file_get_contents($zh_cn_url); $reg1='/<a href=\"(.*?)\".*?>(.*?)<\/a>/i';//匹配所有A標籤 preg_match_all($reg1,$str,$aarray); //這個$a

php 解決file_get_contents函式抓取資料報錯問題

大家用file_get_contents這個php函式抓取資料，可能出現各種莫名其妙的錯，小編今天就把我曾經報錯解決的方式總結如下：方法一：找到php.ini檔案，修改如下: 1、找到extension=php_openssl.dll這一行，去掉前面的‘；’ 2、找到

Sql Server儲存過程從一個表中抓取資料填充到另一張表中

set ANSI_NULLS ON set QUOTED_IDENTIFIER ON go -- ============================================= -- Author: <alex,,Name> -- Create

【網路爬蟲】使用HttpClient4.3.5抓取資料

使用jar——Apache client 程式碼結構：具體程式碼：抓取結果封裝 /** * 抓取結果的封裝 * @author tsj-pc * */ public class CrawlResultPojo { pri

PHP如何抓取一個網址中的內容？

1.file_get_contents PHP程式碼複製程式碼程式碼如下: <?php $url = "http://www.jb51.net"; $contents = file_get_contents($url); //如果出現中文亂碼使用下

php curl 新增cookie偽造登陸抓取資料

有的網頁必須登陸才能看到，這個時候想要抓取資訊必須在header裡面傳遞cookie值才能獲取 1、首先登陸網站，開啟firebug就能看到對應的cookie把這些cookie拷貝出來就能使用了 2、<?php header("Content-type:tex

PHP + curl 實現 http 或 https 抓取資料：

/** * 抓取資料 https 或 http 形式 * @param $url 連結 * @param $data 引數 * @return mixed 返回資料 */ private

【php網頁爬蟲】php抓取網頁資料

外掛介紹： PHP Simple HTML DOM解析類：Simple HTML DOM parser 幫我們很好地解決了使用 php html 解析問題。可以通過這個php類來解析html文件，對其中的html元素進行操作 (PHP5+以上版本)。使用方法： 1

Python抓取手機APP中內容

quest 手機app 開始 clas tex json 完成 keep 抓取首先下載Wireshark和模擬器（天天模擬器，夜神模擬器），天天模擬器在自帶的應用商店裏面能夠登錄微信。然後打開Wireshark選擇一個網卡開始抓包。開始抓包後，在模擬器中要抓取的APP

linux下抓取內存中明文密碼mimipenguin

linux滲透明文密碼抓取下載地址：https://github.com/huntergregal/mimipenguin 基本使用語法：[email protected]/* */:~/eth10/eth10# wget https://codeload.github.com/hun

php抓取頁面的幾種方法詳解

close deb clas win exe _array error: fopen ini 一、 PHP抓取頁面的主要方法：1. file()函數 2. file_get_contents()函數 3. fopen()->fread()->fclose

抓取進程中包括其所有線程的iowait時間

brush aps switch text contex div alloc pro IV perf事件是可以按照線程按照進程統計的呢，但是/proc/接口就不提供這樣的功能 hon@station6:/proc/6288$ sudo perf stat -e sched

php抓取圖片進行內容提取解析，文字性pdf進行內容文字提取解析

規則服務內容利用網站發布百度 unicode 表格返回 2018年7月7日18:52:17 php是用純算法，自己是提取圖片內容不是不行，可以但是優化起來很麻煩還得設計學習庫，去矯正數據的正確率對於大多數項目來說，如果不是做ocr服務，就不必要做需求工具或者

使用Fiddler抓取Android模擬器中的Android_APP請求

ima export tar 代理 blog spl 分享圖片命令行就會對Fiddler的設置：在https://www.telerik.com/download/fiddler網站上下載Fiddler，輸入內容後點擊下面按鈕進行下載：下載成功後，打開Fiddler

cc2540 usb-dongle的 SmartRF Packet Sniffer 抓取資料方法

我們需要明白的是，ble的廣播是可以指定廣播通道的，廣播通道分別是37、38、39，但TI的協議棧官方例程裡已經預設設定了在廣播階段同時三個通道一起廣播，但是一旦跟主機連線上後，就只在其中的一個通道傳輸資料，所以我們是要指定其中的一個通道的，可惡的是，這個連線上的通道也是隨機的

PHP抓取資料的3中形式

什麼叫採集？

相關推薦