PHP使用3種方法實現資料採集

阿新 • • 發佈：2018-12-30

什麼叫採集？

就是使用PHP程式，把其他網站中的資訊抓取到我們自己的資料庫中、網站中。

PHP製作採集的技術：

從底層的socket到高層的檔案操作函式，一共有3種方法可以實現採集。

1. 使用socket技術採集：

socket採集是最底層的，它只是建立了一個長連線，然後我們要自己構造http協議字串去傳送請求。

<?php
//連線,$error錯誤編號,$errstr錯誤的字串,30s是連線超時時間
$fp=fsockopen("www.youku.com",80,$errno,$errstr,30);
if(!$fp) die("連線失敗".$errstr);
 
//構造http協議字串，因為socket程式設計是最底層的，它還沒有使用http協議
$http="GET /?spm=a2hww.20023042.topNav.5~1~3!2~A HTTP/1.1\r\n";   //  \r\n表示前面的是一個命令
$http.="Host:www.youku.com\r\n";  //請求的主機
$http.="Connection:close\r\n\r\n";   // 連線關閉，最後一行要兩個\r\n
 
//傳送這個字串到伺服器
fwrite($fp,$http,strlen($http));
//接收伺服器返回的資料
$data='';
while (!feof($fp)) {
$data.=fread($fp,4096);  //fread讀取返回的資料，一次讀取4096位元組
}
//關閉連線
fclose($fp);
var_dump($data);
?>

打印出的結果如下，包含了返回的頭資訊及頁面的原始碼：

2. 使用curl_一套函式

curl把HTTP協議都封裝成了很多函式，直接傳相應引數即可，降低了編寫HTTP協議字串的難度。

前提：在php.ini中要開啟curl擴充套件。

//生成一個curl物件
$curl=curl_init();
//設定URL和相應的選項
curl_setopt($curl, CURLOPT_URL, "http://www.youku.com");
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);  //將curl_exec()獲取的資訊以字串返回，而不是直接輸出。
//執行curl操作
$data=curl_exec($curl);
var_dump($data);

打印出的結果如下，只包含頁面的原始碼：

3. 直接使用file_get_contents（最頂層的）

前提：在php.ini中設定允許開啟一個網路的url地址。

//使用file_get_contents()
$data=file_get_contents("http://www.youku.com");
var_dump($data);

3種方式的選擇

網路之間通訊主要使用的是以上三種。其中後兩種用的較多：如果要批量採集大量的資料時使用第二種【CURL】，效能好、穩定。

偶爾發幾個請求發的頻繁不密集時使用第三種。

擴充套件：圖片的防盜鏈如何破？

比如7060網站上的圖片做了防盜鏈：在他的網站中可以看到圖片，把圖片拿到站外就無法訪問。

原理：在HTTP協議中有一個referer項，代表發這個請求的來源地址，伺服器會判斷如果這個請求不是這個網站發來的就會過濾掉這個請求：

解決辦法：發HTTP時自己模擬referer即可：

擴充套件：有些要採集資料時時必須先登入，可以使用模擬的試模擬在登入狀態下的採集：

a. 先用瀏覽登入一下，登入完，瀏覽器的COOKIE中就會有SESSIONID

b. 發PHP發HTTP協議時，把瀏覽器中的SESSIONID放到PHP的HTTP協議請求裡，這樣就在以登入的狀態發請求。

總結：所有客戶端發過來的資料都可以被模擬，所以伺服器上的程式必須要必要的地方過濾客戶端的資料。

什麼時候用以上東西？介面開發時、採集時。

二、資料採集

例如我要採集這個url裡的所有美國電影的資訊,

則先要知道電影所在的節點的結構，我們使用firebug檢視。

然後開始寫程式碼：完整程式碼如下

/**
 * 發一個GET請求獲取資料
 */
function get($url)
{
   global $curl;
   // 配置curl中的http協議->可配置的薦可以查PHP手冊中的curl_
   curl_setopt($curl, CURLOPT_URL, $url);
   curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
   curl_setopt($curl, CURLOPT_HEADER, FALSE);
   // 執行這個請求
   return curl_exec($curl);
}
 
// 生成一個curl物件
$curl = curl_init();
$url='http://list.youku.com/category/show/c_96_a_%E7%BE%8E%E5%9B%BD_s_1_d_1_p_3.html';
$data=get($url);
// 匹配電影所在位置
$list_preg = '/<li class="yk-col4 mr1">.+<\/li>/Us';
// 匹配img標籤上的src和alt
$img_preg = '/<img class="quic" _src="(.*)" src="(.*)" alt="(.*)" \/>/U';
//匹配電影的url
$video_preg='/<a href="(.*)" title="(.*)" target="(.*)"><\/a>/U';
//把所有的li存到$list裡，$list是個二維陣列
preg_match_all($list_preg,$data,$list);
   //var_dump($list);
foreach ($list[0] as $k => $v) {   //這裡$v就是每一個li標籤
/* 獲取圖片及電影名稱
    preg_match($img_preg,$v,$img);  //把匹配到的圖片的資訊存到$img裡
    var_dump($img);
    */
    /*獲取電影地址
    preg_match($video_preg,$v,$video);  //把匹配到的電影的資訊存到$video裡
    var_dump($video);
*/
    preg_match($img_preg,$v,$img);
    preg_match($video_preg,$v,$video);
    echo $img[0].'<a href="'.$video[1].'">'.$video[2].'</a>';
}

測試：

列印$list;

列印$img

列印$video

最終效果：

如果需要把圖片拷貝到硬碟上，則在foreach迴圈里加上以下程式碼：

 $imgData = get($img[1]);
    // 把圖片檔案寫到硬碟上【下載】
    // 因為作業系統是GBK的，所以要把UTF8轉成GBK
    is_dir('./youkuimg/') ? '': mkdir('./youkuimg/');
	file_put_contents('./youkuimg/'.mb_convert_encoding($img[3], 'gbk', 'utf-8').'.jpg', $imgData);

效果如下：在當前目錄下的youkuimg目錄下就會有下載好的圖片。

PHP使用3種方法實現資料採集

什麼叫採集？就是使用PHP程式，把其他網站中的資訊抓取到我們自己的資料庫中、網站中。 PHP製作採集的技術：從底層的socket到高層的檔案操作函式，一共有3種方法可以實現採集。 1. 使用so

兩種方法實現STM32F103向串列埠一直髮送資料（程式原始碼，已測試)

串列埠是STM32最為重要的資源，在平時的硬體除錯和軟體除錯中都是不可或缺的工具，最近在測試一塊板子的通訊功能是否正常，我打算用板子A的串列埠USART1一直向串列埠傳送資料，用板子B的串列埠1接收資料，並將接收到的資料經過處理後顯示在LCD

url地址資料引數轉化JSON物件（js三種方法實現）

當我們用get方法提交表單時，在url上會顯示出請求的引數組成的字串，例如：http://localhost:3000/index.html?phone=12345678901&pwd=123123，在伺服器端我們要獲取其中的引數來進行操作，這種情況下，就要對請求過來的網址進行拆解了。下面將用3種方法

七種方法實現Python抓取資料的視覺化

Python 的scientific stack（一個介紹Python科學計算包的網站）已經完全成熟，並且有各種各樣用例的庫，包括機器學習（連結：machine learning），資料分析（連結：data analysis）。資料視覺化是探索資料和清晰的解釋結果很重要的一部分，

Java 基礎資料型別和深度克隆物件的2種方法(實現Cloneable介面或者實現物件序列化)

知識點1(java有9種傳遞函式引數時是傳值): 8大基礎資料型別加String: 1,位元組 byte 2,短整型 short 3,整型int 4,長整形 long 5,字元型 char 6,浮點型 float 7,雙精度型 double 8,布林型 bo

跨域問題相關知識詳解（原生js和jquery兩種方法實現jsonp跨域）

syn con 加載 developer 兩種方法 ray exe 編寫分組 1、同源策略同源策略（Same origin policy），它是由Netscape提出的一個著名的安全策略。同源策略是一種約定，它是瀏覽器最核心也最基本的安全功能，如果缺少了同源策略，則瀏覽

aNDROID兩種方法實現MENU

music win pup andro com 兩種方法 hao123 popu oid pOpUpWINDOW%E6%98%BE%E7%A4%BA%E7%9A%84%E9%97%AE%E9%A2%98 http://music.hao123.com/songlist/4

淺談兩種方法實現瀏覽器內多個標簽頁之間的通信

tools view -s data- oca microsoft oar art set 調用localstorge、cookies等本地存儲方式。方法一： localstorge在一個標簽頁裏被添加、修改或刪除時，都會觸發一個storage事件，通過在另一個標簽頁裏監

兩種方法實現Python二分查找算法

進行 n) == bsp highlight log range pre arr 一. arr=[1,3,6,9,10,20,30] def findnumber(l,h,number): mid=(l+h)//2 if arr[mid]==number:

SA：T1編寫主函數法和T2Matlab自帶的SA工具箱GUI法，兩種方法實現對二元函數優化求解——Jason niu

lin plot itl 最優解 IT 主函數 alt 圖片 gui %SA：T1法利用Matlab編寫主函數實現對定義域[-5,5]上的二元函數求最優解—Jason niu [x,y] = meshgrid(-5:0.1:5,-5:0.1:5); z = x.^2 +

兩種方法實現Linux不活動用戶登錄超時後自動登出

https linux ted 一段 ali blog fig home 服務在平常的工作中，windows系統使用的比較多一些，身邊的很多同事都會對自己的電腦進行一些個性化設置，比如離開一段時間後自動鎖屏、自動關閉屏幕、自動註銷當前登錄等。在windows下可以這樣操作

簡單的實現圖片預覽, 通過原生ajax以及 jQuery兩種方法實現圖片預覽,有更好的辦法可以留言喔................

XML HP OS image end php代碼 append sda ext 1.原生寫ajax實現圖片預覽: 　　結構: 　　　　<input type="file"> 　　　　　　<img src="" > JavaScri

5種方法實現數組去重

RR 字符串字符 ++ font i++ div sof n) 最簡單的思路，先創建一個新數組作為容器，遍歷原數組，判斷每一項在新數組中是否存在，若不存在則把這一項push到新數組中，若存在則忽略。 var arr = [1, 2, 3, 2, 4, 1]; var

三種方法實現整型數值交換

int 異或交換實現整型數值交換臨時變量 a+b 臨時變量法： int a = 5; int b = 4; int temp = 0; temp = a; a = b; b = temp; 異或法： int a = 5; int b = 6; a = a^b;

刪除鏈表的倒數第N個節點（三種方法實現）

from ++ n+1 while end != bsp -- 結點刪除鏈表的倒數第N個節點給定一個鏈表，刪除鏈表的倒數第 n 個節點，並且返回鏈表的頭結點。示例：給定一個鏈表: 1->2->3->4->5, 和 n = 2. 當刪

Java 2種方法實現簡單的session超時登出

　　　1、使用攔截器　使用者每次和後臺互動，如果使用者長時間未操作，則需要檢測使用者的登入狀態，這樣的場景已經是再正常不過了。　　傳統的做法可以在每個controller裡先判斷user的狀態，然後再執行業務操作，但這樣比較程式

leetCode 1號題詳解, 兩數之和的key , python3三種方法實現

原題如下給定一個整數陣列和一個目標值，找出陣列中和為目標值的兩個數。你可以假設每個輸入只對應一種答案，且同樣的元素不能被重複利用。示例: 給定 nums = [2, 7, 11, 15], target = 9 因為 nums[0] + nums[1] = 2 + 7 = 9 所以

三種方法實現strlen函式

我們知道，strlen函式是計算字串長度的函式，那麼要實現strlen函式主要就是得到字串長度，那麼怎樣才能得到字串長度呢？如果是整形的陣列，我們可以通過下標來尋找，可是這是字串，我們就要了解字串了。 &nbs

大資料在改變客戶辦事的5種方法大資料

摘要：大資料將在將來幾年繼承改變客戶辦事。構造在寄託資料來領會客戶需要，並供給他們所需的辦理計劃。客戶辦事凡是被以為是一種任務，有些公司將會死力暗藏使用者可以與他們聯絡的選項。這是一個錯誤。糟的客戶辦事將會讓構造最老實的客戶直接轉向構造的合作敵手的度量。抱負的環境下，精良的客戶辦

iOS UITextView placeHolder佔位文字的N種方法實現方法

方法一 1.把UITextView的text屬性當成“placeholder”使用。 2.在開始編輯的代理方法裡清除“placeholder”。 3.在結束編輯的代理方法里根據條件設定“placeholder”。特點：這種方法的特點是，當用戶點選了textView，placeholder佔位文

PHP使用3種方法實現資料採集

什麼叫採集？

相關推薦