SOCKET簡單爬蟲實現代碼和使用方法

阿新 • • 發佈：2017-12-25

apple 頭信息 cti 實例組元目錄 agent uniq nec

抓取一個網頁內容非常容易，常見的方式有curl、file_get_contents、socket以及文件操作函數file、fopen等。

下面使用SOCKET下的fsockopen()函數訪問Web服務器最常用的80端口，通過獲取80端口的數據，並進行分析，來模擬網絡爬蟲的工作方法。

1、實現SOCKET模擬網絡爬蟲主要包括以下幾個部分：

使用SOCKET獲取指定頁的內容。
使用get_meta_tags()函數分析網頁的META、TITLE等標簽內容。
解析TITLE、鏈接或網頁內容，可以使用正則表達式來取得需要的內容。

SOCKET爬蟲實現代碼，完整代碼如下：

簡單爬蟲實現代碼和使用方法


class Spider
{
    private $_url = "";//定義用於保存URL的變量
    private $_sites = "";//定義用於保存網站相關內容的變量

    /**
     * 構造函數,用於初始化變量
     * @param $url
     */
    public function __construct($url)
    {
        $this->_url = $url;
    }

    /**
     * 開始爬頁面
     */
    public function start() 

    {
        $content = $this->socketOpen($this->_url);//使用socketOpen()方法鏈接指定的服務器
        $this->_sites["meta"] = $this->getMeta($content);//使用getMeta()方法獲取meta信息
        $this->_sites["title"] = $this->getTitle($content);//使用getTitle()方法獲取title信息
        $this->_sites[ 
"detail"] = $this->getDetail($content);//使用getDetail()方法獲取內容信息
        $this->_sites["links"] = $this->getLinks($content);//使用getLinks()方法獲取內容鏈接信息
    }

    /**
     * 獲取網頁meta
     * @param $content
     * @return array
     */
    protected function getMeta($content)
    {
        $file = "metaCache";//向於保存緩存文件的名稱
        file_put_contents($file, $content);//將緩存保存到緩存文件中
        $meta = get_meta_tags($file);//使用get_meta_tags()取得內容的meta信息
        return $meta;//返回meta信息
    }

    /**
     * 獲取body內容
     * @param $contents
     * @return string
     */
    protected function getDetail($contents)
    {
        preg_match('/<body(.*?)>(.+)<\/body>/s', $contents, $matches);//使用正則表達式處理內容
        //var_dump($matches);die;
        $body = $this->StripHTML($matches[2]);//去掉特殊HTML字符
        $body = strip_tags($body);//清除內容中的特殊標簽
        return mb_substr($body, 0, 400);//返回內容的前400個字符
    }

    /**
     * 獲取網頁標題
     * @param $contents
     * @return mixed
     */
    protected function getTitle($contents)
    {
        preg_match('/<title>(.+)<\/title>/s', $contents, $matches);//使用正則表達式處理內容

        return $matches[1];//返回處理結果中的標題部分
    }

    /**
     * 獲取頁面超鏈接
     * @param $content
     * @return mixed
     */
    protected function getLinks($content)
    {
        $pat = '/<a(.*?)href="(.*?)"(.*?)>(.*?)<\/a>/i';//處理鏈接的正則表達式
        preg_match_all($pat, $content, $m);//使用正則表達式處理鏈接
        return $m;
    }

    /**
     * 抓取頁面內容
     * @param $url
     * @return bool|string
     */
    protected function socketOpen($url)
    {
        $fp = fsockopen($url, 80, $errno, $errstr, 30);//使用fsockopen()建立SOCKET鏈接
        if($fp === false){
            echo "連接遠程服務器失敗:$errstr($errno)<br/>\n";
            return false;
        }else{
            $out = "GET / HTTP/1.1\r\n";//創建要發送的頭文件信息
            $out .= "Host: ".$url."\r\n";//指定頭文件信息中的主機內容
            $out .= "User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36\r\n";
            $out .= "Connection: keep-alive\r\n\r\n";
            fwrite($fp, $out);//使用fwrite()函數發送請求
            $contents = "";
            while(!feof($fp)){//使用while循環讀取返回的數據
                $contents .= fgets($fp, 1024);
            }
            fclose($fp);//關閉句柄
            return $contents;//返回獲取的內容
        }
    }

    /**
     * 去掉HTML中不相關的代碼
     * @param $string
     * @return mixed
     */
    protected function StripHTML($string)
    {
        $pattern=array(
            "'<script[^>]*?>.*?</script>'si",
            "'<style[^>]*?>.*?</style>'si"
        );//建立正則表達式
        $replace=array(
            "",
            ""
        );//建立替換字符數組
        return preg_replace($pattern, $replace, $string);//替換內容中HTML並返回替換後的內容
    }

    /**
     * 打印出抓取到的數據
     */
    public function show()
    {
        echo "<pre>";
        print_r($this->_sites);//顯示保存到$_sites公共變量中的內容
        echo "</pre>";
    }

    /**
     * 過濾分析數據中的超鏈接
     */
    public function filterLinks()
    {
        $realLinks = "";
        $links = $this->_sites["links"][2];//獲取保存鏈接的數組元素
        //遍歷數組,清除不規範鏈接
        foreach($links as $v){//遍歷鏈接數據
            //只保存鏈接
            if(preg_match('/^http:\/\//', $v) || preg_match('/^https:\/\//', $v)){
                $realLinks[] = $v;
            }
        }
        //去除重復的鏈接
        $realLinks = array_unique($realLinks);

        echo "<pre>";
        print_r($realLinks);//顯示過濾後的鏈接
        echo "</pre>";
    }
}

//域名
$domainName = 'www.163.com';
//使用Web爬蟲的方法
$spider = new Spider($domainName);//實例化spider類,並設置需要抓取的網站
$spider->start();//開始抓取數據
//$spider->show();//顯示抓取的內容
$spider->filterLinks();

2、執行後結果

技術分享圖片

3、執行完成，在文件所在目錄下會有個`metaCache`文件，用文本編輯器打開如下

技術分享圖片

在獲取超鏈接以後，就可以再使用Web爬蟲類對這些鏈接進行下一步的數據抓取。具體的實現代碼可以使用無限循環來實現。

4、註意
上述例子暫時不能爬去https的網站，這個待去探索
上述例子如需要爬取像http://news.163.com/17/1225/14/D6GQU683000189FH.html這樣的鏈接，還需要著手擴展下上述代碼中socketOpen函數（設置下請求頭信息，詳細情況見另一篇博文使用SOCKET獲取網頁的內容），

參考資料

1.[PHP實例精通 (編程實例大講堂)] 宮垂剛
2.PHP: fsockopen - Manual

SOCKET簡單爬蟲實現代碼和使用方法

apple 頭信息 cti 實例組元目錄 agent uniq nec 抓取一個網頁內容非常容易，常見的方式有curl、file_get_contents、socket以及文件操作函數file、fopen等。下面使用SOCKET下的fsockopen()函數訪問W

通過編寫c語言程序，運行時實現打印另一個程序的源代碼和行號

clas 行號意義 spa clu 可執行 stdlib.h 讀取進行 2017年6月1日程序編寫說明： 1.實現行號的打印，實現代碼的讀取和輸出，理解主函數中的參數含義。 2.對fgets函數理解不夠 3.對return(1); return 0的含義理解不夠 4.未

洗禮靈魂，修煉python（3）--從一個簡單的print代碼揭露編碼問題，運行原理和語法習慣

比較編譯 windows 機器函數容易打印字符出現無法前期工作已經準備好後，可以打開IDE編輯器了，你可以選擇python自帶的IDLE，也可以選擇第三方的，這裏我使用pycharm——一個專門為python而生的編譯器第一個python代碼當然是所有開發語

在網頁實現簡單的Python3代碼的運行

思路分析說一下大概的思路：1.目標：在輸入框輸入Python3代碼，點擊運行，右邊顯示代碼結果。2.步驟：那首先我們需要一個頁面來顯示我們的輸入輸出，還有一個按鈕；然後就是通過點擊按鈕事件獲取輸入的內容；（用到了Ajax與服務器交互；它會自動封裝請求行，請求頭，空格，我們只需要把內容send就可以了）再

JQeury添加和刪除class內部實現代碼（簡化版）

就是 while bsp span indexof val 元素 move 添加下面是JQuery對元素class操作的簡單實現，請看代碼：添加class： //增加class function addClass(elem,value)

jenkins搭建和簡單發布代碼(待續)

text blog rep 搭建圖片 epo pos import 代碼一、安裝openjdkyum install -y java-1.8.0-openjdk 二、從哪裏獲取jenkins源，把這個源下載到此目錄，並導入jenkins的keywget -O /etc/

jquery簡單幾句代碼實現星級評論效果

簡單的 play ctype 文件的 this url enter oct 引用文件我前面博客寫過一個星級評論的原生寫法，非常復雜，今天就通過jquery來寫一個簡單的星級點亮的效果，來看代碼： <!DOCTYPE html> <html lang="

gat和post封裝代碼和爬蟲的5個步奏

except head get請求 webkit baidu 5.0 .com urllib header 1了解需求2根據需求找網站3請求4獲取5存儲from urllib import request, parsefrom urllib.error import HTT

Socket TCP 協議實現服務端和客戶端的簡單通訊-結合線程池的使用

文章目錄前言當前模式的弊端服務端程式碼客戶端程式碼執行結果客戶端服務端

新增事件控制代碼和移除事件控制代碼使用方法

<!DOCTYPE html><html><head><title>新增與移除事件控制代碼</title></head><body><button id="btn">按鈕</

opencv+zbar配置實現簡單的二維碼和條形碼識別

目錄 4.效果 5.總結 0.準備工作 0.1我的實驗配置： win10+VS2015community+opencv2.4+zbar0.10 0.2資源下載： 0.2新建專案：在vs中新建一個空專案，名字自己取一個。 1.open

逗號代碼和字符圖網格

python逗號代碼：假定有下面這樣的列表：spam=[‘apples‘,‘bananas‘,‘tofu‘,‘ cats‘] 編寫一個函數，它以一個列表值作為參數，返回一個字符串。該字符串包含所有表項，表項之間以逗號和空格分隔，並在最後一個表項之前插入 and 。例如，將前面的spam列表傳遞給

從數據庫、代碼和服務器對PHP網站Mysql做性能優化

now() image 最好提高 mysql 避免允許大數 rdate 數據庫優化是PHP面試幾乎都會被問到的事情，也是我們工作中應該註意的事情，當然，如果是小網站無所謂優化不優化，網站訪問量大了自然會暴漏數據庫的瓶頸，這個瓶頸是各方面問題綜合導致的，下面我們來做下數

學習代碼檢視方法（摘自某圖片）

方法字符串路徑拷貝就會溢出輸入是否代碼看見運算，就檢查整數溢出。看見拷貝，就檢查越界。看到字符串輸入，就檢查各種註入。看到打印信息，就檢查格式話攻擊。看到文件輸入，就檢查路徑利用。看到加密算法，就檢查是否安全。看到開源代碼，就找歷史漏洞。考見

Quick-Cocos2d3.2RC1在Code IDE中實現代碼提示

ref 使用分享 tin doc tails 位置壓縮包 http 之前寫Lua最痛苦的就是代碼提示問題，如今官方給了IDE很好用。以下說Quick使用IDE加入代碼提示問題。第一步：制作api提示壓縮包。須要使用控制臺實現方法例如以下： 1、找到framew

mac下實現代碼遠程同步

只需要需要 style done root spa pwd all 代碼近期將辦公電腦從windows換成了mac，以前一直用windows，在windows下面將代碼同步到遠程的開發機，zend studio有一些內置的工具，但mac下的zend stduio沒有了這

linux下讓irb實現代碼自己主動補全的功能

下載 article 一行代碼技術簡單 inux 我們 clu 童鞋我不知道其它系統上irb是否有此功能,可是在ubuntu上ruby2.1.2自帶的irb默認是沒有代碼自己主動補全功能的,這多少讓人認為有所不便.事實上加上也非常easy,就是在irb裏載

Django框架代碼和nginx的整合部署

django nginx1. nginx 安裝不在此闡述，直接上關鍵配置 server { listen 80; server_name _; access_log /var/log/nginx/platform_admin.log m

ASP.NET MVC 排球計分程序（七）視圖代碼和一些解釋

script wid new post 添加 scrip lar 我們獲取 Index 視圖 @{ ViewBag.Title = "Index"; } <html> <head> <title>輸

解決因為本地代碼和遠程代碼沖突，導致git pull無法拉取遠程代碼的問題

git 沖突一、問題　　當本地代碼和遠程代碼有沖突的時候，執行git pull操作的時候，會提示有沖突，然後直接終止本次pull，查了些資料沒有找到強制pull的方式，但是可以使用如下方式解決。二、解決思路　　可以先將本地內容stash到倉庫中，執行stash操作後，本地代碼將返回到修改前的內容。這時，就可

SOCKET簡單爬蟲實現代碼和使用方法

1、實現SOCKET模擬網絡爬蟲主要包括以下幾個部分：

SOCKET爬蟲實現代碼，完整代碼如下：

2、執行後結果

3、執行完成，在文件所在目錄下會有個metaCache文件，用文本編輯器打開如下

4、註意

參考資料

相關推薦

3、執行完成，在文件所在目錄下會有個`metaCache`文件，用文本編輯器打開如下