網頁抓取：PHP實現網頁爬蟲方式小結

阿新 • • 發佈：2019-02-05

抓取某一個網頁中的內容，需要對DOM樹進行解析，找到指定節點後，再抓取我們需要的內容，過程有點繁瑣。LZ總結了幾種常用的、易於實現的網頁抓取方式，如果熟悉JQuery選擇器，這幾種框架會相當簡單。

一、Ganon

測試:抓取我的網站首頁所有class屬性值是focus的div元素，並且輸出class值

<?php
 include 'ganon.php';
 $html = file_get_dom('http://www.ido321.com/');
 foreach($html('div[class="focus"]') as $element) {
   echo $element->class 
, "<br>\n"; 
 }
?>

結果:

二、phpQuery

測試：抓取我網站首頁的article標籤元素，然後出書其下h2標籤的html值

<?php
include 'phpQuery/phpQuery.php'; 
phpQuery::newDocumentFile('http://www.ido321.com/'); 
$artlist = pq("article"); 
foreach($artlist as $title){ 
   echo pq($title)->find('h2')->html()."<br/>" 
; 
} 
?>

結果：

三、Simple-Html-Dom

測試：抓取我網站首頁的所有連結

<?php
include 'simple_html_dom.php';
//使用url和file都可以建立DOM
$html = file_get_html('http://www.ido321.com/');

//找到所有圖片
// foreach($html->find('img') as $element)
//        echo $element->src . '<br>';

//找到所有連結
foreach($html->find('a') as 
 $element)
       echo $element->href . '<br>'; 
?>

結果：（截圖是一部分）

四、Snoopy

測試：抓取我的網站首頁

<?php
include("Snoopy.class.php");
$url = "http://www.ido321.com";
$snoopy = new Snoopy;
$snoopy->fetch($url); //獲取所有內容
 echo $snoopy->results; //顯示結果
// echo $snoopy->fetchtext ;//獲取文字內容（去掉html程式碼）
// echo $snoopy->fetchlinks($url) ;//獲取連結
// $snoopy->fetchform ;//獲取表單 
?>

結果：

五、手動編寫爬蟲

如果編寫能力ok，可以手寫一個網頁爬蟲，實現網頁抓取。網上有千篇一律的介紹此方法的文章，LZ就不贅述了。有興趣瞭解的，可以百度 php 網頁抓取。

ps：資源分享

注：原文部落格地址 http://www.ido321.com/1158.html

網頁抓取：PHP實現網頁爬蟲方式小結

抓取某一個網頁中的內容，需要對DOM樹進行解析，找到指定節點後，再抓取我們需要的內容，過程有點繁瑣。LZ總結了幾種常用的、易於實現的網頁抓取方式，如果熟悉JQuery選擇器，這幾種框架會相當簡單。一、Ganon 測試:抓取我的網站首頁所有class屬性值是foc

高階網頁抓取：如何繞過雷區，抓取成功

介紹我不會真的考慮網站刮我的愛好或任何東西，但我想我做了很多。看起來我所處理的許多事情都要求我掌握不能以任何其他方式獲得的資料。我需要對Intoli的遊戲進行靜態分析，因此我需要搜尋Google Play商店才能找到新遊戲並下載遊戲。該尖尖的球擴充套件需要從不同的網站和最簡單

Python3網絡爬蟲(一)：利用urllib進行簡單的網頁抓取

robot 資源 urlopen 解碼支付寶編碼方式只需要服務器 net 一、預備知識 1.Python3.x基礎知識學習：可以在通過如下方式進行學習： (1)廖雪峰Python3教程(文檔)： URL：http://www.liaoxue

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

Python3網路爬蟲(一)：利用urllib進行簡單的網頁抓取

執行平臺：Windows Python版本：Python3.x IDE：Sublime text3 一直想學習Python爬蟲的知識，在網上搜索了一下，大部分都是基於Python2.x的。因此打算寫一個Python3.x的爬蟲筆記，以便後續回顧

JAVA實現網頁抓取(htmlunit)

準確條件加入依賴jar包 <dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId&

java爬蟲入門——從一個網頁抓取原始碼

import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWriter; import java.io.IOException; import java.io.InputStreamRea

【Python網路爬蟲】Python維基百科網頁抓取（BeautifulSoup+Urllib2）

引言：從網路提取資料的需求和重要性正在變得越來越迫切。每隔幾個星期，我都會發現自己需要從網路中提取資料。例如，上週我們正在考慮建立一個關於網際網路上可用的各種資料科學課程的熱度和情緒指數。這不僅需要找到新的課程，而且還要抓住網路的評論，然後在

【爬蟲】Scrapy爬蟲框架教程-- 抓取AJAX非同步載入網頁

前一段時間工作太忙一直沒有時間繼續更新這個教程，最近離職了趁著這段時間充裕趕緊多寫點東西。之前我們已經簡單瞭解了對普通網頁的抓取，今天我就給大家講一講怎麼去抓取採用Ajax非同步加的網站。工具和環境語言：python 2.7 IDE： Pycharm 瀏覽器：Ch

Python3 爬蟲（一）-- 簡單網頁抓取

序一直想好好學習一下Python爬蟲，之前斷斷續續的把Python基礎學了一下，悲劇的是學的沒有忘的快。只能再次拿出來濾了一遍，趁熱打鐵，借鑑眾多大神的爬蟲案例，加入Python網路爬蟲的學習大軍~~~ 爬蟲之前在著手寫爬蟲之前，要先把其需要的知識線路理清楚。

Python3網路爬蟲——（1）利用urllib進行簡單的網頁抓取

利用urllib進行簡單的網頁抓取urllib是Python提供的用於操作URL的模組l、快速使用urllib爬取網頁# -*- coding: UTF-8 -*- from urllib import

如何用Python，C#等語言去實現抓取靜態網頁+抓取動態網頁+模擬登陸網站

轉自：背景在網路，網頁，網站處理方面，很多人都遇到過，想要用某種語言（Python，C#等），去實現一些需求，常見的有這幾大類：想要從某靜態網頁中，提取某些內容想要抓取某些動態網頁中的某些內容想要模擬登陸某個網站對於這類需求，其基本的背後邏輯，都是相

Java爬蟲——phantomjs抓取ajax動態載入網頁

（說好的第二期終於來了 >_<） 1、phantomjs介紹 phantomjs實現了一個無介面的webkit瀏覽器。雖然沒有介面，但dom渲染、js執行、網路訪問、canvas/svg繪製等功能都很完備，在頁面抓取、頁面輸出、自動化測試等方面有廣泛的應用。

Java爬蟲網頁抓取圖片

昨天突然想搞下抓取網上的圖片所以寫了下 import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io

Python 中利用urllib2簡單實現網頁抓取

網頁抓取就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。在Python中，可以使用urllib2這個模組來抓取網頁,模組提供了讀取web頁面資料的介面，我們可以像讀

字母數字窮舉排列組合域名，位數遞增，網路爬蟲，網頁抓取

List<List<string>> res = Generate("abcdefghijklmnopqrstuvwxyz0123456789-"); Console.WriteLine("Count = "

wget 網頁爬蟲,網頁抓取工具

前言如何在linux上或者是mac上簡單使用爬蟲或者是網頁下載工具呢，常規的我們肯定是要去下載一個軟體下來使用啦，可憐的這兩個系統總是找不到相應的工具，這時wget出來幫助你啦!!!wget本

用Python進行網頁抓取

google 神奇顯示 rss 遍歷 ecb data- 可用 appdata 引言　　從網頁中提取信息的需求日益劇增，其重要性也越來越明顯。每隔幾周，我自己就想要到網頁上提取一些信息。比如上周我們考慮建立一個有關各種數據科學在線課程的歡迎程度和意見的索引。我們不僅需要

Fiddler: 如何抓取HTTPS協議的網頁

配置 bubuko 老師分享圖片需要 too 高級 info 保存作者：韋瑋轉載請註明出處 Fiddler默認只能抓取HTTP協議的網頁，不能抓取HTTPS協議的網頁，而我們很多時候，都需要抓HTTPS協議的網頁，比如抓淘寶數據等。今天，韋瑋老師會為大家講

網頁實時聊天之PHP實現websocket

原文地址：https://www.cnblogs.com/zhenbianshu/p/6111257.html 前言 websocket 作為 HTML5 裡一個新的特性一直很受人關注，因為它真的非常酷，打破了 http “請求-響應”的常規思維，實現了伺服器向客戶端主動推送訊息，本文介紹如

網頁抓取：PHP實現網頁爬蟲方式小結

相關推薦