PHP加JavaScript爬取網頁內容，超實用簡易教程

阿新 • • 發佈：2019-02-12

php+js爬取網頁內容—–先看下效果

我的網站目標網站

如何做到的呢？

我們一直以為只有Python才能爬取網頁內容，那是因為Python本身集合很多類庫用來爬取網頁很方便，但是我們使用PHP+js的方法一樣很方便，一樣可以拿到我們想要的網頁內容，而且也不用很繁瑣。

首先我們需要PHP來模擬請求獲取整個網站的HTML

  // 允許所有域訪問
header("Access-Control-Allow-Origin: *");
// 接收一個引數，引數名叫parm
$parm=$_GET['mod'];
if (empty($parm)) {
    $url = 'http://m.80s.tw/';//目標網站 

    $html = file_get_contents($url);
}else{
    $url = 'http://m.80s.tw/'.$parm;
    $html = file_get_contents($url);
} 
    preg_match("/<body[^>]*?>(.*\s*?)<\/body>/is",$html,$match1);//正則匹配body裡面的內容
    echo $match1[0];//輸出網頁

注意：如果遇到 file_get_contents報錯請嘗試在 php.ini中找到extension=php_openssl.dll 開啟就OK了

然後就是前端來獲取資料進行處理了

首先寫個非同步請求

$.ajax({ 
        type:'get',
        url: '.././admin/test.php',
        success: function(data) {
        console.log(data)//可以看到獲取的HTML，很簡單吧，很興奮吧
        }
    });

獲取HTML後我們就可以隨心所欲了

怎麼來使用這些HTML呢？這是問題嗎？不是

        //首先建立一個容器
        var div = document.createElement('div' 
);
        // 把整個html的字串存到這個div節點裡
        div.innerHTML = data;
        //然後就可以對div一頓檢查了
        //比如獲取類list_mov_title下所有的a標籤
        var list = div.querySelectorAll('.list_mov_title a');
        //趕緊打印出來看一下
        console.log(list)
        //想要的東西都在吧
        //然後就把想要的東西往自己的頁面裡面塞吧

一個爬取網頁內容的教程就這樣結束了，如果你豁然開朗了就轉發一下吧，不明白的就留言吧

PHP加JavaScript爬取網頁內容，超實用簡易教程

php+js爬取網頁內容—–先看下效果如何做到的呢？我們一直以為只有Python才能爬取網頁內容，那是因為Python本身集合很多類庫用來爬取網頁很方便，但是我們使用PHP+js的方法一樣很方便，一樣可以拿到我們想要的網頁內容，而且也不用很繁瑣。

php抓取網頁內容，獲取網頁資料

php通過simple_html_dom實現抓取網頁內容，獲取核心網頁資料，將網頁資料寫入本地 xxx.json 檔案其程式碼實現邏輯： 1. 引入simple_html_dom.php檔案 require_once 'simple_ht

PHP爬取網頁內容

1.使用file_get_contents方法實現 $url = "http://www.baidu.com"; $html = file_get_contents($url); //如果出現中文亂碼使用下面程式碼 //$getcontent = iconv("

使用HTTPURLConnection模擬登陸，爬取網頁內容

如果你需要爬取某些網頁的內容，但這些網站需要登入，那就需要一些額外的步驟來由程式來完成這些登入並爬取我們需要的網頁內容了，任意登入頁面都是向伺服器傳送請求，如果我們能夠模擬向伺服器傳送請求，那麼自然登入也就不在話下，通過Fiddler抓取我們需要的一些資訊，很輕鬆的就能模擬

利用BeautifulSoup爬取網頁內容

利用BeautifulSoup可以很簡單的爬取網頁上的內容。這個套件可以把一個網頁變成DOM Tree 要使用BeautifulSoup需要使用命令列進行安裝，不過也可以直接用python的ide。基礎操作 : ① 使用之前需要先從bs4中匯入包：from

cheerio爬取網頁資料，儲存到MySQL資料庫

最近在做物流專案成本分析，需要爬取柴油價格資料，使用到了cheerio，cheerio實現了jQuery核心的一個子集。以下為爬取程式碼。 //getHtml.js，獲取HTML頁面資料 var http = require("http"); function gethtml(url,

Python之簡單爬取網頁內容

爬去網頁通用流程這樣看著雖然很麻煩，但是爬取網頁都離不開這四個步驟，以後如果爬取更復雜的網頁內容，只需要在這個基礎上新增內容就ok了。 import requests class Qiushi: # 初始化函式 def __init__(self,name):

Python爬蟲：selenium掛shadowsocks代理爬取網頁內容

selenium掛ss代理爬取網頁內容 from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.common.exceptions import

JAVA爬取網頁內容

之前的文章沒有整理好，這邊重新標註一下，有需要可以到我的個人部落格看完整的三篇文章。在此之前，大家先了解一個Jsoup，一個html頁面解析的jar包。如果你上面的Jsoup看完了。前期準備工作：需要去檢視一下要爬的網頁的結構，對自己要爬的資料的標籤要熟悉。操作：在頁面上按F

python3定向爬取網頁內容

import requests import bs4 from bs4 import BeautifulSoup def getHTMLText(url): # 獲取網頁內容 try: r = requests.get(url, timeout=30) r.ra

爬蟲小白——利用pycharm爬取網頁內容

概述：這是一個利用pycharm在phthon環境下做的一個簡單爬蟲分享，主要通過對豆瓣音樂top250的歌名、作者（專輯）的爬取來分析爬蟲原理什麼是爬蟲？我們要學會爬蟲，首先要知道什麼是爬蟲。網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者

如何使用Jsoup爬取網頁內容

前言：這是一篇遲到很久的文章了，人真的是越來越懶，前一陣用jsoup實現了一個功能，個人覺得和selenium的webdriver原理類似，所以今天正好有時間，就又來更新分享了。實現場景：爬取部落格園https://www.cnblogs.com/longronglang，文章列表中標題、連結、釋出時間

Python 爬取網頁中JavaScript動態添加的內容（二）

python tab sta exe div int rom ava script 使用 selenium + phantomjs 實現 1、準備環境 selenium（一個用於web應用程測試的工具）安裝：pip install seleniumphantomjs（是

python+selenium+PhantomJS爬取網頁動態加載內容

use for ive comm 自動化測試 mac os x page 影響 blank 一般我們使用python的第三方庫requests及框架scrapy來爬取網上的資源，但是設計javascript渲染的頁面卻不能抓取，此時，我們使用web自動化測試化工具Selen

Python 爬取網頁中JavaScript動態新增的內容（二）

使用 selenium + phantomjs 實現 1、準備環境 selenium（一個用於web應用程測試的工具）安裝：pip install selenium phantomjs（是一種無介面的瀏覽器，用於完成網頁的渲染）下載：http://phantomjs.or

Python 爬取網頁中JavaScript動態新增的內容（一）

當我們進行網頁爬蟲時，我們會利用一定的規則從返回的 HTML 資料中提取出有效的資訊。但是如果網頁中含有 JavaScript 程式碼，我們必須經過渲染處理才能獲得原始資料。此時，如果我們仍採用常規方法從中抓取資料，那麼我們將一無所獲。那麼，通過Web kit可以簡單解決這個

curl抓取網頁內容php

dem windows grep 網頁資源網頁爬蟲 url 工具 () 動態獲取 1.cURL curl是客戶端向服務器請求資源的工具 2.cURL使用場景網頁資源：網頁爬蟲 webservice數據接口資源：動態獲取接口數據天氣號碼歸屬地 ftp資源：下載ftp

今日頭條圖片ajax異步加載爬取，並保存至mongodb，以及代碼寫法的改進

exception wow 發現 http img fin 以及 urn form import requests,time,re,json,pymongofrom urllib.parse import urlencodefrom requests.exceptions

php 爬取網頁列表 QueryList

https 3.0 nbsp link 網頁上進爬取網頁 list tps 主流的方式是 phpQuery 今天使用了 QueryList，是在PHPQuery的基礎上進行了封裝，現在最新的版本是4.0，但是要求PHP>7.0。就用了舊版的3.0 3.0文檔：ht

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

PHP加JavaScript爬取網頁內容，超實用簡易教程

php+js爬取網頁內容—–先看下效果

如何做到的呢？

首先我們需要PHP來模擬請求獲取整個網站的HTML

注意：如果遇到 file_get_contents報錯請嘗試在 php.ini中找到extension=php_openssl.dll 開啟就OK了

然後就是前端來獲取資料進行處理了

獲取HTML後我們就可以隨心所欲了

怎麼來使用這些HTML呢？這是問題嗎？不是

一個爬取網頁內容的教程就這樣結束了，如果你豁然開朗了就轉發一下吧，不明白的就留言吧

相關推薦