【思路】php使用curl爬資料的思路

阿新 • • 發佈：2019-01-04

首先我們要知道頁面資料內容有兩種方式（待爬資料只有2種）：
一，直接渲染出來的（基於mvc模板賦值到模板頁面的）

二，通過介面獲取然後JS渲染出來（介面返回的）

然後你要找資料的話：

就看直接訪問的地址能不能拿到有你想要的那些內容的文字（基於mvc模板賦值到模板頁面的）

如果沒有，就看看是通過哪些介面獲取到的

關於更進一步的連結，也是如此：

如果是直接渲染的可以通過xpath或csspath等第3方列庫來分離資料和標籤

如果不是直接渲染的話，JS 生成的連結你就要自己去根據他，需要拼湊的引數，拼湊好連結（帶上cookie）進行下一步的訪問

注意1：這樣如果你多次取不到值了，就應該去手工換一下cookie了

注意2：如果是介面的話，注意請求的url每天都要變，因為url上帶的引數都會變，不修改的話，爬不下來的（可以這樣將url入庫，爬的時候查出來，拼好引數，在丟給curl）

注意3：還有就是，不知道微信的限速問題，不是時效性高的話就10秒左右爬一輪就行了

最重要的是，有些東西，不是非要先模擬登入才能爬去，登陸之後，直接找個介面在瀏覽器跑一下試試（如果有資料返回，那就證明只要帶cookie和請求需要帶的引數就可以了）就不用模擬掃碼了

【FME】shp轉換pdf思路

使用FME將SHP檔案轉換成PDF 問題描述給定shp資料將其轉換成pdf，增加標註以及顏色問題結果本結果中的表格不做介紹，作為擴充套件內容頂部文字內容中文支援存在問題設計思路讀取資料點名將點

【FME】平行線中心線生成思路

使用FME計算平行線的中心線問題描述給定一組平行線計算這組平行線的中心線。問題結果本操作方案生成的中心線在拐角處使用的是圓形，沒有采用直角方案。設計思路計算一組平行線之間的距離，得到距離distance

還在人工爬資料？不用定期敲爬蟲，也能【自動化】訊息爬取的祕訣（內附Python程式碼）

RSS服務Python實做一、安裝我們可以透過Python的套件包：「feedparser 」。讓我們可以輕易的透過Python解析 RSS。Windows 安裝，開啟Command Line：pip install feedparserUbuntu安裝，開啟Terminal：sudo pip insta

【Scala】Scala學習資料

zookeeper 博客 scala入門結束 body elastic 決策中國學途無憂網 Scala學習資料 java 樹形分類器_百度搜索決策樹分類器-Java實現 - CSDN博客KNN分類器-Java實現 - CSDN博客學習：java設計模式—分類 -

【LeetCode】 70. 爬樓梯--簡單遞迴的應用

簡單遞迴 C++ 通過找規律發現後面數字等於前面兩項之和於是通過簡單遞迴寫出程式如下 #include <iostream> using namespace std; int ds(int n){ if(n==0) return 0; else if (n=

【Python】[06]推導資料

本章主要展示用python如何處理目標資料，包括統一資料格式、去除重複資料、資料排序在處理資料的過程中，用到了列表推導，列表分片和建立集合。統一資料格式：處理統一資料的過程中，需要建立一個函式，使用前面章節中學到的for迴圈遍歷每個列表中的資料，然後用if...else語句，將中間不符合統一規範的

【JavaScript】常用的資料型別的處理方式

寫這篇文章的目的，是在學習過程中反覆查詢如何對這三種資料型別進行轉換的方法，所以乾脆總結在一起。一、字串 0.includes：string.includes()，查詢當前string中是否包含某個字串，有返回true，沒有返回false 1.indexOf：string.indexO

【python】內建資料結構——字典

【引言】如果保持資料有序並不重要而結構很重要，那麼可以考慮python中的另外兩種內建的無序資料結構——字典和集合。 1.字典的概念 1.python字典允許儲存一個鍵/值對集合。在字典中每個唯一鍵有一個與之關聯的值，字典可以包含多個鍵/值對。與鍵關聯的value值可以是任意資料型別

【python】內建資料結構——列表

【引言】python提供了4個內建資料結構，可以用來儲存任何物件集合，它們分別是列表、元組、字典和集合。python有兩個有序的集合資料結構（列表和元組），列表是其中之一。 1. 列表的概念列表是一個有序的可變物件索引集合，列表中的每個物件從0開始編號。與陣列不同的是： 1）列表

【LeetCode】70 爬樓梯

假設你正在爬樓梯。需要 n 階你才能到達樓頂。每次你可以爬 1 或 2 個臺階。你有多少種不同的方法可以爬到樓頂呢？注意：給定 n 是一個正整數。示例 1：輸入： 2 輸出： 2 解釋：有兩種方法可以爬到樓頂。 1 階 + 1 階 2 階示例 2：輸入： 3 輸出： 3

【4】axios 獲取資料

API：https://www.kancloud.cn/yunye/axios/234845 基於axios進行二次封裝安裝axios npm install axios --save 安裝成功【src】- 新建資料夾【api】存放與請求相關的資料 - 新建js輔

【乾貨】Linux記憶體資料的獲取與轉存直搗密碼

知識源：Unit 2: Linux/Unix Acquisition 2.1 Linux/Unix Acquistion Memory Acquisition 中的實驗demo部分小白注意，這是網路安全RITx: CYBER502x 部分的內容。 19年1月初，該系列課程會推出501x，這是面向

【 C 】經典抽象資料型別（ADT）之記憶體分配

C中的一些抽象資料型別（ADT）如連結串列、堆疊、佇列和樹等，連結串列已經在前幾篇博文有所討論，見：後面的博文會相繼討論堆疊、佇列和樹的一些基本的相關知識！下面記錄一個最基本的問題，記憶體分配問題：所有的 ADT 都必須明確一個問題，如何獲取記憶體

【Leetcode】70. 爬樓梯

題目假設你正在爬樓梯。需要 n 階你才能到達樓頂。每次你可以爬 1 或 2 個臺階。你有多少種不同的方法可以爬到樓頂呢？注意：給定 n 是一個正整數。示例 1：輸入： 2 輸出： 2 解釋：有兩種方法可以爬到樓頂。 1. 1 階 + 1 階 2. 2

【Linux】Linux統計資料夾、檔案數量的命令

# 檢視當前目錄下的檔案數量（不包含子目錄中的檔案） ls -l|grep "^-"| wc -l # 檢視當前目錄下的檔案數量（包含子目錄中的檔案）注意：R，代表子目錄 ls -lR|grep "^-"| wc -l # 檢視當前目錄下的資料夾目錄個數（不包含

【轉】解決Layui資料表格中checkbox位置不居中

1.情景使用方法渲染的方式生成資料表格，添加了checkbox，但發現checkbox位置不居中，如下圖所示 2.解決辦法通過layui官方社群，找到如下程式碼，只需要新增如下樣式即可解決 <style> .layui-table-cell .l

【SpringMVC】返回Json資料亂碼問題

一、前言在前面的文章中，小編曾介紹過java在程式設計的過程中資料亂碼的問題。大部分情況是由於資料的格式不對應，最近接手的專案中，使用的是springmvc，同樣也出現了亂碼的問題。二、情況介紹 springmvc 返回json 三、具體情況如

【HashMap】HashMap底層資料結構

HashMap:散列表集合，實現了Map介面，Map又實現了Iterator介面。遍歷Map可以用Iteratoer實現，也可以用Entry（HashMap內部類）實現兩種實現方式： while(iterator.hasNext) for(map.Entry entr

【Leetcode】 70. 爬樓梯

假設你正在爬樓梯。需要 n 階你才能到達樓頂。每次你可以爬 1 或 2 個臺階。你有多少種不同的方法可以爬到樓頂呢？注意：給定 n 是一個正整數。示例 1：輸入： 2 輸出： 2 解

【實戰】scrapy 爬取果殼問答！

引言學爬蟲的同學都知道，Scrapy是一個非常好用的框架，可以大大的簡化我們編寫程式碼的工作量。今天我們就從使用Scrapy爬取果殼問答。需求分析爬取果殼問答中精彩回答的標題和答案。知識點爬取資料：Scrapy 資料庫：Mongo 建立專案

【思路】php使用curl爬資料的思路

相關推薦