簡單使用phpspider采集本博客文章內容

阿新 • • 發佈：2019-03-28

什麽 days cto close sig fopen bsp use Coding

采集流程

根據鏈接獲取頁面內容(curl)->獲取需要采集的內容（可以通過正則、xpath、css選擇器等方法進行篩選）

<?php

require_once ‘phpspider/autoloader.php‘;
use phpspider\core\phpspider;
use phpspider\core\requests;
use phpspider\core\selector;
/* Do NOT delete this comment */
/* 不要刪除這段註釋 */
requests::$input_encoding = ‘GB2312‘;
requests 
::$output_encoding = ‘GB2312‘;
//獲取博客文章列表的文章url
for($i=1;$i<=10;$i++){
$url = "https://www.cnblogs.com/jcydd/default.html?page=".$i;
$html = requests::get($url);
//var_dump($html);
$selector = "/<a\sid=\"homepage1_HomePageDays_DaysList_ctl0\d_DayList_TitleUrl_\d\"\sclass=\"postTitle2\"\shref=\"(.*)\">/";
 
$result[] = selector::select($html, $selector,‘regex‘);
}
//var_dump($result);

//根據url循環獲取文章標題和內容
  foreach($result as $k=> $v){
      foreach($v as $kk=>$vv){

    $html1 = requests::get($vv);
    //var_dump($html1);
    
    //獲取文章標題，正則表達式前後要加上@，我也不知道為什麽
    $selector1 = "@<a\sid=\"cb_post_title_url\"\s(?:.)+?>(.*)</a>@";
     
$result1 = selector::select($html1, $selector1,‘regex‘);
    //var_dump($result1);
    
    //文章內容正則有點問題，有些內容獲取不到    
     $selector2 = "@<div\sid=\"post_body\"\sclass=\"blogpost-body\">((.|\n)*)<div\sid=\"MySignature\">@";     
    $result2 = selector::select($html1, $selector2,‘regex‘);
    //var_dump($result2);
    //去除文章內容裏的html標簽    
     $result2=preg_replace(‘/<[^<]*>/‘,"",$result2);   
     
     //寫入文件 
    $myfile = fopen("f".$k.$kk.".txt", "w") or die("Unable to open file!");
    fwrite($myfile, $result1);
    fwrite($myfile,"\r\n");
     foreach($result2 as $vvv){
        fwrite($myfile, $vvv);
    }
    
    fclose($myfile);  
 
 } 
}

簡單使用phpspider采集本博客文章內容

什麽 days cto close sig fopen bsp use Coding 采集流程根據鏈接獲取頁面內容(curl)->獲取需要采集的內容（可以通過正則、xpath、css選擇器等方法進行篩選） <?php require_once ‘

Django學習（六）---博客文章頁面的超鏈接設置

_id 三個參數 name app dex pla django （六） pat Django中的超鏈接超鏈接的目標地址 href後面是目標地址 template中可以用 {% url ‘app_name : url_name’ param %} app_name：

本博客停止更新

c11 圖片工具更新抓包 ... 博客園 rst 開發離線編輯工具又掛了，很生氣很生氣很生氣，抓包分析了半天傳大圖片的時候總是給我RST，心累，決定棄用博客園改為自己開發獨立博客，本博客不再更新。獨立博客正在開發中... by CC110011

優秀的博客文章地址

inux 使用詳解 lee arc 地址 html htm url awk 用法（使用入門）：http://www.cnblogs.com/emanlee/p/3327576.html linux awk命令詳解：　　http://www.cnblogs.com/ggju

本博客停止更新，新內容在個人網站上

hex tar shu 通過找不到結合其他權限開放吐槽一下： 1. 沒有官方的app，手機上閱讀文章不方便。 2. 我來博客園5，6年了一直沒改過版，設計已經落伍了。 3. 找不到一鍵搬家，一件導入。 4. 博客園網站采用和推崇的是.net，c#。自己擅

本博客遷移到 blog.ailinux.net

blog ailinux net 本博客遷移到 blog.ailinux.net以後技術內容更新地址blog.ailinux.net本文出自 “信不信由你” 博客，請務必保留此出處http://312461613.blog.51cto.com/965442/1974563本博客遷移到 blog.a

如何使用word2013上傳博客文章

其他由於各博客後臺編輯器在使用中涉及圖片上傳操作比較煩鎖，最近改用word編輯之後直接往平臺上傳，雖然排版效果說不上好看，最至少還是能解決下上傳的問題；至於頁面效果想處理的更漂亮，同學們都建議使用帶markdown語言的編輯器。下面就來說說word2013上傳博文的方法：1首先給word2013配置博客帳號打

總綱篇：產品結構設計指導VI（本博客指引章節）

normal 定制化 watermark 設計規範化 problems square span 博客本章目的：搭建自己的產品結構設計konw-how體系，從零開始設計一個完整產品。需知遠途即捷徑！（//作者的結構設計體系尚在搭建中，所有的文章都會定期進行

使用docker超簡單部署自己的ghost博客

ghost 博客阿裏雲 docker 使用阿裏雲容器服務部署Ghostblog 使用阿裏雲鏡像安裝mysql數據庫服務 mysqldbtest: restart: always ports: - ‘3306:3306/tcp‘ environment: -

公告：本博客轉向CSDN,敬請關註！

pos post http .net sdn div csdn tps clas https://blog.csdn.net/cyjch 公告：本博客轉向CSDN,敬請關註！公告：本博客轉向CSDN,敬請關註！公告：本博客轉向CSDN,敬請關註！公告：本

後端開發優秀博客文章收集

傳輸 git .net 優秀原理 ID 分布式事務 aop 為什麽 1、集合類 ArrayList源碼分析（基於JDK8） ConcurrentHashMap總結 2、三大框架 CGLIB介紹與原理我們為什麽要使用AOP？ MyBatis框架及原理分析 3、Re

阿甘博客文章寫法與教學方法

自己什麽是朋友技術知識理解應用常見能夠親愛的朋友們大家好：博客文章的寫作手法，都是參照阿甘講師自定的教學方法來寫的。今後也會經常來51CTO博客來寫寫技術文章，希望大家多多留言，給提出建議，這樣才能寫出對大家實用的文章。 3W1H1P教學法

【轉】如何使用離線博客發布工具發布CSDN的博客文章

文字功能喜歡 ini 平臺 ive live http .aspx 目前大部分的博客作者在用Word寫博客這件事情上都會遇到以下3個痛點：1.所有博客平臺關閉了文檔發布接口，用戶無法使用Word，Windows Live Writer等工具來發布博客。使用Word寫博客

CSDN博客文章必須要登錄才能查看解決辦法

align 更多形式需要 splay 缺點解決辦法要點 csdn博客 1 將此文章存到書簽欄。 2 右鍵點擊保存到書簽欄的這個書簽，然後點擊修改。 3 名稱改為：CSDN查看全文，網址改為： javascript:$("#article_content")

關於本博客皮膚

style 推薦 dong wall 做出 don them blog 鏈接關於本博客皮膚，非原創。原創鏈接是這位大佬：https://www.cnblogs.com/bndong/p/9132439.html github地址：https://github.com

04、博客文章

update 人人 pid 要求爬取 publish request .get for 題目要求：你需要爬取的是博客人人都是蜘蛛俠，首頁的四篇文章信息，並且打印提取到的信息。提取每篇文章的：文章標題、發布時間、文章鏈接網頁URL

本博客的AutoHotkey版本是L版V2，附下載地址和簡易使用方法

.exe hot auto ref .com yar 保存最新版下載腳本解釋器點此下載，也可訪問官網，目前最新版仍是2018-10-05的a100版本。使用方法：腳本擴展名為ahk，如果保存的腳本名為abc.ahk，那修改AutoHotkeyU32.exe

前嗅ForeSpider教程：采集需要登陸的網頁內容

需要網頁跳轉 ref 進入軟件 dba 問題 htm bbs 第一步：新建任務①點擊左上角“加號”新建任務，如圖1：【圖1】②彈窗裏填寫采集地址，任務名稱，開啟手動登錄配置，如圖2：【圖2】若未在此處開啟登錄配置，可在模板抽取配置中點擊相應的模板，開啟登錄配置，如圖3。

［iOS］關於 App 混合（Hybrid）開發的優化，包括H5、Weex等（本篇博客主要針對 iOS 應用講解，但該思想同樣適用於Android）

color 數據後臺 lib 新版生成下載地址代碼版本　　我們知道混合開發，可以節省很多成本（時間成本，經濟成本等等），所以有很多公司比較鐘愛這種開發形式，今天所講的優化方式，也是我在我們公司的應用中實際用了的，而且我寫的這個優化的 SDK 已經開源到 gith

鏈雲淘寶客優惠券網站免費源碼下載自動采集

淘寶優惠券淘寶客源碼下載優惠券淘寶客鏈雲淘寶客優惠券導購CMS 自動采集 PC端+手機端微商淘客必備鏈雲優惠券CMS采用獨立的程序+數據庫，安全穩定性能優越，全自動操作，可自主設置自動或者手動采集，無需後期維護，一次建成，永久使用。自動采集優惠券和下單鏈接，自動轉換成自己的PID，全

簡單使用phpspider采集本博客文章內容

相關推薦