使用phpquerylist爬取csdn文章

阿新 • • 發佈：2018-11-30

composer安裝phpquerylist4
在專案目錄下建立composer.json檔案：

{
    "require": {
        "jaeger/querylist": "^4.0"
    }
}

命令列執行命令：

composer install

就可以得到vendor資料夾，檔案結構如下圖：
在這裡插入圖片描述
2、建立方法，採集、儲存資料

<?php
/**
 * @Filename: index.php
 * @desc:資料採集
 */
require('autoload.php');
use QL\QueryList;
set_time_limit(0);
header("Content-type:text/html;charset=utf-8");


class catchInfo
{
    private $conn;
    private $host = '127.0.0.1';
    private $password = 'root';
    private $username = 'root';
    private $dbname = 'test';
    private $url = 'http://so.csdn.net/so/search/s.do?';
    private $path = '../images/';
    public function __construct()
    {
        $this->conn = mysqli_connect($this->host,$this->username,$this->password,$this->dbname);
    }

    public function searchdata($keywords,$page)
    {
        if(empty($keywords)){
            $keywords = $_REQUEST['keywords']?:'php';//關鍵字
        }
        if(empty($page)){
            $page = $_REQUEST['page']?:1;//頁碼
        }

        phpQuery::$defaultCharset="utf-8";
        $html = $this->url.'p='.$page.'&q='.$keywords;
        $rule = array(
            "url"=>array('.search-link a','href'),
        );
        $hj = QueryList::get($html)->rules($rule)->queryData();
        $i = 0;
        foreach($hj as $v){
            if(strpos($v['url'],'blog.csdn') && strpos($v['url'],'article/details')){
                $article_url = $v['url'];
                $sql = "select id from ay_content where outlink = '$article_url'";
                $res = mysqli_query($this->conn,$sql);
                //匹配資料庫中已爬取的url
                if($res->num_rows == 0){
                	//爬取規則
                    $source = QueryList::get($article_url);
                    $title = $source->find('.article-title-box h1')->text();
                    $author = $source->find('.article-bar-top a')->text();
                    $content = $source->find('.blog-content-box article')->html();
                    $content = addslashes(htmlspecialchars($content));
                    $sql = "insert into ay_content(title,author,content,outlink,sorting) values('$title','$author','$content','$article_url',$page)";
                    $res = mysqli_query($this->conn,$sql);
                    //自增
                    if($res){
                        $i++;
                    }
                    //一次採集10條
                    if($i == 10){
                        exit;
                    }
                }
            }
        }
        //一次採集10條
        if($i < 10){
            $this->searchdata($keywords,$page+1);
        }
    }

    /**
     * @Function show_aritcle 資料回顯
     * @Return: void
     */
    public function show_aritcle()
    {
        $sql = "select content from ay_content where id = 1";
        $res = mysqli_query($this->conn,$sql);
        var_dump(htmlspecialchars_decode(mysqli_fetch_row($res)[0]));
    }
}
if(!empty($_POST)){
    $type = $_POST['type']?:'';
    $page = $_POST['page']?:'';
    $keywords = $_POST['keywords']?:'';
}
$obj = new catchInfo();
if(!empty($type)){
    $obj->$type($keywords,$page);
}

 ?>

<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>資料採集</title>
</head>
<body>
<form action="" method="post">
    <input type="hidden" name="type" value="searchdata">
    關鍵詞：<input type="text" name="keywords">
    頁碼：<input type="number" name="page">
    <input type="submit" value="提交">
</form>
</body>
</html>

3、頁面效果
在這裡插入圖片描述
4、採集結果

宣告：本人所採集CSDN文章僅為學習用途，並未用於任何盈利性商業目的。
說明：在採集過程中存在一些不盡如人意的地方，文章中的圖片我想過多種辦法下載下來，然後採用本地的圖片地址進行替換，但都失敗了，先是用的str_replace()函式，將文章中的圖片連結地址替換為本地圖片儲存的相對路徑，失敗了，後來我再用正則匹配圖片連結地址，只能匹配部分連結，因為文章中的圖片來源也有可能是第三方網址，匹配失敗。若是有朋友能解釋下str_replace無法替換的原因或者提供一個合適的正則匹配，在下就先行謝過了！

使用phpquerylist爬取csdn文章

composer安裝phpquerylist4 在專案目錄下建立composer.json檔案： { "require": { "jaeger/querylist": "^4.0" } } 命令列執行命令： composer i

爬蟲系列（2）-----python爬取CSDN博客首頁所有文章

成功 -name 保存 eas attr eve lan url att 對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天在整理代碼時，整理了一下之前自己學習爬蟲的一些代碼，今天上第2個簡單的例子，python爬取CSDN博客首頁所有

Golang核心程式設計(9)-使用net/http及goquery庫爬取CSDN首頁文章

文章目錄一、goquery庫的安裝二、goquery的使用三、爬取CSDN首頁文章 3.1、需求分析 3.2、分析當前頁面的html文件四、爬蟲完整程式

部落格搬家系列（二）-爬取CSDN部落格

部落格搬家系列（二）-爬取CSDN部落格一.前情回顧部落格搬家系列（一）-簡介：https://blog.csdn.net/rico_zhou/article/details/83619152 部落格搬家系列（三）-爬取部落格園部落格：https://bl

Python進階(十八)-Python3爬蟲小試牛刀之爬取CSDN部落格個人資訊

分享一下我的偶像大神的人工智慧教程！http://blog.csdn.net/jiangjunshow 也歡迎轉載我的文章，轉載請註明出處 https://blog.csdn.net/mm2zzyzzp Python進階(十八)-Python3爬蟲實踐

Jsoup爬取CSDN部落格

個人Jsoup練習之作，只做參考： <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <versi

scrapy爬取CSDN論壇問題及內容

爬蟲相信大家都有所瞭解，我對爬蟲就不做詳細介紹了。本次我決定使用scrapy爬取CSDN論壇釋出的問題以及回答的內容。首先，我們需要建立一個scrapy專案。 scrapy startproject test1 然後進入scrapy專案中，建立一個爬蟲。 #進入sc

爬蟲爬取csdn登陸頁面持續載入，selenium模擬無法進行的解決方案

1.近日在爬取csdn時發現csdn突然需要登陸了，登陸沒關係，用selenium模擬填寫個登陸表單也就行了，但實際操作中發現，模擬進行到登陸頁面時頁面持續載入，後續步驟無法進行，自然無法登陸和爬取，如下圖：只要在一定時間後終止瀏覽器繼續載入就行，嘗試了下面

python 爬取資訊文章並儲存html及pdf格式

一、需求研究生學長讓我把一個植物表型資訊系列文章的一系列文章爬下來儲存為pdf或者html格式。首頁網址： https://mp.weixin.qq.com/s?__biz=MzI0Mjg5ODI1Ng==&mid=2247486022&idx=1&sn=

java爬取頭條文章中名字圖片

背景描述：前段時間，我哥讓我給侄女想一個好名字，作為一個工科生，這倒有點難倒我了。隱約記得以前刷頭條的時候刷到過一些好聽的名字，於是便去搜了一下。這一搜不要緊，接下來給我推送的都是關於這方面的文章，而我就毫不客氣地全都收藏了。剛好這兩天閒下

python爬取csdn的部落格內容

首先說明爬蟲的大體結構可以通用，不過針對字串的匹配是不能通用的，比如你用爬取csdn的程式碼想去爬取部落格園就是不行的了，因為爬取的字元是根據對應的html內容設定的。使用python構建爬蟲程式有一個簡單的套路，我總結為3步走： 1.re.compile設定查詢的字串樣

Python爬蟲實戰一：爬取csdn學院所有課程名、價格和課時

import urllib.request import re,xlwt,datetime class csdn_spider(): def __init__(self): self.c = 0 def sava_data(self,name,class_num,price

使用python爬取csdn部落格訪問量

最近學習了python和爬蟲，想寫一個程式練練手，所以我就想到了大家都比較關心的自己的部落格訪問量，使用python來獲取自己部落格的訪問量，這也是後邊我將要進行的專案的一部分，後邊我會對部落格的訪問量進行分析，以折線圖和餅圖等視覺化的方式展示自己部落格被訪問的

python爬蟲爬取csdn部落格專家所有部落格內容

#coding:utf-8 import urllib2 from bs4 import BeautifulSoup import os import re #import sys #reload(sys) #sys.setdefaultencoding("utf-8") def getPage(hre

實現一個go語言的簡單爬蟲來爬取CSDN博文(一)

前言如何實現一個爬蟲系統或則簡單的小指令碼?一般是定義一個入口頁面，然後一個頁面會有其他頁面的URL，於是從當前頁面獲取到這些URL加入到爬蟲的抓取佇列中，然後進入到新頁面後再遞迴的進行上述的操作，其實說來就跟深度遍歷或廣度遍歷一樣。 golang由於其編

爬蟲--爬取csdn訊息並郵箱通知（python3）

之前有很多同學給我發訊息，諮詢相關問題，我都沒能及時回覆解答。主要原因是工作比較忙，部落格沒有每天登入檢視訊息。等到開啟訊息，看一些同學的訊息，無奈都已經過去了多天。所以這裡寫了個小指令碼，每天爬取部落格訊息通知，如果有新訊息，就傳送到個人郵箱提醒。

Python-selenium翻頁爬取csdn博客保存數據入mysql

一個數據截圖代碼 on() 博客 cat utf8 data csdn博客部分截圖博客鏈接：https://blog.csdn.net/kevinelstri/article/list/1? 此次目的是要爬取文章標題，發表文章時間以及閱讀數量 1.瀏覽器

將csdn的文章爬取，並將圖片儲存到本地

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/11/13 10:20 # @Author : jia.zhao # @Desc : # @File : csdn_demo.py

webmagic爬取博客園所有文章

get() cat 彈出 println for core gic cif tac 最近學習了下webmagic，學webmagic是因為想折騰下爬蟲，但是自己學java的，又不想太費功夫，所以webmagic是比較好的選擇了。寫了幾個demo，源碼流程大致看了一遍。想著

爬取知名社區技術文章_分析_1

邏輯結構 project connect primary python 邊界值分析顯示 result article 軟件運行環境是什麽？ python 3.50 -- 解釋器

使用phpquerylist爬取csdn文章

相關推薦