分享幾個小小的python爬蟲供大家娛樂（人民日報要聞---to be continued ）

阿新 • • 發佈：2019-02-02

-1-實現人民日報要聞的抓取

說明文件：

使用包 : lxml，requests，urllib2
起始url :人民日報主頁
爬取目標 :人民日報要聞

要聞連結
要聞標題
要聞時間
要聞來源
要聞內容

輸出格式: HTML表格檔案
思路 : 首先收集要爬取頁面的所有連結，之後逐個進行爬取

實現程式碼：

#-*-coding:utf8-*-
#這段程式碼寫得不是很好，許多地方都有要改善的地方，大神勿噴^-^
import requests
import urllib2
from lxml import etree
from multiprocessing.dummy import 
 Pool as ThreadPool
import HTMLParser

def htmls(url):
    url = url.replace(" ", "")
    request = urllib2.Request(url)
    head = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
    try:
        response2 = urllib2.urlopen(request)
        html = response2.read()
        #html = unicode(html, "gb2312").encode("utf-8").decode('utf-8') 

        selector = etree.HTML(html)
        return selector
    except urllib2.HTTPError, e:
        return

def firsthtml(url):
    header = {
          'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}
    html = requests.get(url, headers=header)
    selector = etree.HTML(html.text)
    return 
 selector
def urls(url):
    selector = firsthtml(url)
    content_field1 = selector.xpath('/html/body/section[5]/div[2]/ul/li/strong/a')
    content_field2 = selector.xpath('/html/body/section[5]/div[2]/ul/li/a')
    content = content_field1 + content_field2
    urlss = []
    for content in content:
        urlss.append(content.attrib['href'])
    return urlss


def spider(url): #url處理函式
    print '正在處理銜接'+str(num)+": ", url
    selector = htmls(url)
    if selector is None:
        print '該連結未找到 -_-'
        return
    temp = {}
    try:
        title_path = selector.xpath('/html/body/div[4]/h1')
        content_path = selector.xpath('//*[@id="rwb_zw"]/p')
        time_path = selector.xpath('/html/body/div[4]/div/div[1]')
        source_path = selector.xpath('/html/body/div[4]/div/div[1]/a')
        temp['time'] = time_path[0].text[0:19]
        temp['source'] = source_path[0].text
        temp['title'] = title_path[0].text
    except:
        title_path = selector.xpath('/html/body/div[@class="pic_content clearfix"]/div[@class="title"]/h1')
        content_path = selector.xpath('/html/body/div[@class="content clear clearfix"]/p')
        source_path = selector.xpath('//*[@id="picG"]/div[2]/div[2]/a')
        time_path = selector.xpath('//*[@id="picG"]/div[2]/div[2]/text()[2]')
        try:
            temp['time'] = time_path[0][0:23]
            temp['source'] = source_path[0].text
            temp['title'] = title_path[0].text
        except:
            print '該連結爬取失敗 -_-'
            return
    scontent = ''
    for content in content_path:
        scontent = scontent + content.text
    temp['content'] = scontent
    temp['url'] = url
    all.append(temp)
    print "成功爬取該連結 ^.^"

def tohtml(datas):
    fout = open('content.html', 'w')
    fout.write("<html>")
    fout.write("<meta charset=utf-8>")
    fout.write("<title>人民日報要聞</title>")
    fout.write("<body>")
    fout.write("<table>")
    fout.write("<style type='text/css'>table{border-collapse: collapse;}table td{border:1px solid black;}</style>")
    for data in datas:
        fout.write("<tr>")
        fout.write("<td>%s</td>" % data['url'])
        fout.write("<td>%s</td>" % data['title'].encode('utf-8'))
        fout.write("<td>%s</td>" % data['time'].encode('utf-8'))
        fout.write("<td>%s</td>" % data['source'].encode('utf-8'))
        fout.write("<td>%s</td>" % data['content'].encode('utf-8'))
        fout.write("</tr>")

    fout.write("</table>")
    fout.write("</bdoy>")
    fout.write("</html>")
    fout.close()

if __name__ == '__main__':
    num = 1
    all = []
    urlss  =  urls('http://www.people.com.cn/')
    # pool = ThreadPool(4)
    for x in urlss:
        spider(x)
        num = num + 1
    # results = pool.map(spider, urlss)
    tohtml(all)
    # pool.close()
    # pool.join()
    #本來想開個多執行緒的，懶得寫了，大家有興趣可以自己嘗試下，也不難 ^-^

執行結果：

爬取數量取決於中國人民網首頁要聞一欄的文章數量
這裡寫圖片描述

執行成功產生content.html檔案
這裡寫圖片描述

可以在瀏覽器中直接開啟
這裡寫圖片描述

我是一條小小的分割線，我還是第一條 ^-^

to be continued 。。。時間不夠了-_-!

分享幾個小小的python爬蟲供大家娛樂（人民日報要聞---to be continued ）

-1-實現人民日報要聞的抓取說明文件：使用包 : lxml，requests，urllib2 起始url :人民日報主頁爬取目標 :人民日報要聞要聞連結要聞標題要聞時間要聞來源要聞內容輸出格式: HTML表格檔案思路 :

總結最近學習python爬蟲遇到的問題（selenium+Chrome，urllib，requests）

最近學習了一下爬蟲，興趣使然吧！（注：以下均在python3的環境下實驗） 1.基本庫，先說一下基本庫有，urllib和requests兩個庫：基本庫的作用是：傳送頁面請求，處理異常，解析連結，分析Robots協議。基本用法urllib有: f

TI官方兩相LLC交錯並聯程式的幾個關鍵點（to be continued）

TI的電源設計示例工程裡有一個兩相交錯並聯的LLC變換器設計，使用的是F28379D晶片做主控，這款晶片資源跟F28377S差不多，只不過前者是雙核的，但是示例程式只用到了其中的一個核，所以以下程式基本上可以無障礙移植到F28377S晶片上，以下對程式中的一些重點做一個備忘

從事多年大數據，給大家分享幾個學習方法

大數據大數據學習大數據開發編程語言曾從事軟件開發和培訓9年。參與多個大型項目開發,涉及c++,Java,Python,大數據,數據科學,人工智能等多個領域。熟悉多個領域中軟件開發流程及軟件架構。曾在大型IT公司任程序員,項目經理,高級講師,教學負責人。現在是一名線上培訓機構的講師，看到

分享幾個Python小技巧函式裡的4個小花招

前面講了很多內容都是關於python的變數，資料結構，下面我們來談一談python的函式。python裡的函式知識點大概分為基礎的定義使用，作用域和引數傳遞，高階用法，其中引數傳遞最為靈活，作用域最為繞人. 函式其實是對程式邏輯進行結構化或者過程化的一種程式設計方法,把整塊的程式碼巧妙的隔離成易於管理的小塊

分享幾個Python小技巧函式裡的4個小花招！

前面講了很多內容都是關於python的變數，資料結構，下面我們來談一談python的函式。python裡的函式知識點大概分為基礎的定義使用，作用域和引數傳遞，高階用法，其中引數傳遞

常常寫出不阻塞的爬蟲？分享5個用Python編寫非阻塞web爬蟲的方法 python

常常寫出不阻塞的爬蟲？分享5個用Python編寫非阻塞web爬蟲的方法大家在讀爬蟲系列的帖子時常常問我怎樣寫出不阻塞的爬蟲，這很難，但可行。通過實現一些小策略可以讓你的網頁爬蟲活得更久。那麼今天我就將和大家討論這方面的話題。使用者代理你需要關心的第一件事是設定使用者代理。pytho

常常寫出不阻塞的爬蟲？分享5個用Python編寫非阻塞web爬蟲的方法 python

常常寫出不阻塞的爬蟲？分享5個用Python編寫非阻塞web爬蟲的方法大家在讀爬蟲系列的帖子時常常問我怎樣寫出不阻塞的爬蟲，這很難，但可行。通過實現一些小策略可以讓你的網頁爬蟲活得更久。那麼今天我就將和大家討論這方面的話題。使用者代理你需要關心的第一件事是

為大家分享幾個又實用價值的資源網站，記得收藏

　　或許有人和我一樣在網上找資源能找半天，非常浪費時間，下面為大家分享幾個資源網站　　一，PicJumbo 　　PicJumbo這是一個圖片素材網，不僅只有圖片，還有向量圖，插畫，種類也很繁多，有建築類，時尚類，科技類，生活類的等等類別的圖片。　　二，辦公資源　　這

為大家分享幾個Erlang文件網站

1.非常牛的網站。不但是中文說明。部分函式還有函式內部實現的簡單說明。例子可以直接在網站上執行。而且例子可以編輯後執行。 http://dhq.me/erlample/ 2.英文文件：http://www.erlang.org/erldoc 3.Erlang OTP設計

分享幾個能用的editplus 註冊碼

地址 sky edit 使用 editplus soft -c host edi 分享幾個能用的editplus 註冊碼原文：http://host.zzidc.com/wljc/1286.html 註冊名：host1991 序列號：14F50-CD5C8-E1

分享幾個學習前端的網站

clas pos 分享教程 pan 文檔 doc run bsp 1.關註前端開發，關註用戶體驗 2.源於開發者，服務開發者 3.菜鳥教程 4.印記中文，唯一與官方文檔同步的中文文檔分享幾個學習前端的網站

[API 開發管理] 分享幾個 eoLinker 實用操作技巧

導出pdf 請求參數項目文件 lin 本地方便 tro 批量導入 oracl 一鍵離線導出項目，PDF、WORD等格式任你挑選舉例說明，如果我要將 “示例素材項目” 導出到本地，並且以 PDF 的格式保存。首先找到該項目所在空間：演示空間，在左邊一級菜單中選擇 “

分享幾個實用的PDF美化技巧

https 需要字體 center 生活我們 edi 根據體驗最近杭州又火了！杭州的一男子因為PPT做的太醜被公司開除，引發網友熱議，大家在對他做的“PPT究竟有多醜”產生好奇的同時，也針對辦公類文件美化是否重要這一點進行激烈的爭議和吐槽。其實不光是PPT，我們

分享幾個提升審美的前端UI框架！

十個前端UI優秀框架自己最近也在看，也在學^_^ 最近需要一些前端框架,於是在網上整理了一些感覺不錯的前端框架,有pc端和移動端,為了方便日後自己先記錄下來了... Bootstrap 首先說 Bootstrap，估計你也猜到會先說或者一定會有這個( 呵呵了 )，這是說明它的強大之

分享幾個做手機端的外掛

最近做了一個手機端的專案，然後找了幾個外掛來使用，使用過程中也發現了一些好用的外掛。在這裡給大家分享一下，希望能有幫助！ 1——mint-ui ：http://mint-ui.github.io/#!/zh-cn 剛開始使用的是這個外掛，因為好多人都說好用，網上也評論挺多的。但是

情人節分享幾個不錯的娛樂工具

一、各大視訊網站去除VIP、廣告外掛 vip看看： http://vip.72du.com/?f=vipbar2#help 二、全網音訊搜尋、下載瘋狂音樂搜尋： http://music.ifkdy.com/ 比如，我從QQ音樂中，搜尋追夢赤子心，得到如下結果：

常看的幾個網站：推薦給大家

作為一名開發者要不斷保持與時俱進，不斷學習。自學能力是一個人很重要的能力，要學會不斷自學，下面是幾個我比較喜歡的網站，幾乎每天會看一看，推薦給你。 1. 開發者頭條： https://toutiao.io 內容比較多，大家可以挑著看，裡面有很多文章還是不錯的。

幾個提高Python工作效率的內建小工具，不用是不是太浪費了？

在這篇文章裡，我們將會介紹4個Python直譯器自身提供的小工具。這些小工具在筆者的日常工作中經常用到，減少了各種時間的浪費，然而，卻很容易被大家忽略。每當有新來的同事看到我這麼使用時，都忍不住感嘆，原來Python還隱藏了這麼好用的功能。下面就來看一下Python自帶的幾個小工具

分享幾個下載免費電子圖書的地方ebook

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

分享幾個小小的python爬蟲供大家娛樂（人民日報要聞---to be continued ）

-1-實現人民日報要聞的抓取

說明文件：

實現程式碼：

執行結果：

to be continued 。。。時間不夠了-_-!

相關推薦