爬取歷史類小說

阿新 • • 發佈：2018-12-19

導包

import requests
import lxml  #lxml是python的一個解析庫，支援HTML和XML的解析，支援XPath解析方式，而且解析效率非常高
from bs4 import BeautifulSoup
import pandas as pd
import os

headers從網頁獲得，按F12, —>NETWORK---->重新整理網頁---->隨便點一個name----->找到headers:User-Agent

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'}

獲得原始碼，轉HTML格式，獲取想要的內容

url='http://www.biquge.com.tw/lishi/'
yuanma_caidanye=requests.get(url,headers=headers)  #選單頁的原始碼
yuanma_caidanye.encoding='gbk'
html_yuanma_caidanye=BeautifulSoup(yuanma_caidanye.text,'lxml')  # 原始碼轉html格式
lianjie=[]
a=html_yuanma_caidanye.find_all('span',class_='s2')  #獲取各個小說的連結
for i in a :
    lianjie.append(i.a['href'])

從上面得到的小說連結獲得下一層想要的東西，這次用 html.parser ，這個能爬全部，比上面 lxml 效果好

title=[]
lianjie_zhangjie=[]
for i in lianjie:
    yuanma_xiaoshuoye=requests.get(i)   #獲取小說原始碼
    yuanma_xiaoshuoye.encoding='gbk'
    html_yuanma_xiaoshuoye=BeautifulSoup(yuanma_xiaoshuoye.text,'html.parser') # 這個牛逼，能爬全部☆☆☆☆☆☆☆☆
    title.append(html_yuanma_xiaoshuoye.find('h1').text.strip())
    x=html_yuanma_xiaoshuoye.find_all('dd')
    lianjie_shu=[]
    for j in x:
        lianjie_shu.append(j)
    lianjie_zhangjie.append(lianjie_shu)

上面得到的半截的連結，給加上前半截

lianjie_zhangjie_quan=[]
for shu in lianjie_zhangjie:
    lianjie_shu2=[]
    for i in shu:
        if i.find('a'):
            try :
                aa=i.find('a')['href']
                lianjie_shu2.append('http://www.biquge.com.tw'+aa)
            except:
                print('i get the error')
    lianjie_zhangjie_quan.append(lianjie_shu2)

從章節連結爬取章節內容，這段程式碼要執行很長時間

shu_all=[]
for shu in lianjie_zhangjie_quan[:]:
    shu_quanwen=[]
    for i in shu:
        yuanma_zhangjie=requests.get(i,headers)
        yuanma_zhangjie.encoding='gbk'
        html_zhangjie=BeautifulSoup(yuanma_zhangjie.text,'html.parser')
        try:
            shu_quanwen.append(html_zhangjie.find('div',id='content').text)
        except:
            print('hello world')
    shu_all.append(shu_quanwen)

爬下來的書進行儲存

for i in range(len(shu_all)):
    filePath=r'C:\Users\Administrater\Desktop\pachong\book\\'+title[i]+".txt"
    if not os.path.exists(filePath):
        print('hi')
        f = open(filePath, 'w', encoding="utf8")
        for j in shu_all[i]:
            f.write(j)
        f.close()

大功告成

爬取歷史類小說

導包 import requests import lxml #lxml是python的一個解析庫，支援HTML和XML的解析，支援XPath解析方式，而且解析效率非常高 from bs4 import BeautifulSoup import pandas

2018-7-12python爬取歷史天氣數據

www. 正在 history ins tran 文件 idt 寫入文件 1.3 2018-7-12python爬取歷史天氣數據 python 爬蟲天氣數據需求需要幾個城市的歷史天氣數據，為了方便最後入庫，需要的字段為城市、溫度、天氣。最好能生成一個完整的c

python爬取歷史天氣

初衷十一回家走訪親戚，家長們聊關於附近工廠的事情。筆者家附近有一個清潔能源廠，同時還有一個水庫，這種複雜的空氣對流，夏季容易遭受冰雹的侵害。以水果謀生的農戶，躲得過人禍，免不了天災。筆者暗想，用一定的大資料分析，證明這兩種存在對當地的影響。於是有了此文。程式碼網上相關資

java爬蟲爬取資源，小白必須會的入門程式碼塊

java作為目前最火的語言之一，他的實用性也在被無數的java語言愛好者逐漸的開發，目前比較流行的爬取資源，用java來做也更簡單一些,下面是爬取網頁上所有手機型號，引數等極為簡便的資料 package day1805; import java.io.IOException; im

使用python-requests+Fiddler4+appium爬蟲,批量爬取抖音小視訊

抖音很火，大家都知道，樓主決定使用python爬取抖音小視訊，人家都說天下沒有爬不到的資料，so，樓主決定試試水，純屬技術愛好，分享給大家。。 1.樓主首先使用Fiddler4來抓取手機抖音app這個包，具體配置的操作，網上有很多教程供大家參考。上面得出抖音的視訊的url，這些url均能在網頁中

python利用pandas直接爬取表格類資料

table型的表格可以直接利用pandas的read_html一句話抓取，而不需依賴requests等爬蟲庫嘗試爬取A股上市公司資料，參照了上面的文章，並做了一些改進。針對原文pandas爬取的程式碼有幾個問題： 1、預設保留了所有頁的標題列，這樣爬取完之後

python 3.3 爬取網頁資訊小例

# -*- coding:gb2312 -*- import urllib.request source_stram = urllib.request.urlopen("http://www.12306.cn/mormhweb/kyfw/") #save_path=

python-貼吧圖片爬取的一個小指令碼

學了點python，寫了個爬取貼吧圖片的小指令碼，記錄一下，其中遇到了一個坑，就是下載下來的html，百度不知道怎麼做了特殊處理，加上了註釋，結果一開始怎麼都提取不到圖片地址，最後仔細比較才發現，然後批量把註釋取消了才成功獲得url。真坑！程式碼如下：#!/usr/bin/e

Python爬蟲--爬取歷史天氣資料

寫在前面：爬蟲是老鼠屎在進入實驗室後接觸的第一個任務，當時剛剛接觸程式碼的老鼠屎一下子迎來了地獄難度的爬微博簽到資料。爬了一個多月毫無成果，所幸帶我的師兄從未給我疾言厲色，他給與了我最大的包容與理解。儘管無功而返，但是那一個月也給了老鼠屎充足的學習時間，讓老鼠屎對爬蟲

Python爬蟲之如何爬取抖音小姐姐的視訊

介紹這次爬的是當下大火的APP--抖音，批量下載一個使用者釋出的所有視訊。各位也應該知道，抖音只

python使用requests庫爬取網頁的小實例：爬取京東網頁

try Coding get 代碼 cep .get style ppa print 爬取京東網頁的全代碼： #爬取京東頁面的全代碼 import requests url="https://item.jd.com/2967929.html" try:

python爬取七星彩的開獎歷史記錄

clas 程序代碼 aip dal zip file utf mage decode 1.因為人不可能一直無休止的學習，偶爾也想做點兒別的，昨天無聊就想寫寫Python，當然我承認我上班後基本都是在學工作方面的事情，在這個崗位我也呆了三年多了，還是那句話問我什麽會不會我會給

利用python爬取點小圖片，滿足私欲(爬蟲)

.text write ret append jpg use download div pat import requestsimport reimport os,syslinks=[]titles=[] headers = { "User-Agent": "Mozi

Python爬蟲小實踐：尋找失蹤人口，爬取失蹤兒童信息並寫成csv文件，方便存入數據庫

python tor enc mini 執行 gem view 獲取但是前兩天有人私信我，讓我爬這個網站，http://bbs.baobeihuijia.com/forum-191-1.html上的失蹤兒童信息，準備根據失蹤兒童的失蹤時的地理位置來更好的尋找失蹤兒童，這

Python爬取天氣網歷史天氣數據

ast 信息爬蟲 cmake tex for roc ins fonts 使用Python的requests 和BeautifulSoup模塊，Python 2.7.12可在命令行中直接使用pip進行模塊安裝。爬蟲的核心是利用BeautifulSoup的select語句獲

python爬蟲-20行代碼爬取王者榮耀所有英雄圖片，小白也輕輕松松

需要 tis tca wcf 爬取 html eas request 有用 1.環境 python3.6 需要用到的庫： re、os、requests 2.簡介王者榮耀可以算得上是比較受歡迎的手遊之一了，應該有不少的人都入坑過農藥，我們今天的目的就是要爬取王者榮耀的高

python小白也可以分分鐘爬取微博數據，並生成有個性的詞雲，你get到了嗎？

python 爬蟲 web開發編程Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具有近二十年的發展歷史，成熟且穩定。它包含了一組完善而且容易理解的標準庫，能夠輕松完成很多常見的任務。它的語法非常簡捷和清晰，與其它大多

多線程+隊列爬取雙色球福利彩票歷史數據

sta chrome 雙色球 get page ror pad utf 爬取 #!/usr/bin/python -- coding:UTF-8 -- @Author : Anic.Mo @Time : 2018/6/18 12:51 @File : sc

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

項目實戰！爬取5萬篇好奇心日報文章，適合小白練手的實戰案例！

microsoft 找到用戶數 clas 復制 parse span 入門知識 soup Python的知識很多，基本的入門就有很多東西要學，還有各種合樣的庫要學習。很多同學學了一段時間，進展很慢，學了前面忘了後面！要麽就是揠苗助長找一些特別難的例子，結果太難了，失去信心

爬取歷史類小說

相關推薦