python 爬蟲系列02-小說

阿新 • • 發佈：2018-11-06

本爬蟲為網路上的..

# # -*- coding:UTF-8 -*-
# from bs4 import BeautifulSoup
# import requests
# if __name__ == '__main__':
#     target = 'https://www.biqukan.com/1_1094/17967679.html'
#     req = requests.get(url=target)
#     html = req.text
#     bf = BeautifulSoup(html)
#     tests = bf.find_all('div', class_ = 'showtxt') 

#     print(tests)
# -*- coding:UTF-8 -*-
# from bs4 import BeautifulSoup
# import requests
# if __name__ == "__main__":
#      target = 'http://www.biqukan.com/1_1094/5403177.html'
#      req = requests.get(url = target)
#      html = req.text
#      bf = BeautifulSoup(html)
#      texts = bf.find_all('div', class_ = 'showtxt') 

#      print(texts[0].text.replace('\xa0'*8,'\n\n'))
# -*- coding:UTF-8 -*-
#

# -*- coding:UTF-8 -*-
# from bs4 import BeautifulSoup
# # import requests
# #
# # if __name__ == "__main__":
# #     server = 'http://www.biqukan.com/'
# #     target = 'http://www.biqukan.com/1_1094/'
# #     req = requests.get(url=target) 

# #     html = req.text
# #     div_bf = BeautifulSoup(html)
# #     div = div_bf.find_all('div', class_='listmain')
# #     a_bf = BeautifulSoup(str(div[0]))
# #     a = a_bf.find_all('a')
# #     for each in a:
# #         print(each.string, server + each.get('href'))
# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests, sys

"""
類說明:下載《筆趣看》網小說《一念永恆》
Parameters:
    無
Returns:
    無
"""


class downloader(object):

    def __init__(self):
        self.server = 'http://www.biqukan.com/'
        self.target = 'http://www.biqukan.com/1_1094/'
        self.names = []  # 存放章節名
        self.urls = []  # 存放章節連結
        self.nums = 0  # 章節數

    """
    函式說明:獲取下載連結
    Parameters:
        無
    Returns:
        無
    Modify:
        2017-09-13
    """

    def get_download_url(self):
        req = requests.get(url=self.target)
        html = req.text
        div_bf = BeautifulSoup(html)
        div = div_bf.find_all('div', class_='listmain')
        a_bf = BeautifulSoup(str(div[0]))
        a = a_bf.find_all('a')
        self.nums = len(a[15:])  # 剔除不必要的章節，並統計章節數
        for each in a[15:]:
            self.names.append(each.string)
            self.urls.append(self.server + each.get('href'))

    """
    函式說明:獲取章節內容
    Parameters:
        target - 下載連線(string)
    Returns:
        texts - 章節內容(string)
    Modify:
        2017-09-13
    """

    def get_contents(self, target):
        req = requests.get(url=target)
        html = req.text
        bf = BeautifulSoup(html)
        texts = bf.find_all('div', class_='showtxt')
        texts = texts[0].text.replace('\xa0' * 8, '\n\n')
        return texts

    """
    函式說明:將爬取的文章內容寫入檔案
    Parameters:
        name - 章節名稱(string)
        path - 當前路徑下,小說儲存名稱(string)
        text - 章節內容(string)
    Returns:
        無
    Modify:
        2017-09-13
    """

    def writer(self, name, path, text):
        write_flag = True
        with open(path, 'a', encoding='utf-8') as f:
            f.write(name + '\n')
            f.writelines(text)
            f.write('\n\n')


if __name__ == "__main__":
    dl = downloader()
    dl.get_download_url()
    print('《一年永恆》開始下載：')
    for i in range(dl.nums):
        dl.writer(dl.names[i], '一念永恆.txt', dl.get_contents(dl.urls[i]))
        sys.stdout.write("  已下載:%.3f%%" % float(i / dl.nums) + '\r')
        sys.stdout.flush()
    print('《一年永恆》下載完成')

python 爬蟲系列02-小說

本爬蟲為網路上的.. # # -*- coding:UTF-8 -*- # from bs4 import BeautifulSoup # import requests # if __name__ == '__main__': # target = 'https://www.biqu

Python爬蟲系列之微信小程式實戰

Python爬蟲系列之微信小程式實戰基於Scrapy爬蟲框架實現對微信小程式資料的爬取首先，你得需要安裝抓包工具，這裡推薦使用Charles，至於怎麼使用後期有時間我會出一個事例最重要的步驟之一就是分析介面，理清楚每一個介面功能，然後連線起來形成介面串思路,再通

Python爬蟲系列（一）：從零開始，安裝環境

tar 公司 pip nal 網頁解析目標 http caption 在上一個系列，我們學會使用rabbitmq。本來接著是把公司的celery分享出來，但是定睛一看，celery4.0已經不再支持Windows。公司也逐步放棄了服役多年的celery項目。恰好，公司找

Python爬蟲系列（四）：Beautiful Soup解析HTML之把HTML轉成Python對象

調用 nor 結束版本現在 name屬性 data 官方文檔 get 在前幾篇文章，我們學會了如何獲取html文檔內容，就是從url下載網頁。今天開始，我們將討論如何將html轉成python對象，用python代碼對文檔進行分析。 (牛小妹在學校折騰了好幾天，也沒把h

Python爬蟲系列：判斷目標網頁編碼的幾種方法

qpi data- tps 分享運行 ofo html nbsp 來看在爬取網頁內容時，了解目標網站所用編碼是非常重要的，本文介紹幾種常用的方法，並使用幾個網站進行簡單測試。代碼運行結果：從不同國家的幾個網站測試結果來看，utf8使用的較多（對於純英文網站，用什

Python 爬蟲系列：糗事百科最熱段子

image .get headers BE write findall parse 調用 with open 1.獲取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2頁 2.分析頁面，找到段子部分的位置，

Python爬蟲系列 - 初探：爬取旅遊評論

blank .text http fir win64 ati coo get stat Python爬蟲目前是基於requests包，下面是該包的文檔，查一些資料還是比較方便。 http://docs.python-requests.org/en/master/ 爬取某旅遊

python 爬蟲系列03--職位爬蟲

職位爬蟲 import requests from lxml import etree cookie = { 'Cookie':'user_trace_token=20181015184304-692c4bf4-4e71-4cfd-8906-6219253e0ae8; _ga=GA1

Python爬蟲系列 - 初探：爬取新聞推送

http nec apple 下標 for pri Language span round Get發送內容格式 Get方式主要需要發送headers、url、cookies、params等部分的內容。 t = requests.get(url, headers = hea

python爬蟲系列(3.4-使用xpath和lxml爬取伯樂線上)

一、爬取的程式碼 1、網站地址 2、具體實現程式碼 import requests from lxml import etree class JobBole(object): def __init__(self): &

python爬蟲系列(3.2-lxml庫的使用)

一、基本介紹 1、lxml 是一個HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 資料。 2、lxml和正則一樣，也是用 C 實現的，是一款高效能的 Python HTML/XML 解析器，我們可

python爬蟲系列(3.1-xpath語法的介紹)

一、關於xpath的認識 xpath（XML Path Language）是一門在XML和HTML文件中查詢資訊的語言，可用來在XML和HTML文件中對元素和屬性進行遍歷。二、xpath的基本語法 1、選擇節點 2、謂語謂語是用來找出某個特定的

python爬蟲系列(2.3-requests庫模擬使用者登入)

一、模擬登入拉鉤網 import re import requests class LoginLaGou(object): """ 模擬登入拉鉤網 """

python爬蟲系列(2.2-requests庫的高階使用)

一、設定代理ip 1、直接在請求的時候加上proxies就可以,注意我們一般會寫上http和https的,這樣當遇到http請求就會走http字典對應的代理 2、具體程式碼 import requests if __name__ == "__main__":

python爬蟲系列(2.1-requests庫的基本的使用)

一、基本認識 1、傳送一個get請求 import requests if __name__ == "__main__": # 獲取一個get請求 response = requests.get('http://htt

python爬蟲系列(1.3-關於cookie的認識)

一、關於http無狀態的認識在網站中,http請求是無狀態的,也就是說第一次與伺服器連線後並且接收到伺服器的返回值的時候,就斷開連線,等第二次連線的時候,又是一個新的連線,伺服器並不知道之前連線過。cookie的出現就是解決這個問題.主要原理: 使用者第一次登陸後,伺服器給瀏覽器返回coo

python爬蟲系列(1.2-urllib模組中request 常用方法)

一、request.Request方法的使用上一章節中介紹了request.urlopen()的使用,僅僅的很簡單的使用,不能設定請求頭及cookie的東西,request.Request()方法就是進一步的包裝請求. 1、原始碼檢視引數 class Request: &nb

python爬蟲系列(1.1-urllib中常用方法的介紹)

一、關於urllib中常用方法的介紹 1、urlopen網路請求 urlopen方法是網路請求的方法,預設是get請求,如果傳遞了data是post請求 from urllib import request

python爬蟲系列(4.5-使用urllib模組方式下載圖片)

一、回顧urllib包中下載圖片的方式 1、urlretrieve下載檔案 from urllib import request if __name__ == "__main__": # 下載整個網頁

python爬蟲系列(4.3-資料儲存到mysql資料庫中)

一、如果你對mysql資料庫還不太熟悉二、基本操作 1、在python中使用pymysql連線mysql 2、安裝包 pip3 install pymysql 3、定義一個建立資料庫的方法(或者手動、SQL語句建立資料庫) # 定義一個建立資料庫的函

python 爬蟲系列02-小說

相關推薦