python 特別簡單的一個小爬蟲（看著玩吧）

阿新 • • 發佈：2018-11-29

環境：python3.5 bs4 lxml這是需要安裝的

使用urllib模組來訪問頁面 bs4解析頁面，存到*.txt檔案中

#-*-  coding:utf-8  -*-
import urllib.request
import time,os
import numpy as np

from bs4 import BeautifulSoup

hds=[{'User-Agent': 'Mozilla/5.0 (Windows; U;Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}, \
     {'User-Agent': 'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.12 Safari/535.11'}, \
     {'User-Agent': 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)'}]
def search(value,page):

    url='http://so.gushiwen.org/search.aspx?type=author&page='+urllib.request.quote(str(page))+'&value='+urllib.request.quote(value)
    #拼接url使用urllib.request.quote（）把漢字和數字拼接到url裡
    time.sleep(np.random.rand() * 3)#隨機等一段時間再進行訪問
    try:
        req=urllib.request.Request(url,headers=hds[page%3])
        html_resource=urllib.request.urlopen(req)
        # print(html_resource.info()) 輸出伺服器資訊
        plain_text=html_resource.read().decode()
        return plain_text

    except (urllib.request.HTTPError,urllib.request.URLError) as e:
        print(e)

def rmline(str):
    #這是一個去除字串中的空行的函式
    data=''
    for line in str:
        l=line.strip()
        if len(l)!=0:
            data+=l
    return data

def parseHtml(html,page):

    # soup=BeautifulSoup(html,'lxml')
    # title=soup.title#獲取網頁title
    # title_name=title.name#獲取title的名字 也就是標籤的名字
    # title_string=title.string#獲取title的值
    # title_parent=soup.title.parent#title的父物件
    #
    # soup.p#獲取第一個p標籤
    # soup.p['class']#獲取第一個p標籤裡面的class值
    #
    # soup.find_all('a')#找到所有的a標籤
    # soup.find(id='***')#獲取id為***的標籤
    soup=BeautifulSoup(html,'lxml')
    with open('poem.txt',mode='a',encoding='utf-8') as f:
        f.write('第'+str(page)+'頁'+'\n')

    if page==1:
        for poem in soup.find_all("div", "sons")[1:]:
            poem_title = poem.p
            poem_title_str = poem_title.a.string
            poem_author = poem_title.next_sibling.next_sibling
            poem_author_str = poem_author.span.string
            poem_value = poem_author.next_sibling.next_sibling
            poem_value_str = list(poem_value.strings)[0]
            # 注意：.strings獲取的是generator它是迭代的。直接取值不好取，轉化成list再取值。

            with open('poem.txt', mode='a', encoding='utf-8') as f:
                f.write('題目： ' + rmline(poem_title_str)+'\n')
                f.write('作者： ' + poem_author_str+'\n')
                f.write('內容： ' + poem_value_str+'\n')
                f.write('-----------------------------------------'+'\n')

    else:
        for poem in soup.find_all("div", "sons"):
            poem_title = poem.p
            poem_title_str = poem_title.a.string
            poem_author = poem_title.next_sibling.next_sibling
            poem_author_str = poem_author.span.string
            poem_value = poem_author.next_sibling.next_sibling
            poem_value_str = list(poem_value.strings)[0]
            # 注意：.strings獲取的是generator它是迭代的。直接取值不好取，轉化成list再取值。

            with open('poem.txt', mode='a', encoding='utf-8') as f:
                f.write('題目： ' + rmline(poem_title_str)+'\n')
                f.write('作者： ' + poem_author_str+'\n')
                f.write('內容： ' + poem_value_str+'\n')
                f.write('-----------------------------------------'+'\n')




if __name__=="__main__":
    filename='poem.txt'
    if os.path.exists(filename):
        os.remove(filename)
    for page in range(1,4):
        #1，4是指頁數，也就是下載前三頁資料。下面的作者名字可以隨意改，或者寫詩的名字也可以
        parseHtml(search('納蘭性德',page), page)

python 特別簡單的一個小爬蟲（看著玩吧）

環境：python3.5 bs4 lxml這是需要安裝的使用urllib模組來訪問頁面 bs4解析頁面，存到*.txt檔案中 #-*- coding:utf-8 -*- import urllib.reques

python：每天一個小練習（生成啟用碼背後的一些簡單知識）

#生成啟用碼 #關於隨機數的生成關於 num4,num5的演示! num4: num5: #關於字串的連線 1：逗號連線，連線中間有一個空格 2：加號連線，中間無空格 3：直接連線，即兩個字元之前沒有任何符號 4：格式化%s 兩個相連有空格存在 5：

js計算時間間隔的一個小例項（計算出差時長）

/** * 計算時間間隔精確到0.5天 * @param startDate 開始時間 * @param endDate 結束時間 * @param startAmp 開始上下午 * @param endAmp 結束上下午 */function autoMaticTime(startDate,endDate

audio-基於Vue的一個小專案（上傳音樂連結）

1 標籤定義聲音，比如音樂或其他音訊流。 2 設定為自動播放的 audio 元素：autoplay=“autoplay” 但是隻有pc端可以實現移動端不行(pc端的瀏覽器要比移動端的完善很多，對有些屬性支援也會好很多) 3 audio不單單是個標籤他也是window下的一個物件，物件

stm32串列埠通訊的一個小總結（從底層進行理解）

從底層理解stm32USART串列埠通訊以前學串列埠通訊踩過很多坑，過了一段時間又有些忘了，現在問了幾個很強很強的人差不多弄懂了，現在寫一寫總結，免得以後又忘了。基本知識： 1、TDR和RDR都是USART_DR暫存器的緩衝區，指的是USART_DR的0到8位，TD

一隻簡單的網路爬蟲（基於linux C/C++）————淺談併發（IO複用）模型

Linux常用的併發模型 Linux 下設計併發網路程式，有典型的 Apache 模型（ Process Per Connection ，簡稱 PPC ）， TPC （ Thread Per Connection ）模型，以及 select 模型， poll

初遇C#：一個簡單的小程序（圓形周長，面積計算器）

編碼雙精度崩潰輸入面向對象窗口語句 readline 面向對象的語言作為一個面向對象的語言，與用戶的交互很關鍵！在此，我們可以先分析一下我們這個小程序要與用戶交互的內容：1.命名很重要，讓用戶看見這個程序就知道這個程序的作用。 2.當用戶打開這個程序時，提示

利用jdbc簡單封裝一個小框架（類似DBUtils）

add string url lar conn () 列名 lang con 利用jdbc寫的一個類似DBUtils的框架 package com.jdbc.orm.dbutils; import java.io.IOException; import java.io.

一個Python編寫的小程式（學生資訊管理系統）

def printInfo(StudentData,StudentName): """ :param StudentData: :param StudentName: :return: """ student = StudentData[Stude

使用nodeJS寫一個簡單的小爬蟲

需要安裝的依賴： requset 使用request向需要爬取的網站發起一個請求，在回撥裡使用body接收資料我選取百度相簿，作為本次爬取的網站使用百度搜素二次元萌妹子，然後在位址列裡將URL複製下來 const request = require('request'); const

python學習之 12306的一個小爬蟲

本文思路主要來源於實驗樓的教程，但是一些具體的一些細節是我自己發現的，比如哪裡獲得站點對應的3位英文編號，怎麼獲得這個查詢的url 本文用到的庫主要有requests(獲取url的內容),prettytable（讓文字輸出美觀）,argparse（命令列引數解析）關於這些

簡單小爬蟲（二）

針對上個爬蟲小程式後續做了一些修改增加了一些功能功能：開啟瀏覽器進行觀看首先我們要安裝 selenium Selenium也是一個用於Web應用程式測試的工具。Selenium測試直接執行在瀏覽器中，就像真正的使用者在操作一樣。支援的瀏覽器包括IE、Mozilla Firefox、Moz

簡單小爬蟲（一）

為了完成期末作業打算去爬一下漫畫臺這個網站 http://www.manhuatai.com/zhiyinmanke.html 一個挺不錯的網站目標是爬取漫畫臺主要模組版塊的漫畫名稱然後輸入漫畫名稱來檢視漫畫章節首先使用的是python3 from bs4 impo

python之簡單爬蟲（爬取豆瓣出版社）

ok，開始我們的實驗 1.開啟瀏覽器，輸入網址，右擊網頁，檢視網頁原始碼，這裡我用的是谷歌瀏覽器 2.看上圖我們發現許多出版社名稱，接下來我們查詢一個出版社名稱，例如重慶大學觀察下圖我們發現它們都在一個div標籤內，且class=”name” ,

運用有道api介面寫一個小翻譯（簡單版）

package com.zhidi.zuoye; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStrea

css3的一個小demo（箭頭hover變化）

rotate osi ping align pos ref block translate -m 1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta char

python學習第一彈：爬蟲（抓取博客園新聞）

結果 csv hid window 相關數解析html 可能一個 _id 前言　　說到python，對它有點耳聞的人，第一反應可能都是爬蟲~ 　　這兩天看了點python的皮毛知識，忍不住想寫一個簡單的爬蟲練練手，JUST DO IT 準備工作　　要制作數據

wxpython開發一個小遊戲（一）

添加 title RR .text all SM add author tdi # _*_ coding: utf-8 _*___author__ = ‘pythonwu‘__date__ = "2018/5/13 21:33"import wximport osclass

python知識簡單總結 - 語言基礎（一）

python基礎語言基礎基礎知識 pycharm快捷鍵快速復制光標定位到某行或者選中很多行 crtl/command + d 註釋光標定位到某行或者選中很多行 crtl/command + / 刪除（剪切）光標定位到某行或者選中很多行 crtl/command + d pychar

Python從零開始寫爬蟲（二）BeautifulSoup庫使用

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫， BeautifulSoup在解析的時候是依賴於解析器的，它除了支援Python標準庫中的HTML解析器，還支援一些第三方的解析器比如lxml等。可以從其官網得到更詳細的資訊：http://beau

python 特別簡單的一個小爬蟲（看著玩吧 ）

相關推薦

python 特別簡單的一個小爬蟲（看著玩吧）