手寫爬蟲之糗事百科段子及神回覆

阿新 • • 發佈：2018-12-14

先貼程式碼吧，然後再說遇到的坑

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2018/10/11 16:35
# @Author  : yuantup
# @Site    : 
# @File    : jokes_.py
# @Software: PyCharm


import urllib.request
import re
import os


def open_url(url):
    head = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/5 
'
                          '37.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
    req = urllib.request.Request(url, headers=head)
    response = urllib.request.urlopen(req)
    html = response.read()
    return html


def get_content(html):
    text1 = html.decode('utf-8')
    text2 = text1.replace(' 
\n', '')
    text3 = text2.replace('<br>', '\n')
    text = text3.replace('<br/>', '\n')
    pattern = '<h2>(.*?)</h2>.*?<div class="content">.*?span>(.*?)</span>.*?<span class="stats-vote"><i class="number">(.*?)</i> 好笑</span>.*?<span class="cmt-name">(.*?)</span><div class="main-text">(.*?)<div class="likenum">.*?(\d*?)</div> 
'
    all_content_list = re.findall(pattern, text, re.S)
    print(all_content_list)

    for i in range(len(all_content_list)):
        with open('jokes_plus.txt', 'a', encoding='utf-8') as f:
            author = all_content_list[i][0]
            joker_content = all_content_list[i][1]
            fun_num = all_content_list[i][2]
            commentator = all_content_list[i][3]
            comment = all_content_list[i][4]
            dianzan_num = all_content_list[i][5]
            f.write('******這不是一條分界線*****\n\n')
            f.write(author + ':')
            print('1')
            f.write(':\n')
            f.write(joker_content)
            print('2')
            f.write('\n')
            f.write('有')
            f.write(fun_num)
            print('3')
            f.write('人覺得這個段子很好笑，你覺得呢？')
            f.write('\n')
            f.write('神評：')
            f.write('\n')
            f.write(commentator + ':')
            f.write(comment)
            f.write('    點贊數：')
            f.write(dianzan_num)
            f.write('\n\n')


def main():
    path = 'E:\spiser_sons\jokes'
    a = os.getcwd()
    print(a)
    if os.path.exists(path):
        os.chdir(path)
        print(os.getcwd())
    else:
        os.mkdir(path)
        os.chdir(path)

    for i in range(1, 21):
        url = 'https://www.qiushibaike.com/text/page/' + str(i) + '/'
        html = open_url(url)
        get_content(html)


if __name__ == '__main__':
    main()

我是將爬取的程式碼整合到一個txt檔案中，

執行結果如圖：

昨天沒仔細看，我程式碼裡是計劃爬取20頁小段子的，現在發現從第十四頁開始就和第一頁重複了！！！

用瀏覽器進入糗事百科的網址，發現確實只有13頁，當頁數大於13時，自動跳轉為第一頁。

看來以後還是要更加仔細！

最後得到的檔案及部分內容：

勉強能看，有藝術細胞的可以加工一下，hhhhh

坑一：

爬取下來的文字中夾雜這<br><br/>,使用字串的替換方法replace()，或者用re.sub()也可以

坑二：

這是我寫的正則表示式：

'<h2>(.*?)</h2>.*?<div class="content">.*?span>(.*?)</span>.*?<span class="stats-vote"><i class="number">(.*?)</i> 好笑</span>.*?<span class="cmt-name">(.*?)</span><div class="main-text">(.*?)<div class="likenum">.*?(\d*?)</div>'

可以看到裡面有很多小括號，這個時候我們用re.findall()得到的返回值是一個列表，每匹配一次列表就新增一個元素（元組），要理清他們的關係，搞混了就很難得到需要的內容

類似於這樣的：all_content_list = [(第1組資料),(第2組資料),(第3組資料)......]

每組資料裡包含6個數據，分別是

(

author,  # 段子的作者名

joker_content,  # 段子的內容

fun_num,   # 覺得段子好笑的人數

commentator,  # 神評的作者名

comment, # 神評的內容

dianzan_num  # 神評點贊人數

)

它這個編輯器自動換行了我去。

坑三（未解決）：

就是我寫的正則表示式過長，我試著用pycharm裡的燈泡解決問題，它給我換行之後就匹配不上我需要的內容了，求助各位大佬有啥好的解決辦法沒有！！！

燈泡是這個：

點選第一行後：

pycharm 也沒有警告了，但是也匹配不到東西的，還原成一行又可以成共匹配。

我自己感覺是不是因為換行之後多出了\n，或者是表示換行的'\'沒有被轉義，我怎麼感覺我找到答案了我去

試試去。。。。。

我還以為在=後面加個'r'就行。。。。。

失敗了，不行。。。。。

求助各位大佬給個建議，謝謝

手寫爬蟲之糗事百科段子及神回覆

先貼程式碼吧，然後再說遇到的坑 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/11 16:35 # @Author : yuantup # @Site : # @File : jokes_.py # @S

Python爬蟲之糗事百科段子寫入MySQL資料庫

在《Python爬取糗事百科段子》這篇文章中，我們獲取到了每一個段子的內容（content）、作者(auth)、作者主頁(home)、點贊數(votes)、評論數(comments)、段子地址(content_href)等資訊，現在我們只需要根據以上欄位名，建立資料庫表，將資訊逐條寫入資料庫就可以了

python爬蟲之糗事百科文字笑話

##執行環境 python：python3.6.5 IDE：pycharm ##依賴模組 request，re ##實現目的實現從糗事百科網站上爬取所有的文字笑話，以txt的文字儲存在程式所在資料夾內

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

爬蟲實戰1--抓取糗事百科段子

爬蟲1.提取某一頁的所有段子 # -*- coding:utf-8 -*- import urllib import urllib2 import re page = 1 url = ‘http://www.qiushibaike.com/hot/page/‘ + str(page) user_agen

python 爬蟲--糗事百科段子

decode imp rst -a paragraph 糗事百科 mozilla ont ner import reimport urllib.requestfrom docx import Documentheader=("User-Agent",‘User-Agent:

python爬蟲基礎案例之糗事百科

alt 依靠 webdriver pytho 糗事百科代碼 web 分享圖片 sel 關於爬蟲也是剛接觸，案例是基於python3做的，依靠selenium的webdriver做的，所以python3必須有selenium這個包，如果是基於谷歌瀏覽器的話需要下載谷歌瀏

糗事百科段子爬蟲

import re import urllib.request import urllib.error headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/61.0

Python 爬取糗事百科段子

爬蟲 Python 百科段子直接上代碼 #!/usr/bin/env python # -*- coding: utf-8 -*- import re import urllib.request def gettext(url,page): headers=("User-Agen

Android實戰——jsoup實現網絡爬蟲，糗事百科項目的起步

網絡數據標識爬蟲 android thumb 技術分享由於網絡數界面本篇文章包括以下內容：前言 jsoup的簡介 jsoup的配置 jsoup的使用結語對於Android初學者想要做項目時，最大的煩惱是什麽？毫無疑問是數據源的缺乏，當然可以選

Python :爬取糗事百科段子

原始碼： import urllib import random def JokeSet(Url,UserAgent) ''' Url ：動態url網址 UserAgent :動態請求頭 ''' #設定請求頭 Headers ={ "User-Agent" : UserAgent

用BeautifulSoup爬取糗事百科段子

from bs4 import BeautifulSoup import lxml import requests import html import time import html5lib import re def crawl_joke_list_usebs4(pag

NO.33——XPath選擇器爬取糗事百科段子

程式碼實戰： # -*- coding:utf-8 -*- import urllib import requests import re import chardet from lxml import etree page = 2 url = 'ht

Python 爬蟲系列：糗事百科最熱段子

image .get headers BE write findall parse 調用 with open 1.獲取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2頁 2.分析頁面，找到段子部分的位置，

scrapy框架爬蟲爬取糗事百科之 Python爬蟲從入門到放棄第不知道多少天（1）

Scrapy框架安裝及使用 1. windows 10 下安裝 Scrapy 框架：　　前提：安裝了python-pip 　　1. windows下按住win+R 輸入cmd 　　2. 在cmd 下輸入　　　　　　pip install scrapy 　　　　　　pip inst

新手學習爬蟲之建立第一個完整的scrapy工程-糗事百科

建立第一個scrapy工程-糗事百科最近不少小夥伴兒，問我關於scrapy如何設定headers的問題，時間久了不怎麼用，還真有的忘，全靠記憶去寫了，為了方便大家參考，也方便我以後的查閱，這篇文章就誕生了。本章內容從實戰出發讓我們熟悉如何用scrapy寫爬蟲，本篇內容主要是實戰，不講述過多的理論性東西，因

【爬蟲入門】【正則表示式】抓取糗事百科的段子3.0

在原有基礎上，增加寫入偽造瀏覽器的UserAgent fake_user_agent: pip install fake-useragent//這個第三方庫，維護了各種主流瀏覽器的UA標識，並且會定時更新這個庫，淘汰一些過期的UA。首先，在pycharm中安裝fake_userag

【爬蟲入門】【正則表示式】抓取糗事百科的段子2.0

在原有基礎上，增加寫入資料庫操作和網頁翻頁操作 import sqlite3, re from urllib.request import Request, urlopen class DBTool(object): """ 將資料儲存到資料庫的工具類，主要負責資料庫

【爬蟲入門】抓取糗事百科的段子1.0

爬取糗事百科資訊注意：爬取任何一個網站，首先要確定的就是這個網站是靜態網站還是動態網站。其次看看這個GET請求是否攜帶了特殊的引數。最後需要留意請求頭中的Cookie資訊。 class QSBKSpider(object): """ 爬蟲類 """

糗事百科正則爬蟲

.html == resp 加載初始 main findall print 錯誤參考博客：http://cuiqingcai.com/990.html # -*- coding:utf-8 -*- import urllib import urllib2 impor

手寫爬蟲之糗事百科段子及神回覆

相關推薦