使用Python3和BeautifulSoup爬取笑話網站內容，並匯入Excel

阿新 • • 發佈：2019-01-25

本文使用Python3和BeautifulSoup爬取網站內容，並匯入Excel。

#抓取糗事百科笑話的指令碼
import urllib.request
from bs4 import BeautifulSoup
import xlwt   #寫入檔案
import xlrd   #開啟excel檔案
import time

#返回文字式的html
def getHTML(url):
	#給標頭檔案偽裝成瀏覽器訪問
	headers = {'User-Agent': 'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}
	req = urllib.request.Request(url, headers=headers)
	return urllib.request.urlopen(req).read()

#返回一個bs4_url物件
def creatSoup(url):
	html_text = getHTML(url)
	soup_0 = BeautifulSoup(html_text,'html5lib')
	return soup_0

#新建Excel檔案和其中的一個sheet，注意傳的引數是字串格式，新建完在空間中開啟，直接使用write寫入資料
def creatExcelAndSheet(sheetName):
	#新建一個excel檔案
	file = xlwt.Workbook(encoding = 'utf-8', style_compression = 0)
	#新建一個sheet
	sheet = file.add_sheet(sheetName)
	#返回開啟的sheet物件
	return sheet,file

#執行寫入Excel的程式。引數含義 a-選擇寫入行，b-選擇寫入列，c-選擇寫入的內容（字串型別）
def writeToSheet(a,b,c):
	sheet.write(a,b,c)

#抓取結束的提示資訊,分別是頁迴圈次數和內容迴圈次數，由於結束之前頁和內容迴圈數還會+1.所以summary要-1
def summaryAllContent(a,b,url):
	print('提示：抓取結束，無更多內容！')
	print('------------------Summary------------------')
	print('您抓取的網址為%s'%url)
	print('共抓取 %d頁 共 %d個內容'%(a-1,b-1))
	print('-------------------------------------------')

#得到每一條內容的處理函式，根據不同的html需要修改
def getEachContent(eachContent):
	a = eachContent.select('div')[0]
	b = a.select('span')[0]
	sss = ''
	for s in b.strings:
		sss+=s
	return sss

sheet,file = creatExcelAndSheet('data')

i = 1
k = 1
while i <24: 
	
	# url = 'https://www.qiushibaike.com/8hr/page/1/?s=4991834' 根據url多頁的特性，找到翻頁的一個引數
	url = 'https://www.qiushibaike.com/8hr/page/' + str(i) + '/?s=4991834'
	soup = creatSoup(url)
	a_soup = soup.select('a[class=contentHerf]')  #根據關鍵字取得按list存放的內容
	contentLen = len(a_soup) #取得列表長度
	print('Info: 第%d頁有%d個笑話'%(i,contentLen))

	for eachContent in a_soup:
		sss = getEachContent(eachContent)
		writeToSheet(k,0,k)
		writeToSheet(k,1,sss)
		print('正在獲取第%d個內容...Done'%k)
		time.sleep(0.05)
		k+=1

	print('提示: 正在獲取下一頁內容...')
	i += 1
	time.sleep(3)

summaryAllContent(i,k,url)
file.save('C:/Users/me/Desktop/糗事百科Data.xls')  #這裡寫要儲存的路徑

下面是執行後的效果。

使用Python3和BeautifulSoup爬取笑話網站內容，並匯入Excel

本文使用Python3和BeautifulSoup爬取網站內容，並匯入Excel。 #抓取糗事百科笑話的指令碼 import urllib.request from bs4 import BeautifulSoup import xlwt #寫入檔案 import

PythonSpider---爬取淘寶店鋪資訊並匯入excel

挺久沒更新簡書了，之前一直在忙機器視覺的開題報告，現在又要期末複習，射頻通訊，訊號處理看的腦闊疼，所以決定寫個簡單點的爬蟲，放鬆下，換個環境，也順便鞏固下爬蟲。圖片來自網路 0.執行環境 Python3.6.5 Pycharm win10 1.爬蟲思維框架

使用Scrapy爬取笑話並存儲到檔案和MySQL

由於專案的需要，必須學習如何使用Scrapy來爬取資料。這篇部落格以爬取笑話網的資料為例，說明Scrapy的基本使用。安裝配置我的系統是Win10 64位。因為Python3並不能完全支援Scrapy，因此為了完美執行Scrapy，我們使用Pyt

Python爬蟲——4.4爬蟲案例——requests和xpath爬取招聘網站資訊

# -*-coding:utf-8 -*- ''' 使用requests模組進行資料採集，XPath進行資料篩選''' import requests from lxml import etree #

爬蟲記錄（6）——爬蟲實戰：爬取知乎網站內容，儲存到資料庫，並匯出到Excel

前面幾篇文字我們介紹了相關的爬蟲的方法爬取網站內容和網站的圖片，且儲存到資料庫中。今天呢，我們來次實戰練習，爬取知乎網站跟話題網站top的幾個問題和答案，然後儲存到資料庫中，最後把資料庫中的所有內容再匯出到Excel中。我們還是繼續之前的程式碼，同樣的程式碼

python3 簡單實現從csv文件中讀取內容，並對內容進行分類統計

tmp spa writer ict 打開文件 while 類型 spl blog 新手python剛剛上路，在實際工作中遇到如題所示的問題，嘗試使用python3簡單實現如下，歡迎高手前來優化import csv #打開文件，用with打開可以不用去特意關閉file了

爬取資訊網站的新聞並保存到excel

xls write [] web port fin text doc usr #!/usr/bin/env python#* coding:utf-8 *#author:Jacky from selenium.webdriver.common.keys import Key

JAVA 爬取指定網站的資料並存入MySQL資料庫中 maven +httpclient+jsoup+mysql

最近在做一個小專案，因為要用的資料爬取，所以研究了好多天，分享一下自己的方法目錄結構：自己建立maven工程，匯入相關依賴：pom.xml <?xml version="1.0" enco

12.15解析一個郵箱地址是否合法，如果合法則打印出使用者名稱部分和該郵箱所屬的網站域名，如果郵箱地址不合法則顯示不合法的原因

解析一個郵箱地址是否合法，如果合法則打印出使用者名稱部分和該郵箱所屬的網站域名，如果郵箱地址不合法則顯示不合法的原因 package Text6; import java.util.Scanner; import org.omg.Messaging.SyncScopeHelper;

利用Python爬取攝影網站圖片，切勿商用

今天我們繼續爬取一個網站，這個網站為 http://image.fengniao.com/ ，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，不要用於商業目的，不出意外，蜂鳥是有版權保護的網站。 Python學習資料或者需要程式碼、視訊加Python學習群：9604104

爬蟲系列3：Requests+Xpath 爬取租房網站信息並保存本地

imp 情侶 http \n 頻率 lazy desktop 火車 mode 數據保存本地參考前文爬蟲系列1：https://www.cnblogs.com/yizhiamumu/p/9451093.html 參考前文爬蟲系列2：https://www.cnblo

github更新網站內容，然後在本地commit，pull，push後，重新整理網站沒有出現更新的內容

我想問下，我在github上搭建了自己的網站，然後在本地commit，pull，push後，重新整理網站沒有出現更新的內容，但是倉庫裡面確實是有提交上去了，之前也不會出現這個問題，想請教下大神們該如何解決這個問題

python 爬取圖片網站圖片連結並下載收集

python進行圖片網站圖片收集，主要分成如下幾個部分：（1）進行網站html頁面分析，分析你要找到的圖片的連結，以及每個連結url是怎麼構成的，如果通過爬取頁面的html獲取這些圖片的連結（2）通過python將這些已知連結的圖片下載下來注意這行程式碼header = {"

使用Python爬取中國大學排名，並格式化對其輸出內容

首先，我們需要注意幾點 1.可以使用isinstance語句配合bs4庫中的bs4.element.Tag判斷獲取到的物件是不是標籤物件. 2.輸出內容並且要求他用空白補齊時，系統預設用的是英文空白

C# 正則表示式抓取網頁上某個標籤的內容，並替換連結地址和圖片地址

#region 獲取第三方網站內容 //獲取其他網站網頁內容的關鍵程式碼 WebRequest request = WebRequest.Create(第三方的網站地址); WebResponse response = requ

.net使用webBrowser爬取頁面標籤內容，簡單爬蟲的幾個關鍵方法

在.net中可能會碰到需要使用webBrowser進行網頁標籤的操作的情況，下面介紹幾個常用方法，僅供參考特別說明wb_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)需要給

26、自動爬取每日的天氣，並定時把天氣數據和穿衣提示發送到你的郵箱

The sch run parser ali pri mes use content 自動爬取每日的天氣，並定時把天氣數據和穿衣提示發送到你的郵箱。之所以選擇這個相對樸實的爬蟲項目，是因為天氣每天都會有變化，那麽在學完這一關之後，不出意外，你就可以在明早收到天氣信

expect實現自動scp和ssh登錄後執行命令，並向bash提供返回值

ip地址用戶名 expect 密碼 #!/bin/bash # 全局變量：用戶名，普通用戶密碼，root密碼 loginname="xxxx" userpwd="xxxx" rootpwd="xxxx" # 讀取iplist(逐行存儲IP地址) cat /root/iplist | whi

爬取N個網頁，並將其記錄

color 完整 encode down utf 模塊 round 初始函數挖的坑，終於能填上了，先共享出來，大家有個對比參考。也幫忙找找錯誤。我也正在看，看看原來是哪裏出了問題。下面這段代碼已經實現了網頁的爬取：其效果為：下面給出詳細說明：上圖中出現的 _

寫函數，檢查傳入列表的長度，如果大於2，那麽僅保留前兩個長度的內容，並將新內容返回給調用者。

pre def code 兩個 pan bsp int style 調用 def f1(*p): for i in p: # print(i) l = len(i) if l > 2: r

使用Python3和BeautifulSoup爬取笑話網站內容，並匯入Excel

相關推薦