Python爬蟲__爬取貼吧圖片和文字

阿新 • • 發佈：2018-12-30

1. 爬取圖片

1.1 前言

我當年年少，還不知道爬蟲這個東西，又想把書法圖片儲存下來，於是一張張地把圖片另存為，現在用爬蟲來爬取每一樓的書法圖片，解放一下人力：

1.2 爬取圖片的流程可以總結如下：

1)爬取網頁的html程式碼；
2)提取其中的圖片url；
3)下載圖片到本地。

1.3 程式碼

#coding:utf-8
#---------------------------------
#Created by linxiaobai 2016/09/19
#爬取百度貼吧圖片
#--------------------------------- 

import urllib2
import urllib
import re

#開啟貼吧的html
url="http://tieba.baidu.com/p/3825973883"
response=urllib2.urlopen(url)
html=response.read()

#提取其中所有的圖片url(使用正則)
reg=r'src="(http://imgsrc.*?\.jpg)"'
imgre=re.compile(reg)
imlist=re.findall(reg,html)

#下載圖片到本地
cnt=1
for imurl in imlist:
    print cnt
    print 
 imurl
    urllib.urlretrieve(imurl,"%s.jpg"%cnt);
    cnt+=1

1.4 爬取結果：

這裡寫圖片描述

2. 爬取文字

2.1 前言

http://tieba.baidu.com/p/584926093
此樓的標題是“誰來說說李清照和納蘭容若這兩人”，大致就是粉絲對兩位詞人的比較，比較有意思的是，吧主怕易安粉和容若粉打起來，還特意出來宣告“我早就說過禁止對詞人進行比較”云云……

我們要做的工作就是把每一樓發表的文字提取出來。

2.2 html格式分析

這裡寫圖片描述

這是樓主發表的文字，html格式如下，並且其他各樓的格式也都與此一致：

這裡寫圖片描述

可以看到每一樓的文字內容都是位於一個div中，而div的classs屬性是唯一的，因此，可以利用class屬性定位到文字的div。

res=soup.find_all('div',class_="d_post_content j_d_post_content ")

進一步，可以使用get_text()函式獲取div中的文字。

2.3 步驟梳理

綜上，可以總結出如下步驟：
1)爬取貼吧html內容；
2)獲取文字所在的div(使用BeautifulSoup);
3)獲取div中的文字

2.4 程式碼

#coding:utf-8
#---------------------------------
#Created by linxiaobai 2016/09/21
#爬取百度貼吧的文字內容
#---------------------------------
import urllib2
import re
from bs4 import BeautifulSoup
import urlparse

#修改編碼
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

#1)爬取貼吧html內容
html_con=urllib2.urlopen("http://tieba.baidu.com/p/584926093").read()

#2)獲取文字所在的div(使用BeautifulSoup);
soup=BeautifulSoup(html_con,'html.parser',from_encoding='utf-8')
res=soup.find_all('div',class_="d_post_content j_d_post_content ")

#寫入檔案，寫入的標籤純屬格式需要，可以忽略
fout=open("lqz.html",'w')
fout.write("<html>")
fout.write("<head>")
fout.write("<meta charset='utf-8'/>")
fout.write("<body>")

for post in res:
    fout.write("<p>")
    fout.write(post.get_text())#3)獲取到div標籤下的文字內容
    fout.write("</p><br/>")

fout.write("</body>")
fout.write("</head>")
fout.write("</html>")

2.5 爬取結果

這裡寫圖片描述

尋找一下吧主害怕民眾打架，發出的警告：

這裡寫圖片描述

2.6 程式碼優化

其實也談不上優化，因為還沒有化成oo形式，只是縮短了程式碼的長度，另外，增加爬取使用者名稱字，結果輸出到列表中。

#coding:utf-8
#---------------------------------
#Created by linxiaobai 2016/09/21
#爬取百度貼吧的文字內容
#增加爬取使用者名稱
#---------------------------------
import urllib2
import re
from bs4 import BeautifulSoup
import urlparse

#修改編碼
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

#1)爬取貼吧html內容
html_con=urllib2.urlopen("http://tieba.baidu.com/p/584926093").read()

#2)獲取文字所在的div(使用BeautifulSoup);
soup=BeautifulSoup(html_con,'html.parser',from_encoding='utf-8')
res_name=soup.find_all('li',class_="d_name")
res_post=soup.find_all('div',class_='d_post_content j_d_post_content ')

#寫入檔案，寫入的標籤純屬格式需要，可以忽略
fout=open("lqz.html",'w')
fout.write("<html><head><meta charset='utf-8'/><body><table>")

cnt=1
for i in range(len(res_name)):
    fout.write("<tr>")
    fout.write("<td>%s</td>"%str(cnt))
    fout.write("<td>%s</td>"%res_name[i].get_text())
    fout.write("<td>%s</td>"%res_post[i].get_text())#3)獲取到div標籤下的文字內容
    fout.write("</tr>")
    cnt+=1

fout.write("<table></body></head></html>")

輸出結果。每一行的內容，從左到右依次是：序號，使用者名稱，使用者發表的文字：

這裡寫圖片描述

Python爬蟲__爬取貼吧圖片和文字

1. 爬取圖片 1.1 前言我當年年少，還不知道爬蟲這個東西，又想把書法圖片儲存下來，於是一張張地把圖片另存為，現在用爬蟲來爬取每一樓的書法圖片，解放一下人力： 1.2 爬取圖片的流程可以總結如下： 1)爬取網頁的ht

Python爬蟲入門——爬取貼吧圖片

最近忽然想聽一首老歌，“I believe” 於是到網上去搜，把幾乎所有的版本的MV都看了一遍（也是夠無聊的），最喜歡的還是最初版的《我的野蠻女友》電影主題曲的哪個版本，想起女神全智賢，心血來潮，於是就想到了來一波全MM的美照，哪裡有皁片呢？自然是百度貼吧了。放上鍊接-—

python 用BeautifulSoup爬取貼吧圖片

# _*_ coding:utf-8 _*_ import urllib from bs4 import BeautifulSoup def get_content(url): """ doc.""" html = urllib.urlopen(url) content

python-關於爬蟲爬取貼吧圖片

#利用xpath解析列表資料 from lxml import etree import requests import os # 需求：爬取百度貼吧圖片,翻頁，下載圖片儲存到本地 # 流程： # 1、構建url和headers # 2、傳送請求、獲取響應 # 3、解析列表

python批量下載上次論文，還在爬取貼吧圖片？快用批量下載sci論文吧，根據標題名或者DOI批量下載 scihub 科研下載神器

昨晚在下載scil論文，一共295篇，手動下載的話豈不是要累si? 於是想到有沒有批量下載sci論文的。在web of science 上匯出下載問下的標題、DOI等txt檔案，然後篩選得到DOI和標題，儲存為新檔案。通過迴圈得到DOI與標題，下載並儲存成標題命名。程式參考如下

Python實現爬取貼吧圖片

導讀：最近周邊朋友學python的越來越多，毫無意外的是，大家都選擇了爬蟲入門。這不難理解。Python有豐富的庫使用，使得爬蟲的實現容易很多，學習之後，回報明顯，容易獲得成就感。總結起來就是：讓人有繼續學下去的慾望。我偏巧例外，先走了Python web。雖然

Python爬蟲 -下載百度貼吧圖片

先放上程式的程式碼 import urllib.request import os import easygui as g import re def url_open(url): req = urllib.request.Request(url)

爬蟲Spider--爬取貼吧

輸入起始頁的靈活爬取 # - * - coding: UTF-8 - * - """ import urllib2 url = "http://www.baidu.com" #IE 9.0 的 User-Agent，包含在 ua_header裡 ua_header = {"User-Agent

Python爬蟲：爬取指定網址圖片

import re import urllib.request def gethtml(url): page=urllib.request.urlopen(url) html=page.

Python爬蟲之爬取內涵吧段子（urllib.request）

引言在寒假開始的時候就打算學習爬蟲了，但是沒有想到一入坑到現在還沒有出坑，說多了都是淚 T_T 我準備介紹的這個庫是我初學爬蟲時候用到的，比較古老，所以我只用了一兩次就轉向了requests了

沒有內涵段子可以刷了，利用Python爬取段友之家貼吧圖片和小視頻(含源碼)

python 興趣爬蟲職業由於最新的視頻整頓風波，內涵段子APP被迫關閉，廣大段友無家可歸，但是最近發現了一個“段友”的app，版本更新也挺快，正在號召廣大段友回家，如下圖，有興趣的可以下載看看（ps：我不是打廣告的，沒收廣告費的）同時，之前同事也發了一個貼吧的段子聚居地，客官稍等，馬

python爬蟲四：爬取貼吧資料

# -*- coding: utf-8 -*- import requests import time from bs4 import BeautifulSoup import io import sys #sys.stdout = io.TextIOWrapper(sys

Python爬取貼吧多頁圖片

Python爬取貼吧圖片都只能爬取第一頁的，加了迴圈也不行，現在可以了。 #coding:utf-8 import urllib import urllib2 import re import o

python爬蟲(13)爬取百度貼吧帖子

爬取百度貼吧帖子一開始只是在網上看到別人寫的爬取帖子的文章，然後自己就忍不住手癢自己鍛鍊一下，然後照著別人的寫完，發現不太過癮，畢竟只是獲取單個帖子的內容，感覺內容稍顯單薄，然後自己重新做了修改，把它變成重寫成了一個比較強大的爬蟲精簡版本簡介通過帖子的地址，獲

Python爬蟲例項--爬取百度貼吧小說

Python爬蟲例項–爬取百度貼吧小說寫在前面本篇文章是我在簡書上寫的第一篇技術文章，作為一個理科生，能把僅剩的一點文筆拿出來獻醜已是不易，希望大家能在指教我的同時給予我一點點鼓勵，謝謝。一.介紹小說吧：顧名思義，是一個小說

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

爬取貼吧裡的任意一張圖片

爬取百度貼吧隨便一頁裡的圖片想爬圖片了，玩玩 import re import urllib user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’ headers = {‘User-Agent’:user_agent}

python：爬取貼吧的某個吧的網頁資訊

#-*-coding:utf-8-*- import urllib #負責url編碼處理 import urllib2 import sys import os if sys.getdefaultencoding() != 'utf-8': reload(sys)

初涉爬蟲時的requests庫---爬取貼吧內容

requests庫在爬蟲的實踐開發運用中較為常用，實現HTTP請求協議時方法簡單，操作方便，易於實現。對於一般的靜態網頁，都可以方便抓取想要的內容，比起scrapy等框架有明顯的優勢，爬取定向的簡單內容，是極好的。下面就是運用requests模組，實現一個簡單的爬取貼吧網

Python爬蟲小試——爬取圖片

如果是直接裝了Anaconda整合開發環境的，就可以直接移步原始碼了否則的話，在爬取圖片之前要安裝幾個包第一個：bs4包，需要用到其中的BeautifulSoap，是一個功能強大的網頁解析工具 pip3 install bs4 第二個：requests包，

Python爬蟲__爬取貼吧圖片和文字

1. 爬取圖片

1.1 前言

1.2 爬取圖片的流程可以總結如下：

1.3 程式碼

1.4 爬取結果：

2. 爬取文字

2.1 前言

2.2 html格式分析

2.3 步驟梳理

2.4 程式碼

2.5 爬取結果

2.6 程式碼優化

相關推薦