python+BeautifulSoup爬取不老歌的網頁正文

阿新 • • 發佈：2019-02-14

不老歌上有很多小說，想把他們都集中為一個txt放在手機裡看。下面程式碼針對以年份歸檔好的文章。

from bs4 import BeautifulSoup
import requests

import time
import re
def getContent(url):
    from bs4 import BeautifulSoup
    import requests
    r = requests.get(url)
    r.encoding = 'gb2312'
soup = BeautifulSoup(r.text, 'lxml')
    title = soup.find('h3' 
)
    title = title.text
    content = soup.find(attrs={'class':'blg-content'})
    txt = title.encode('utf-8')+content.get_text().encode('utf-8')
    return txt
f = open("shaluxiu.txt",'w+')
url = "http://bulaoge.net/archives.blg?dmn=expertff&t=y&d=2017"
head = 'http://bulaoge.net'
r = requests.get(url)
r.encoding = 'gb2312' 
#gbk和utf-8相容更有問題，必須要用gb2312
#用bs解析頁面
soup = BeautifulSoup(r.text, 'lxml')
website=[]
No=0
for link in soup.find_all("a"):#尋找所有的a標籤
txt = link.get_text()
    if txt.find(u"殺戮秀")>=0:#找到需要的連線
#<a href="/topic.blg?dmn=expertff&tid=3215734#Content" target="_blank">殺戮秀 95.上城的娛樂</a>  要提取中間的地址
 
a = str(link)
        s = a.find('/')
        m1 = a.find('&')
        m2 = a.find('tid')
        e = a.find('target')
        #拼接具體文章的地址
http = head+a[s:m1+1]+a[m2:e-2]
        #print http
website.append(http)
        No = No + 1
#提取文字到txt
while No > 0:
    web = website[No-1]
    content = getContent(web)
    f.write(content+"\t" + "\n")
    No = No-1
f.close()
print "儲存結束"

python+BeautifulSoup爬取不老歌的網頁正文

不老歌上有很多小說，想把他們都集中為一個txt放在手機裡看。下面程式碼針對以年份歸檔好的文章。 from bs4 import BeautifulSoup import requests import time import re def getContent(url)

Python BeautifulSoup 爬取筆趣閣所有的小說

http bs4 soup decode dom 數據結構 con lock lis 這是一個練習作品。用python腳本爬取筆趣閣上面的免費小說。環境：python3類庫：BeautifulSoup數據源：http://www.biqukan.cc 原理就是偽裝正常

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_stat

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(ur

Python For 和 While 迴圈爬取不確定頁數的網頁！

第二種是不直觀顯示網頁總頁數，需要在後臺才可以檢視到，比如之前爬過的虎嗅網，文章見：私信菜鳥 007 獲取神祕大禮包！第三種是今天要說的，不知道具體有多少頁的網頁，比如豌豆莢：對於，前兩

[原創]python爬蟲之BeautifulSoup,爬取網頁上所有圖片標題並存儲到本地文件

%20 分享圖片本地 col cbc quest 執行 python div from bs4 import BeautifulSoup import requests import re import os r = requests.get("https:/

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

python動態爬取網頁

匹配應用 https select idt beautiful 檢查選擇 path 簡介有時候，我們天真無邪的使用urllib庫或Scrapy下載HTML網頁時會發現，我們要提取的網頁元素並不在我們下載到的HTML之中，盡管它們在瀏覽器裏看起來唾手可得。這說明我們想

python 爬蟲 requests+BeautifulSoup 爬取巨潮資訊公司概況代碼實例

pan 字符 selenium 5.0 target 自我 color list tails 第一次寫一個算是比較完整的爬蟲，自我感覺極差啊，代碼low，效率差，也沒有保存到本地文件或者數據庫，強行使用了一波多線程導致數據順序發生了變化。。。貼在這裏，引以為戒吧。 #

Python 利用 BeautifulSoup 爬取網站獲取新聞流

lxml odi creat times 對比文件中 lse win 危機 0. 引言　　介紹下 Python 用 Beautiful Soup 周期性爬取 xxx 網站獲取新聞流；圖 1 項目介紹 1. 開發環境　　Python：　　　　

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

requests與BeautifulSoup爬取網頁圖片

requests+BeautifulSoup爬取網頁圖片最近一直抽時間在看requests+BeautifulSoup爬取網頁內容這一塊的內容，所以，打算把自己看的總結一下，分享也是一種學醫，給自己做做筆記。 1.首先，我們看一下requests庫 requests

selenium+python爬取資料跳轉網頁

專案要做一個四個層級欄的資料抓取，而且點選查詢後資料會在新跳出的網頁。原始碼如下註釋解釋 from selenium import webdriver import selenium #from time import sleep as sp url='http://202.127.42.15

python：爬取貼吧的某個吧的網頁資訊

#-*-coding:utf-8-*- import urllib #負責url編碼處理 import urllib2 import sys import os if sys.getdefaultencoding() != 'utf-8': reload(sys)

python簡單爬取網頁文字操作體會

自上次成功嘗試爬取了靜態頁面的圖片之後，本白又跟著另一篇博文做了一下爬取網頁文字的嘗試。基本程式碼都是來源於該篇博文，本人只是做了輕微修改。簡單的實現爬蟲爬取網頁文字和圖片以python3為背景，這裡還是先定義一個讀取html頁面資訊的函式： import urllib.

Python爬蟲-爬取鬥魚網頁selenium+bs

爬取鬥魚網頁（selenium+chromedriver得到網頁，用Beasutiful Soup提取資訊） ============================= ================================= =============================

利用BeautifulSoup爬取網頁內容

利用BeautifulSoup可以很簡單的爬取網頁上的內容。這個套件可以把一個網頁變成DOM Tree 要使用BeautifulSoup需要使用命令列進行安裝，不過也可以直接用python的ide。基礎操作 : ① 使用之前需要先從bs4中匯入包：from

python使用selenium爬取js加密的網頁

python使用selenium爬取js加密的網頁我們經常使用Python從網站上爬取我們喜歡的圖片，比如從煎蛋網爬取妹子圖。現在雖然煎蛋網取消了“OOXX”欄目，但是至少把名字換成了隨手拍，我今天想從該網站爬取妹子圖，去發現沒有辦法從爬取的程式碼中找到 ‘.jpg’ 關鍵詞，這就尷尬了

python 簡單爬取本地文件與爬取網頁使用requests和bs4，及自己問題的解決

爬取本地文件： # -*- coding: cp936 -*- #import requests from bs4 import BeautifulSoup def getZY

python+BeautifulSoup爬取不老歌的網頁正文

相關推薦