python3 爬蟲面對如此多重複的標籤，應該怎麼爬才能爬到自己需要的資訊

阿新 • • 發佈：2019-02-20

我們知道利用BeautifulSoup解析網頁可以根據樹以及各個標籤來爬去，但是有個問題我們不能忽略，比如

1 BeautifulSoup

只要目標資訊的旁邊或者附近有標籤就可以呼叫，，不用管是幾層標籤（父輩後代輩的都可以）。

Soup.html.body.h1

Soup.body.h1

Soup.html.h1

Soup.h1

從上述可以看出來我們存在以下疑問：

1為什麼一個標籤會有這麼多表示的形式，有啥用？

2一個網頁可能有很多相同的標籤（如網頁 d標籤可能存在10個以上），那我們怎麼能定位到自己想要的標籤中？

想想這些問題確實棘手，但是如果認真品讀的話，你會發現這兩個問題相輔相成，可以互為答案。兩個問題，結合再一起，可以解決彼此的問題了

我們再遍歷標籤時，需要提取自己需要的關鍵資訊，並且需要用獨一無二的方式表達出該標籤與其他同類標籤不同，那麼問題就迎刃而解了。

多說無益我們來個幾個例子。

例子1：

我們來看下經典案例中國最好大學排名。

我們要爬去大學名字 tbody→tr→ td （找到tbody也挺重要的因為可能文章中出現多個tr，如果沒有tbody限制，可能爬去的內容會過多，或者出現爬去不到的結果）。

我們這裡根據上面的方法可以有兩種方案一種是直接爬去（更直觀，但是需要自己分出每個標籤的關係）：

這裡我們注意到奇數和偶數不一樣奇數項多了個tr的class 而偶數則沒有所有不能通過這個class來提取tr

方案一：

a=soup.find("tbody").findAll("tr")
for i in a:
    tds = i("td")#不能用tr.attrs["td"] 因為這是個列表了 而不是BeatutifulSoup型別的資料了
ulist.append([tds[0].string])

即先找到tbody標籤然後再爬去tbody下的標籤tr有了限制，然後再把tr標籤下的td標籤的string爬去出來就可以了。此方法一目瞭然，但是需要自行分析。

方案二：

soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody' 
).children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            ulist.append([tds[0].string])

這個方法就是直接在tbody中提取標籤tr 加了一個判斷 如果是標籤再執行，如果不是我們就不用過問

這樣的好處就是可以很快的提取我們想要的標籤，並且淘汰掉我們不用的標籤。

例子2

例如這個例子中，我們可以觀察到，我們要按順序爬去每一章節的小說，div→o1→li→a 如果按這個順序可以。但是我們執行完畢才會發現

爬去的是993-1008章節的資料。為什麼呢我們返回來看一下小說原來的目錄

原來他吧最新更新都放在了前面了

方案一

我們要按順序爬去只能爬第二個div

soup = BeautifulSoup(r.content, "lxml")
soup_texts = soup.find("ol", {"class":"clearfix"}).find_next("div")

for link in soup_texts.findAll("li"):
    # if link != '\n':#濾除回車
print(link.a.string +":",link.a.attrs['href'])

這裡先找到01這個標籤然後把包含01這個標籤的div找到，並且是找到第二個

意思就是找到第二個div標籤下的01標籤命名為soup_texts

然後遍歷01這個標籤找到所有的li標籤輸出a標籤下的string和href

然後就可以吧章節和章節連線找到了。

方案二

soup = BeautifulSoup(html, 'lxml')
soup_texts = soup.find('div', id = 'book_detail', class_= 'box1').find_next('div')
for link in soup_texts.ol.children:
    if link != '\n':
        print(link.text + ':  ', link.a.get('href'))

直接找div標籤然後在找第二個標籤

找到div標籤之後遍歷所有的孩子標籤，組成了一個set集合 說明children是一個集合並不是beautifulSoup的索引項並不能利用遍歷的方法索引

在集合中每一個章節內容都存在set集合裡面

我們要通過set集合索引找出來所有的有用資訊，必須過濾出去換行，才能把每個內容都涵蓋

children集合是這樣的

所以我們要避免換行符引起的干擾。

這裡我們來看下children裡面到底是怎麼樣的

我們知道單獨一行 <li><a href="http://www.136book.com/doushen/cjekxe/">第196章 .邊境小鎮</a></li>

我們是可以用BeautifulSoup分析的但是如果索引children這個集合則不能用了，

但是我們link遍歷的時候每一個都是一個小的子集類似上面單獨一行，而這小小的一行則是BeautifulSoup中的元素

則 link.string link.text都是可以用的

python3 爬蟲面對如此多重複的標籤，應該怎麼爬才能爬到自己需要的資訊

我們知道利用BeautifulSoup解析網頁可以根據樹以及各個標籤來爬去，但是有個問題我們不能忽略，比如 1 BeautifulSoup 只要目標資訊的旁邊或者附近有標籤就可以呼叫，，不用管是幾層標籤（父輩後代輩的都可以）。 Soup.html.b

Python爬蟲培訓或學習過程中，需掌握的爬取驗證碼方法

　　Python爬蟲實戰爬取驗證碼　　1.破解驗證碼常見的三種方法：　　(1)把驗證碼下載到本地，手動輸入進行破解　　(2)Tesseract光學識別模組：能夠自動識別驗證碼，準確率不高，只能識別一些簡單驗證碼　　程式碼測試　　pip install py

簽入代碼（新建分支，新建推拉請求）關聯工作項，卻找不到自己需要的工作項

一點但是 spa 由於 signed and esc 使用手冊 play 問題描述TFS 2017在用戶體驗方面，相比之前的版本已經做了非常大的提升。由於變化大，使用手冊和文檔（特別是中文）的更新不及時，在使用過程中用戶往往存在許多困惑。昨天我在頁面中簽入代碼，同時需要關

剛入行的Java程式設計師，應該如何學習提高自己？

今天我們來說一下對於一名剛入行的Java程式設計師，想要提高自己應該從何入手呢？　　第一，制定自己的職場規劃（方向）。作為職場人來說，制定自己的職場規劃是比較重要的。具體到Java程式設計師來說，要給自己定一個方向，並制定對應的階段性目標和長期目標。如果想在程

一直在做功能測試且年紀不小的你，應該怎樣才能改變這樣的困局？

職場人到了中年時，職場地位是最不穩的時候，風險最高；當人到中年時，家庭的開支是最大的，剛好孩子正值初高中，父母年紀也比較大了，到了需要照顧地時候，正是因為這二點，中年時工作本來就會有力不從心的感覺，論努力，論勤奮，論精力，都無法與年輕人相比，企業本就不是一個慈善

做為初入職的Web前端開發，應該如何儘快提高自己的能力？

說前端要懂後端的純粹是扯淡+2貨。 PS：實在受不了一群蠢貨了。什麼叫懂後端？馬丹你們先弄清楚什麼叫懂後端好了。不寫過三年五年的後端程式碼你有臉說自己懂後端？別噁心我了好不好。知道點皮毛的東西別往自己臉上貼金說這就是前端懂後端了。再說一遍，前端人員好好的做

log4j 控制檯不輸出，jar包也有，就是啟動專案，應該輸出在控制檯的日誌資訊根本就沒輸出出來！

log4j.properties程式碼： log4j.rootCategory=debug ,console ,logfile, errfile log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.ap

【Python3爬蟲-爬圖片】多執行緒爬取中國國家地理全站美圖，多圖可以提高你的審美哦

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 思路：古鎮——古鎮列表（迴圈獲取古鎮詳情href）——xx古鎮詳情（獲取所有img的src） - 1. 單分類爬： from bs4 import BeautifulSo

生活如此多嬌，我卻如此邪惡！

不知道現實滴滴 post 的人生活 bsp blog 世界王小波說：愚蠢是大的邪惡！而我不知道從什麽時候開始，竟沈寂在我是一個聰明人的遐想裏。程序的世界裏，實現了一個覺得不錯的小功能就覺得自己了不起。而現實生活裏，人際關系卻處理的亂成一團。一個奔三的人如何婆

江山如此多“膠”，引百家家具廠青睞的竟是..

環保噴膠、家具噴膠、江山如此多“膠”，為什麽它能引來數百家家具廠的青睞？原來它是憑借這些優勢深受家具廠家喜愛。1.不粉化：一哥不粉化環保噴膠重新定義行業的不粉化，室外暴曬30天不粉化，耐粉化性能優越，粘性維持時間長；2.不開膠：一哥不粉化環保噴膠廣泛適用於各種海綿、各種皮革以及各種木材等之間相互粘接。擁有超強

爬蟲_古詩文網(隊列，多線程，鎖，正則，xpath)

.get like type http pre stat apple writer except 1 import requests 2 from queue import Queue 3 import threading 4 from lxml

Python爬蟲之多執行緒，多程序

前言我們之前寫的爬蟲都是單個執行緒的？這怎麼夠？一旦一個地方卡到不動了，那不就永遠等待下去了？為此我們可以使用多執行緒或者多程序來處理。首先宣告一點！多執行緒和多程序是不一樣的！一個是 thread 庫，一個是 multiprocessing 庫。而多執行緒 thread 在 Pytho

裝置支援多箱號查詢，mybatis<if><foreach>標籤

/** * 查詢裝置資訊列表 * * @param request * @param response * @return */ @RequestMapping("devList") @ResponseBody public List<OsmDev&g

我用爬蟲爬下來91P**N七萬多條視訊，發現...

今天開個車，帶大家通過資料認識下91P**n（以下簡稱91）這個網站。之前一個假期學習了Python爬蟲，於是拿91試試手，發現91非常容易爬取，獲取頁面時只要使用cookies即可，於是果斷按照“收藏最多”排行榜爬下來全站77000條視訊，注意到網站上的視訊每天都是增長的，現在已經78000+了，我們忽

Excel多個表格，去除其他表格中的重複項

需求：有多個表格，要進行多個表格資料匹配，找出相同的資料進行整理，如下圖sheet2去除sheet4中相同的資料步驟： 1.在要處理的表格（sheet2）的空白單元格D2裡輸入=vlookup(A2,) 2.再選中“參考表格（sheet4）”中要匹配的那列資料（比

Python3爬蟲04（其他例子，如處理獲取網頁的內容）

ont htm file tle imp 獲取url con images 其他 #!/usr/bin/env python# -*- coding:utf-8 -*-import osimport reimport requestsfrom bs4 import Navi

【Django】Uwsgi+Nginx+Django2.0+Python3.7實現高併發，多執行緒，高效能

一、系統以及環境伺服器系統：Ubuntu 16.04 專案環境：python 3.7 框架：Django2.0 伺服器環境：Uwsgi、Nginx 效能監測工具：Uwsgitop 使用背景：因為Dj

Remove Duplicates from Sorted Array II(濾除重複數值，最多保留n個重複值)

/** * Remove Duplicates from Sorted Array II * * Follow up for "Remove Duplicates": * What if duplicates are allowed at most t

上千萬或上億資料（有重複），統計其中出現次數最多的N個數據. C++實現

上千萬或上億的資料，現在的機器的記憶體應該能存下。所以考慮採用hash_map/搜尋二叉樹/紅黑樹等來進行統計次數。然後就是取出前N個出現次數最多的資料了，可以用第2題提到的堆機制完成。 #in

大數據時代，IT行業竟有如此多高薪職位！

創造財富 lin 數據庫知識 hot 大數統計分析發展趨勢統架構雷達　近年來雲計算、大數據、BYOD、社交媒體、3D打印機、物聯網……在互聯網時代，各種新詞層出不窮，令人應接不暇。這些新的技術、新興應用和對應的IT發展趨勢，使得IT人必須了解甚至掌握最新的IT技能

python3 爬蟲面對如此多重複的標籤，應該怎麼爬才能爬到自己需要的資訊

相關推薦