BeautifulSoup，一碗美麗的湯，一個隱藏的大坑

阿新 • • 發佈：2018-10-19

amp 標簽隱藏網頁 all process print輸出網絡爬蟲 tree

        python 網絡爬蟲常用的4大解析庫助手：re正則、etree xpath、scrapy xpath、BeautifulSoup。（因為etree xpath和scrapy xpath用法上有較大的不同，故沒有歸為一類），本文來介紹BeautifulSoup一個少為人知的坑，見示例：
        例1(它是長得不一樣， 柬文勿怪)：
                    content = """
    <html>
         <body>
          <div class="td-post-content td-pb-padding-side">
           <p>
            <img  class="alignnone size-full wp-image-122426" 
        data-recalc-dims="1" height="352" 
        src="https://i2.wp.com/img.postnews.com.kh/2017/01/Anal-Itching.jpg?resize=630%2C352&amp;ssl=1" 
        width="630"/>
           </p>

           <p>
            <img  class="alignnone size-full wp-image-122427" 
        data-recalc-dims="1" height="473" 
        src="https://i1.wp.com/img.postnews.com.kh/2017/01/Anal-Itching1.jpg?resize=630%2C473&amp;ssl=1" 
        width="630"/>
           </p>
           <p>
            ????????????????? ????????????????????????????? 
        ????????????????????????????????????????????????????????????????? 
        ????????????????????????? ??????????????????????????
           </p>
           <p>

            <img  class="alignnone size-full wp-image-122427" 
        data-recalc-dims="1" height="473" 
        src="https://i1.wp.com/img.postnews.com.kh/2017/01/Anal-Itching1.jpg?resize=630%2C473&amp;ssl=1" 
        width="630"/>
           </p>

           <p>
            <img  class="alignnone size-full wp-image-122428" 
        data-recalc-dims="1" height="473" 
        src="https://i2.wp.com/img.postnews.com.kh/2017/01/Anal-Itching2.jpg?resize=630%2C473&amp;ssl=1" 
        width="630"/>
            <br/>
            <em>
             <br/>
             ??????
            </em>
            ??????????????????????? ???????????? ?????????????????? 
        ?????????????????????????????????????
           </p>
          </div>
         </body>
        </html>
""" 
    soup = BeautifulSoup(content)
img_lst = []
inner_src_list = soup.find_all(‘img‘, src=True)
for i, src in enumerate(inner_src_list):
    url=src["src"].replace("&ssl", "&amp;ssl")
    print(url)

print(soup.prettify())
    # content = soup.prettify()    # src的打印結果一樣
img_tags = soup.find_all(‘img‘)
for img in img_tags:
    print(img[‘src‘])

控制臺打印輸出如下：
        ![](http://i2.51cto.com/images/blog/201810/19/f709eed65fc5ebf49e98cc7cb67e6b91.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)
        ![](http://i2.51cto.com/images/blog/201810/19/3bda9857b63335670b3dcac69903aa74.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)
        ![](http://i2.51cto.com/images/blog/201810/19/9e41161d11fb22a9f01ec2868e870ead.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)

        怎麽會這樣：文本中的‘amp;’字符怎麽消失了？
        解釋如下：BeautifulSoup在提取src時內部會自動把符號‘&amp;’轉義成‘&‘，【網頁解析有時不一定要眼前的直覺】【不僅bs如此， etree xpath和scrapy xpath也是一樣】

        例2：
                    文本同上
                        soup = BeautifulSoup(content)
                        img_lst = []
                        inner_src_list = soup.find_all(‘img‘, src=True)       #  註意比較
                        for i, src in enumerate(inner_src_list):
                                   url=src["src"].replace("&ssl", "&amp;ssl")
                                  print(url)

                      inner_src_list = soup.find_all(‘img‘, attr={‘src‘:True})     # 註意比較
                      for i, src in enumerate(inner_src_list):
                                  url=src["src"].replace("&ssl", "&amp;ssl")
                                  print(url)

                            這裏不作打印了，直接說明現象，第一個print正常打印，第二個print輸出為空，為什麽？
                            解釋如下： 第一個find_all，把src=True視為存在src屬性的img標簽，第二個find_all，把attr={‘src‘, True}視為存在src且屬性值為True的img標簽，所以結果可想而知！

            上述如有不正之處，歡迎指出，謝謝！

amp 標簽隱藏網頁 all process print輸出網絡爬蟲 tree python 網絡爬蟲常用的4大解析庫助手：re正則、etree xpath、scrapy xpath、BeautifulSoup。（因為etree xpath和scrap

能者居之：幾句荒唐事，一碗正經酒。

剪指甲剪出血吃了兩包泡麵還有兩個包子買了瓶七兩半和兩包黃鶴樓喝了大概一半接著泡了杯茶開啟一罐啤酒看了黑澤明的羅生門還有昆汀的低俗小說還有維多利亞的祕密這就是他的一天生活此刻他又倒了一杯酒躺在沙發上他只想把自己喝醉倒頭就能睡他也不奢求能睡到第二天大中午他只希望在他上床後能儘早入睡在他看來除了

.建立一個視窗程式（JFrame），標題欄起名為“瀏覽器”，有一個選單條，有“檔案”、“編輯”、“檢視”3個選單。“檔案”選單有兩個選單項，一項是“開啟”，一項是“儲存”，“開啟”項做成子選單，有兩個

import javax.swing.*; public class Example { public static void main(String[] args) { Window win=

php求出今天的時間，一週的時間，一個月的時間

php 獲取今日、昨日、上週、本月的起始時間戳和結束時間戳的方法，主要使用到了 php 的時間函式 mktime。下面首先還是直奔主題以示例說明如何使用 mktime 獲取今日、昨日、上週、本月的起始時間戳和結束時間戳，然後在介紹一下 mktime 函式作用和用法。 01 //php獲取今日開始時間

一碗毒雞湯，讓你活的更通透

48條神回覆（來自中國經濟網）寶塔鎮河妖： 1、交朋友的標準是什麼？答：出世的智者，入世的強者，或者正常而陽光的普通人。 2、男性更看重女性的身材、臉蛋，還是思想？答：臉蛋和身材決定了我是否想去了解她的思想，思想決定了我是否會一票否決掉她的臉蛋

空姐被小夥叫阿姨，一聲謝謝阿姨，徹底紮了空姐的心！

allow obj .com http plugins med wave post name Video http://www.miaopai.com/show/WarjJwE3y-OGaV4pCcCTWuURfFkcLt1QRJMUeg__.htm 空姐被小夥叫阿姨，一

無限極結構循環，不適用任何數組函數，一次循環，並根據給出的root 快速篩選

PHP 無限極分類一次循環不使用任何函數 <?php$nodesArrays = [[‘id‘ => 1, ‘pid‘ => 0, ‘name‘ => ‘a‘],[‘id‘ => 2, ‘pid‘ => 0, ‘name‘ => ‘b‘],[‘id

學習前端開發，一段心路歷程，這個世界根本沒有速成的方法

前端前端工程師前端學習前端開發在已經成功的為大家講解了很多篇有關前端開發的技術文章之後，想跟每一位前端開發人員談一談學習前端開發的一些心得。本篇文章我就來給大家說一說我在學習前端開發過程中的一些經驗，我把它們總結成了十條警言，希望能夠對你的學習帶來一些小的幫助。我是一個做web端開發十年的老師，主要

c++有關繼承的圖解，一點點小想法，希望可以幫到你

公有繼承(public)、私有繼承(private)、保護繼承(protected) 1. 公有繼承(public) 公有繼承的特點是基類的公有成員和保護成員作為派生類的成員時，它們都保持原有的狀態，而基類的私有成員仍然是私有的，不能被這個派生類的子類所訪問。

html 裡面鑲嵌視訊，一種是video，一種是iframe

1，解決iframe不能全屏的問題 <iframe style="width:98%;height: 450px;" src='{$vo.url}' frameborder=0 allowfullscreen="true" webkitallowfullscreen="tru

Maven執行TestNG的testcase 兩種方式，一種testng.xml，一種testngCase.java

詳情參照： http://maven.apache.org/surefire/maven-surefire-plugin/examples/inclusion-exclusion.html 1.maven通過maven-surefire-plugin來執行maven專案中src/test/j

jenkins配置，一鍵打包,備份，部署多伺服器，多環境啟動

jenkins配置 1 安裝外掛系統管理->外掛管理外掛：Maven Integration plugin，Publish Over SSH 2 ssh scp 配置系統管理->系統設定 ssh server 配置：如果用的是統一的key或者密碼，則配

零基礎轉行前端，一年工作經驗，我如何入職螞蟻金服

這個月我入職螞蟻金服了。兩年前當我決定轉行時，我都沒想到會這麼順利。上個月我發表了《我如何零基礎轉行成為一個自信的前端》。在這篇文章裡我詳述了我的學習方法和學習路徑。這一次我換一個角度，脫離實施細節，從更泛的層面談談怎樣提升自己的價值，並獲得別人的認可。一，建立自我品牌，等別人找你對於像我這樣簡歷

click事件的累加繫結，一次點選，執行多次

最近在工作上遇到一個點選事件累加的問題，為元素新增點選事件效果，但是總是效果失敗，最後發現點選事件被執行了多次，上網查了一下，下邊就是解決這個問題的幾種思路 $("#adsCollection_tb .contentDel").on("click",function(){ $(

vuex簡單使用模板，一分鐘快速上手，新手入門

專案主要檔案有：testPage_1.vue，testPage_2.vue，testPage_3.vue，store中的index.js testPage_1.vue：使用最直接的方法訪問store testPage_2.vue：modules 模組化以及元件中引

jquery 圖片左右切換，一長條的顯示，點選左右移動。

菜鳥啊，想了一天才寫出來，唉。 ps: 生活無樂趣，程式碼更加無樂趣！ .hdjs{display:inline-block; width:100%; margin-top:4px; position: relative; height:101px; background: url(".

DIV+CSS佈局第一部分，一列布局，兩列布局，三列布局以及組合佈局舉例說明

DIV+CSS佈局一一列布局：<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <

直接地址，一次間接地址，多次間接地址，索引組織方式

**以一個例題為例來區別和計算這三個地址：存放在某個磁碟上的檔案系統，採用混合索引分配方式，其FCB中共有13個地址項，第0~9個地址項為直接地址，第10個地址項為一次間接地址，第11個地址

java搬磚計算：共36人有36塊磚，男每人每次4塊，女每人每次3塊，小朋友每2人1塊，一次搬清，問男，女，小朋友各幾人？

題目解析，36塊轉男人最多可能需要9人（9*4=36）,女最多可能需要12人（12*3=36）,小朋友最多需要72人（0.5*72=36），因此我大膽的開始猜測人數，x表示男人從1到9的迴圈猜測，y表示女人從1到12開始猜測，z表示下朋友從1到72開始猜測。當4*x+3*y

二進位制詳解：世界上有10種人，一種懂二進位制，一種不懂。

目錄一、十進位制整數轉二進位制、八進位制、十六進位制二、二進位制轉十進位制、八進位制、十六進位制三、十進位制、八進位制、十六進位制轉二進位制四、二進位制小數與十進位制小數一、十進位制整數轉二進位制、八進位制、十六進位制首先是一張十進位制

BeautifulSoup，一碗美麗的湯，一個隱藏的大坑

相關推薦