1. 程式人生 > >python爬蟲——BeautifulSoup基礎操作

python爬蟲——BeautifulSoup基礎操作

安裝好BeautifulSoup4和Jupyter之後,在cmd中輸入jupyter notebook 執行,會直接跳轉到網頁jupyter編輯器中。

import requests
newsurl = "http://news.sina.com.cn/china/"
res = requests.get(newsurl)
res.encoding = 'utf-8'
print(res.text)
from bs4 import BeautifulSoup
html_sample = ' \
<html> \
 <body>  \
 <h1 id="title"
>
Hello World</h1> \ <a href="#" class="link"> This is link1</a> \ <a href="# link2" class="link"> This is link2</a> \ </body> \ </html> ' soup = BeautifulSoup(html_sample, 'html.parser') print(soup.text)
from bs4 import BeautifulSoup
html_sample = ' \
<html> \
 <body>  \
 <h1 id="title"
>Hello World</h1> \ <a href="#" class="link"> This is link1</a> \ <a href="# link2" class="link"> This is link2</a> \ </body> \ </html> ' soup = BeautifulSoup(html_sample, 'html.parser') header = soup.select('h1') #print(type(soup)) print(header)
#使用select找出含有‘h1’標籤的詞
from bs4 import BeautifulSoup html_sample = ' \ <html> \ <body> \ <h1 id="title">Hello World</h1> \ <a href="#" class="link"> This is link1</a> \ <a href="# link2" class="link"> This is link2</a> \ </body> \ </html> ' soup = BeautifulSoup(html_sample, 'html.parser') header = soup.select('h1') #print(type(soup)) print(header) print(header[0]) print(header[0].text)
from bs4 import BeautifulSoup
html_sample = ' \
<html> \
 <body>  \
 <h1 id="title">Hello World</h1> \
 <a href="#" class="link"> This is link1</a> \
 <a href="# link2" class="link"> This is link2</a> \
 </body> \
 </html> ' 

soup = BeautifulSoup(html_sample, 'html.parser')
alink = soup.select('a')
#print(type(soup))
print(alink)
for link in alink:
    print(link)
    print(link.text)

這裡寫圖片描述

from bs4 import BeautifulSoup
html_sample = ' \
<html> \
 <body>  \
 <h1 id="title">Hello World</h1> \
 <a href="#" class="link"> This is link1</a> \
 <a href="# link2" class="link"> This is link2</a> \
 </body> \
 </html> ' 
soup = BeautifulSoup(html_sample, 'html.parser')
alink = soup.select('#title')
print(alink)
for link in soup.select('.link'):
    print(link)

alinks = soup.select('a')
for link in alinks:
    print(link['href'])

這裡寫圖片描述

a =  '<a href="#" qoo=123, abc=456> I am a  link</a>'
soup2 = BeautifulSoup(a, 'html.parser')
print(soup2.select('a')[0]['qoo'])
print(soup2.select('a')[0]['abc'])
print(soup2.select('a')[0]['href'])

這裡寫圖片描述

相關推薦

python爬蟲——BeautifulSoup基礎操作

安裝好BeautifulSoup4和Jupyter之後,在cmd中輸入jupyter notebook 執行,會直接跳轉到網頁jupyter編輯器中。 import requests newsur

第一次寫,python爬蟲圖片,操作excel。

comment org ems exc strip() all 全局變量 習慣 生成   第一次寫博客,其實老早就註冊博客園了,有寫博客的想法,就是沒有行動,總是學了忘,忘了丟,最後啥都沒有,電腦裏零零散散,東找找,西看看,今天認識到寫博客的重要性。   最近閑著看了潭州教

Python 爬蟲-BeautifulSoup

nbsp des 字典 ren 轉換成 comment 第一個 cnblogs color 2017-07-26 10:10:11 Beautiful Soup可以解析html 和 xml 格式的文件。 Beautiful Soup庫是解析、遍歷、維護“標簽樹”的功能庫。使

[Python爬蟲]使用Selenium操作瀏覽器訂購火車票

cse input 相關 動態網頁 直接 教程 put vba 基礎 這個專題主要說的是Python在爬蟲方面的應用,包括爬取和處理部分 [Python爬蟲]使用Python爬取動態網頁-騰訊動漫(Selenium) [Python爬蟲]使用Python爬取靜態網頁-鬥魚直

python 爬蟲urllib基礎示例

urllib 爬蟲基礎 環境使用python3.5.2 urllib3-1.22 下載安裝wget https://www.python.org/ftp/python/3.5.2/Python-3.5.2.tgztar -zxf Python-3.5.2.tgzcd Python-3.5.2/./

Python爬蟲的一些操作

add 一次 設置 app new 下載圖片 afa 練手 json 1.先來個不反爬的 """這個不設置反爬措施,練手最好用""" import requests from bs4 import BeautifulSoup response = requests.

python 爬蟲開發基礎知識

Request請求方式 常用的有get post請求的url 第一部分是協議(或稱為服務方式)第二部分是存有該資源的主機IP地址(有時也包括埠號)第三部分是主機資源的具體地址,如目錄和檔名等請求頭 包含請求時的頭部資訊,如User-Agent,Host,Cookies等資訊請求體 請求時攜帶的資料,如提

關於Python的一些基礎操作

1.列表去重並且保持原來的順序 """ 有一個列表[11, 2, 3, 3, 7, 9, 11, 2, 3],去重並且保持原來的順序. """ numbers = [11, 2, 3, 3, 7, 9, 11, 2, 3] ret = list(set(numbers)) print

python字典的基礎操作

字典是另一種可變容器模型,且可儲存任意型別物件。字典中的儲存是無序的。 字典的每個鍵值 key=>value 對用冒號 : 分割,每個鍵值對之間用逗號 , 分割,整個字典包括在花括號 {} ,如 d = {'key1':'v

python爬蟲-beautifulsoup匹配

一、beautifulsoup匹配  BeautifulSoup是Python的一個庫,最主要的功能就是從網頁匹配我們需要的資料。 BeautifulSoup將html解析為物件進行處理,全部頁面轉變為字典或者陣列,相對於正則表示式的方式,可以大大簡化處理過程。 安裝:

Python——控制元件基礎操作

一、生成主視窗(主視窗操作) window=tkinter.Tk() #修改框體的名字,也可在建立時使用className引數來命名; window.title('標題名') #框體大小可調性,分別表示x,y方向的可變性;1表示可變,0表示不可變;     window.

Python 爬蟲 BeautifulSoup +requests 第一次使用

import requests import sys import re from bs4 import BeautifulSoup response=requests.get(‘***’) 訪問的地址 output = sys.stdout o

[python爬蟲] BeautifulSoup爬取+CSV儲存貴州農產品資料

在學習使用正則表示式、BeautifulSoup技術或Selenium技術爬取網路資料過程中,通常會將爬取的資料儲存至TXT檔案中,前面也講述過海量資料儲存至本地MySQL資料庫中,這裡主要補充Beau

python爬蟲beautifulsoup

操作 部分 parse import str 屬性字符串 parser bs4 demo 1、BeautifulSoup庫,也叫beautifulsoup4或bs4   功能:解析HTML/XML文檔 2、HTML格式   成對尖括號構成 3、庫引用 #bs4為簡寫,Be

python爬蟲--BeautifulSoup的簡單用法

#coding=utf-8   import urllib import urllib2 import cookielib from bs4 import BeautifulSoup import re   url ="http://www.baidu.com"   try:     request = ur

Python爬蟲 BeautifulSoup抓取網頁資料 並儲存到資料庫MySQL

最近剛學習Python,做了個簡單的爬蟲,作為一個簡單的demo希望幫助和我一樣的初學者 程式碼使用python2.7做的爬蟲  抓取51job上面的職位名,公司名,薪資,釋出時間等等 直接上程式碼,程式碼中註釋還算比較清楚 ,沒有安裝mysql需要遮蔽掉相關程式碼:#!/u

python --爬蟲基礎 --爬取今日頭條 使用 requests 庫的基本操作, Ajax

'''思路一: 由於是Ajax的網頁,需要先往下劃幾下看看XHR的內容變化二:分析js中的程式碼內容三:獲取一頁中的內容四:獲取圖片五:儲存在本地使用的庫1. requests 網頁獲取庫 2.from urllib.parse import urlencode 將字典轉化為字串內容整

python爬蟲學習筆記四:BeautifulSoup庫對HTML文字進行操作

只要你提供的資訊是標籤,就可以很好的解析 怎麼使用BeautifulSoup庫? from bs4 import BeautifulSoup soup=BeautifulSoup('<p>data<p>','html.parser') 例如: import

Python爬蟲BeautifulSoup常用操作

此筆記沒有做太多實驗,僅做參考,具體情況還要檢視文件:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id4 初始化: from bs4 import BeautifulSoup # 從檔案獲取 soup = Be

Python爬蟲?今天教大家玩更厲害的,反爬蟲操作!零基礎都能寫!

驗證碼 傳遞 cer 進行 進度 path 請求重定向 safari 並且 主要針對以下四種反爬技術:Useragent過濾;模糊的Javascript重定向;驗證碼;請求頭一致性檢查。高級網絡爬蟲技術:繞過 “403 Forbidden”,驗證碼等 爬蟲的完整代碼可以在