python學習之爬蟲:BeautifulSoup
一、功能:
BeautifulSoup是用來從HTML或XML中提取數據的Python庫。
二、導入:
from bs4 import BeautifulSoup
import bs4
三、編碼格式:
soup使用Unicode編碼
四、對象種類:
有四種類型:Tag,NavigableString,BeautifulSoup,Comment。
BeautifulSoup將文檔轉化為樹形結構,每個節點都是上述四種類型的Python對象。
tag屬性:name、attrs
參考網址:
1、http://python.jobbole.com/84774/
2、https://www.crummy.com/software/BeautifulSoup/bs4/doc/#making-the-soup
3、http://wiki.jikexueyuan.com/project/python-crawler-guide/beautiful-soup.html
python學習之爬蟲:BeautifulSoup
相關推薦
python學習之爬蟲:BeautifulSoup
att clas XML http ng- making bsp style span 一、功能: BeautifulSoup是用來從HTML或XML中提取數據的Python庫。 二、導入: from bs4 import BeautifulSoup import bs4
python學習之爬蟲:安裝requests模塊
works 2.7 err fix errno 13 lec dna cal logs 終端輸入命令:pip install requests 如果報錯: p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menl
Python學習之路:集合的使用
元素 int pda car ren 添加 brush 存在 對稱 集合關系測試: list_1=[1,4,5,7,3,6,7,9] list_1=set(list_1) #去重 list_2=set([2,6,0,66,22,8]) print(list_1,typ
Python學習之路:文件操作
append 句柄 enc pre light logs utf highlight 追加內容 文件基本操作: 打開、讀取、追加、關閉 #data = open("yesterday",encoding="utf-8").read() #打開並讀取文件 f=open("y
Python學習之路:文件操作之增刪改查
打印 odin day 打開 aps 之前 編碼 數據 adl f = open("yesterday","r",encoding="utf-8") #print(f.read()) #for i in range(5): # print(f.readline())
Python學習之路:裝飾器實現
fun python run top 學習 pytho sleep light time() import time def timer(func):#timer(test1) func=test1 def deco(): start_time
Python學習之路:裝飾器實現終極版
index type after color return 結果 python turn 調用 網站實現驗證功能裝飾器: import time user,passwd=‘alex‘,‘abc123‘ def auth(func): def wrapper(*ar
Python學習之路:生成器
學習 tar light 列表 print pytho highlight 範圍 for循環 列別生成式:使代碼更簡潔 >>> [i*2 for i in range(10)] [0, 2, 4, 6, 8, 10, 12, 14, 16, 18]
Python學習之路:叠代器
提前 func for循環 當我 本質 惰性 lec brush gen 可直接作用於for循環的數據類型有以下幾種: 一類是集合數據類型,如list\tuple\dict\set\str等; 一類是generator,包括生成器和帶yield的generator func
Python學習之路:內置函數
函數 utf capi dict lte python學習 func blog .cn print(all([0,15,3]))# all全部都是可叠代的元素時返回TRUE print(all([1,15,3])) print(any([1,15,3]))#any任意一個
python學習之基礎:編碼
file 包含 int meta nic char not in tar python解釋器 參考網址:https://www.xncoding.com/2015/10/24/python/unicode.html 在計算機內存中,統一使用Unicode編碼,當需要保存
Python學習之路:time和datetime模塊
exists atime shuffle aaa 絕對路徑 ons 平臺 文件名 可能 轉自:http://blog.51cto.com/egon09/1840425 一:內建模塊 time和datetime(http://www.jb51.net/article/49
Python學習之路:random模塊
和數 highlight body ima bubuko randint 之路 ren 分享 #隨機生成4位數字的驗證碼 # import random # # checkcode=‘‘ # # for i in range(4): # current=ran
Python學習之路:staticmethod classmethod property方法
屬性 -c name .html 學習 assm true urn 系列 參考鏈接:http://www.cnblogs.com/alex3714/articles/5213184.html 靜態方法 只是名義上歸類管理,實際上在靜態方法裏訪問不了類或實例中的任何屬性
Python學習之路:socket簡單實例
acc 學習 綁定 span spa bind local int code 客戶端 1 #客戶端 2 import socket 3 4 client = socket.socket()#相當於聲明socket類型,同時生成socket連接對象 5 cli
Python學習之路:守護線程
之路 學習之路 pos lose start 啟動 AD 技術分享 pre 守護線程:只起到守護主線程的作用,主線程退出守護線程也跟著退出。 1 import threading,time 2 3 def run(n): 4 print("task",
Python學習之路:隊列及生產者消費者模型
open imp read 之路 while args put bsp tar 隊列: 先進先出 後進先出 VIP(優先級) import queue # q = queue.LifoQueue()#後進先出 # # q.put(1) # q.put(2) # q.p
python學習之樂趣:列印佛祖
起源 最近無聊在網上看到很多程式設計師寫的無聊的程式,無意間看到這個簡單有趣的程式碼,就心想測試一下,還真很有趣。 閒話少說,看效果 print(" _ooOoo_ ") print("
python學習之二:python資料結構和記憶體管理
python資料結構和記憶體管理思維導圖:對於資料結構的學習主要從這幾方面入手:初始化常用操作(增刪該查)常用內建函式,注意點有序序列主要分為字串,列表,和元組,一.有序序列定義:str1=‘python’//字串l1=['python','java','c',100] o
Python學習之旅:使用Python實現Linux中的ls命令
一、寫在前面 前幾天在微信上看到這樣一篇文章,連結為:https://mp.weixin.qq.com/s/rl6Sgv3uk_IpoFAx6cWa8w,在這篇文章中,有這樣一段話,吸引了我的注意: 在 Linux 中 ls 是一個使用頻率非常高的命令了,可選的引數也有很多,