Python-django建立第一個專案

阿新 • • 發佈：2020-11-28

一、介紹

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠通過你喜歡的轉換器實現慣用的文件導航,查詢,修改文件的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間.目前已經開發到4.0以上了

baautifulsoup常用的解析器如下：

解析器	使用方法	優勢	劣勢
Python標準庫	`BeautifulSoup(markup,"html.parser")`	Python的內建標準庫執行速度適中文件容錯能力強	Python 2.7.3 or 3.2.2)前的版本中文件容錯能力差
lxml HTML 解析器	`BeautifulSoup(markup,"lxml")`	速度快文件容錯能力強	需要安裝C語言庫
lxml XML 解析器	`BeautifulSoup(markup,["lxml","xml"])` `BeautifulSoup(markup,"xml")`	速度快唯一支援XML的解析器	需要安裝C語言庫
html5lib	`BeautifulSoup(markup,"html5lib")`	最好的容錯性以瀏覽器的方式解析文件生成HTML5格式的文件	速度慢不依賴外部擴充套件

二、BeautifulSoup的使用

1、遍歷文件樹

遍歷文件樹：即直接通過標籤名字選擇，特點是選擇速度快，但如果存在多個相同的標籤則只返回第一個

# 1、用法：
from bs4 import BeautifulSoup
soup=BeautifulSoup(html_doc,'lxml')
head=soup.head
# print(head)

# 2、獲取標籤的名字： 重點
p = soup.p
print(p.name) #>: p

# 3、獲取標籤的屬性  重點
p = soup.body.p # 獲取body下的p標籤
print(p.attrs) # 結果：{'id': 'my_p', 'class': ['title']}
# 獲取p標籤內屬性值的三種方法
p.attrs.get('class')
p.get('class')
p['class']

# 4、獲取標籤的內容  重點
'''
text: 取所選標籤內下所有的文字內容
string: 若所選標籤下的文字只有一個時，取到，否則為None
strings: 拿到一個生成器物件，取下所選標籤下的所有文字內容
stripped_strings: 是去掉空白
get_text():是用來調取內部屬性text的方法。
區別：string獲取的是該標籤的直系內容，無法獲取該標籤子標籤的直系內容，
     而text/get_text()可以
注意：如果選標籤下包含多個節點，則string輸出結果是None,比如：body下有多個p節點
'''
p=soup.body.p
print(p.text)
print(p.string)
print(p.strings)  #結果：<generator object _all_strings at 0x0000026619237BF8>
for line in p.stripped_strings:
    print(line)
print(p.get_text())

# 5、巢狀選擇    重點
s = soup.body.a
print(s.get('id'))

# 6、子節點、子孫節點
print(soup.p.contents) #取出p下的所有子節點
print(soup.p.children) #取出包含p標籤下所有子節點,返回一個迭代器
print(list(soup.p.children))

# 7、父節點、祖先節點
print(soup.a.parent) #獲取a標籤的父節點(只有一個)
print(soup.p.parent) #獲取p標籤的父節點
print(soup.a.parents) #返回生成器，找到a標籤所有的祖先節點，父親的父親，父親的父親的父親...
print(list(soup.a.parents))#找到a標籤所有的祖先節點，父親的父親，父親的父親的父親...

# 8、兄弟節點
print(soup.a.next_sibling) #下一個兄弟
print(soup.a.previous_sibling) #上一個兄弟

print(list(soup.a.next_siblings)) #下面的兄弟們=>生成器物件
print(list(soup.a.previous_siblings)) #上面的兄弟們=>生成器物件

2、搜尋文件樹

(1)find()和find_all()

'''
 find_all(name , attrs , recursive , text , **kwargs)
 用處：找到所有符合要求的標籤
 引數：name是標籤名，attrs是一個字典引數，用來搜尋包含特殊屬性的標籤，比如：data-*型別的屬性
 recursive：True，則會搜尋當前標籤的子孫節點，如果是False，則只搜尋當前標籤的子節點。
 text: 可以是字元，列表，True,正則
 注意：按類名查詢的時候，關鍵字是class_
'''
soup.find_all('a') #
soup.find(['a','p']) #找到所有a和p標籤
soup.find_all('a',limit=2) #找到前兩個a標籤
soup.find_all('a',attrs={'data-fooo':'value'})
soup.find_all('p',attrs={'class':'title'})
soup.find_all('p',recursive=False)
soup.find_all('a',text='Lacie')
soup.find_all(text='Lacie')
soup.find_all(class_='title')
'''
 find_(name , attrs , recursive , text , **kwargs)
 用處：找到第一個符合要求的標籤
 引數：name是標籤名，attrs是一個字典引數，用來搜尋包含特殊屬性的標籤，比如：data-*型別的屬性
 recursive：True，則會搜尋當前標籤的子孫節點，如果是False，則只搜尋當前標籤的子節點。
 text: 可以是字元，列表，True,正則
 注意：按類名查詢的時候，關鍵字是class_
'''
print(soup.find('a')) #尋找a標籤
print(soup.find('a',id='link3'))  #尋找id是link3的a標籤
print(soup.find('a',class_='sister2'))
print(soup.find('a',title='xxx')) #尋找title是xxx的a標籤

'''
區別：find_all() 方法的返回結果是值包含一個元素的列表,而 find() 方法直接返回結果.
     find_all() 方法沒有找到目標是返回空列表, find() 方法找不到目標時,返回 None 
'''

(2)五種過濾器

'''
五種過濾器：字串、正則表示式、列表、True、方法
'''
# 1、字串：也就是標籤名
soup.find_all('b')
# 2、正則表示式
import re
soup.find_all(re.compile('^b')) #找b開頭的標籤
# 3、列表
soup.find_all(['a','p'])
# 4、True: 匹配任何值
soup.find_all(True)  #查詢所有標籤，但是不會返回字串節點
# 5、方法：可以是自己定義的方法
def myfunc(tag):
    return tag.has_attr('class') and not tag.has_attr('id')
soup.find_all(myfunc())

(3)css選擇器

'''
css選擇器：返回的是列表
'''
# 1、獲取標籤
print(soup.select('.element'))
print(soup.select('#link3'))
# 2、獲取標籤的屬性
soup.select('#link3')[0].attrs
# 3、獲取標籤的內容
soup.select('#link3')[0].get_text()

三國演義小說爬取案例：

# -*-coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
import lxml
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
}
req=requests.get('http://www.shicimingju.com/book/sanguoyanyi.html',headers=headers)
soup=BeautifulSoup(req.text,'lxml')
li_list=soup.select('.book-mulu > ul > li > a')

for li in li_list:
    url='http://www.shicimingju.com'+li['href']
    title = li.string
    req_detail=requests.get(url,headers=headers)
    soup_detail=BeautifulSoup(req_detail.text,'lxml')
    detail_text=soup_detail.find('div',class_='chapter_content').text
    file_name=title+'.txt'
    with open(file_name,'w',encoding='utf-8') as f:
        f.write(detail_text)
        print(title+'   載入完畢')

爬肯德基餐廳資訊(ajax請求，是post請求，返回的是資料)

# -*-coding:utf-8 -*-
import requests
import json
url='http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
}
# word=input(">>:")
data={
    'cname': '',
    'pid': '',
    'keyword': '普寧',
    'pageIndex': 1,
    'pageSize': 10,
      }
res=requests.post(url,data=data,headers=headers)
print(res.json())

Python-django建立第一個專案

使用 django-admin.py 來建立 HelloWorld 專案： django-admin.py startproject HelloWorld 建立完成後我們可以檢視下專案的目錄結構：

Django 建立第一個專案

技術標籤：pythondjangopython Django 建立第一個專案使用 django-admin.py 來建立 HelloWorld 專案：

Python學習之路之pycharm的第一個專案搭建過程

簡介：上文中已經介紹如何安裝Pycharm已經環境變數的配置。現在軟體已經安裝成功，現在就開始動手做第一個Python專案。第一個“Hello World”專案。

intellij idea建立第一個動態web專案的步驟方法

我以2018版的intellij idea為例一.建立JavaWeb 1.第一步點選左上角的File-->New-->Project

使用IntelliJ建立第一個簡單的Springboot專案

使用Intellij建立Springboot專案使用IntelliJ建立Springboot專案是非常方便的，建立過程中，我們可以自由的選擇要啟用的springboot生態裡的各種框架、外掛。本文只是為了簡單演示，所以只選擇簡單的web功能即可。

Python Scrapy框架第一個入門程式示例

本文例項講述了python Scrapy框架第一個入門程式。分享給大家供大家參考，具體如下：

如何用golang執行第一個專案

安裝一些必要的環境 1.下載go sdk (本人裝的是1.9) 2.下載golang 3.下載git 因為有些依賴要用 go get 去github上獲取

使用Python+selenium實現第一個自動化測試指令碼

最近在學web自動化，記錄一下學習過程。此處我選用python3.6+selenium3.0，均用最新版本，以適應未來需求。

在Idea2020.1中使用gitee2020.1.0建立第一個程式碼庫的實現

以前一直做C#專案，最近一個專案得用JAVA，記錄下自己遇到的坑，給大家趟趟路。

Spring——HelloSpring第一個專案

首先建立實體類 package com.yl.pojo;public class Hello {private String str;public String getStr() {return str;}public void setStr(String str) {this.str = str;}@Overridepublic String toString()

VUE第一個專案怎麼讀懂

VUE介紹 VUE是前端開發框架。原始的前端開發需要工程師寫html、寫css、寫javascript(js)。js是指令碼語言，瀏覽器可以執行js來執行一些js支援的動作，例如點選反饋，下拉選單、操作html的DOM元素之類。這樣開發效率

NO.46 用禪道如何開始第一個專案

>>> 產品經理按照我們前面的操作建立需求之後，下面該專案經理上場了。下面我們一起來看下如何在禪道中開始一個專案。

QT學習：建立第一個視窗

安裝好QT後就可以開始建立專案了。點選檔案-新建專案，接著選擇第一項：修改名稱，點下一步：

【Flutter 1-5】執行Flutter的第一個專案——計數器

建立專案建立Flutter專案有很多種方法，各個IDE工具也都集成了建立Flutter專案的快捷操作。我們這裡列舉三種方式：使用命令列建立、使用Android Studio建立和使用VSCode建立。

【初學Python】01-第一個小說爬蟲

在之前建站的時候，用C#做過一個爬圖片網站圖片的介面，程式碼寫了一大串，最近看到朋友寫爬蟲，發現程式碼量是真滴少，於是乎瞭解學習了一下Python，實現了個最簡單的小說爬蟲，沒有什麼高階功能，也沒用多執行緒之

第一個專案：吃貨聯盟點餐系統

技術標籤：java package com.kgc; import java.util.Scanner; /** * 吃貨聯盟訂餐系統主程式@author 19878

臺積電考慮在日本熊本縣建立第一個日本晶片工廠

7 月 28 日訊息，據國外媒體報道，據知情人士週二透露，臺積電正在考慮在日本建立一家晶片工廠，九州熊本縣成為候選地之一。

TCL 華星海外第一個專案：印度模組廠首臺裝置順利搬入

8 月 24 日訊息今日上午，“TCL 華星印度模組廠首臺裝置搬入儀式”在印度安得拉邦 Tirupati 市 TCL 印度產業園內舉行。

第一個專案/頁面1總結

html部分： <!DOCTYPE html><html> <head><meta charset=\"utf-8\" /><title></title><link rel=\"stylesheet\" type=\"text/css\" href=\"reading.css\"/> </head&g

第一個專案/頁面1

CSS部分： .content{ width:1000px; margin: 0 auto;} .content h1{ color: #de4767; text-align: center; font-size: 44px; font-weight: normal;}

Python-django建立第一個專案

一、介紹

二、BeautifulSoup的使用

1、遍歷文件樹

2、搜尋文件樹

相關推薦