python爬蟲系列(3.7-使用 bs4 爬取獲取貴州農產品)

阿新 • • 發佈：2018-11-10

一、爬取資料步驟

1、爬取網站地址

2、實現程式碼

import requests

from bs4 import BeautifulSoup

class Food(object):

def __init__(self):

self.url = 'http://www.gznw.gov.cn/priceInfo/getPriceInfoByAreaId.jx?areaid=22572&page=1'

self.headers = {

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36',

}

@property

def get_html(self):

"""

抓取網頁

:return:

"""

response = requests.get(url=self.url, headers=self.headers)

if response.status_code == 200:

return response.text

return ''

def down_data(self):

"""

下載資料

:return:

"""

soup = BeautifulSoup(self.get_html, 'lxml')

table = soup.find('table', attrs={'class': 'table table-hover'})

trs = table.find('tbody').find_all('tr')

food_list = []

for tr in trs:

food_dict = {}

tds = tr.find_all('td')

name = tds[0].get_text()

price = tds[1].get_text()

address = tds[3].get_text()

time = tds[4].get_text()

food_dict['name'] = name

food_dict['price'] = price

food_dict['address'] = address

food_dict['time'] = time

food_list.append(food_dict)

return food_list

if __name__ == "__main__":

foo = Food()

print(foo.down_data())

python爬蟲系列(3.7-使用 bs4 爬取獲取貴州農產品)

一、爬取資料步驟 1、爬取網站地址 2、實現程式碼 import requests from bs4 import BeautifulSoup class Food(object): def __init__(self): &nb

Python爬蟲系列之小說網爬取

今日爬蟲—小說網再次宣告所有爬蟲僅僅為技術交流，沒有任何惡意，若有侵權請☞私信☚ 此次爬取由主頁爬取到各本小說地址，然後通過這些地址獲取到小說目錄結構，在通過目錄結構獲取章節內容，同時以小說名字為資料夾，每一個章節為txt文字儲存到本地。話不多說，直接上程式碼

【Python爬蟲系列】使用requests爬取圖片

Python3常用的爬蟲第三方外掛有requests，urllib.request等。這裡主要介紹使用requests抓取網頁上的圖片，該方法只針對靜態網頁，不考慮js動態載入的網頁。預備知識： requests模組的基本瞭解，包括get，post等方法和status_

Python爬蟲入門——3.6 Selenium 爬取淘寶資訊

上一節我們介紹了Selenium工具的使用，本節我們就利用Selenium跟Chrome瀏覽器結合來爬取淘寶相關男士羽絨服商品的資訊，當然你可以用相同的方法來爬取淘寶其他商品的資訊。我們要爬取羽絨服的價格、圖片連線、賣家、賣家地址、收貨人數等資訊，並將其儲存在csv中 fr

python爬蟲系列(3.4-使用xpath和lxml爬取伯樂線上)

一、爬取的程式碼 1、網站地址 2、具體實現程式碼 import requests from lxml import etree class JobBole(object): def __init__(self): &

大神教你如果學習Python爬蟲如何才能高效地爬取海量數據

Python 爬蟲分布式大數據編程 Python如何才能高效地爬取海量數據我們都知道在互聯網時代，數據才是最重要的，而且如果把數據用用得好的話，會創造很大的價值空間。但是沒有大量的數據，怎麽來創建價值呢？如果是自己的業務每天都能產生大量的數據，那麽數據量的來源問題就解決啦，但是沒有數

【Python爬蟲】從html裏爬取中國大學排名

ext 排名所有一個 requests 空格創建 .text request from bs4 import BeautifulSoupimport requestsimport bs4 #bs4.element.Tag時用的上#獲取網頁頁面HTMLdef

python爬蟲-20行代碼爬取王者榮耀所有英雄圖片，小白也輕輕松松

需要 tis tca wcf 爬取 html eas request 有用 1.環境 python3.6 需要用到的庫： re、os、requests 2.簡介王者榮耀可以算得上是比較受歡迎的手遊之一了，應該有不少的人都入坑過農藥，我們今天的目的就是要爬取王者榮耀的高

Python爬蟲初探 - selenium+beautifulsoup4+chromedriver爬取需要登錄的網頁信息

-- pro tag bug gui 結果 .com 工作 ges 目標之前的自動答復機器人需要從一個內部網頁上獲取的消息用於回復一些問題，但是沒有對應的查詢api，於是想到了用腳本模擬瀏覽器訪問網站爬取內容返回給用戶。詳細介紹了第一次探索python爬蟲的坑。準備工作

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

Python爬蟲實習筆記 | Week3 資料爬取和正則再學習

2018/10/29 1.所思所想：雖然自己的考試在即，但工作上不能有半點馬虎，要認真努力，不辜負期望。中午和他們去吃飯，算是吃飯創新吧。下午爬了雞西的網站，還有一些欄位沒爬出來，正則用的不熟悉，此時終於露出端倪，心情不是很好。。明天上午把正則好好看看。 2.工作： [1].哈爾濱：html p

python爬蟲系列(3.2-lxml庫的使用)

一、基本介紹 1、lxml 是一個HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 資料。 2、lxml和正則一樣，也是用 C 實現的，是一款高效能的 Python HTML/XML 解析器，我們可

python爬蟲系列(3.1-xpath語法的介紹)

一、關於xpath的認識 xpath（XML Path Language）是一門在XML和HTML文件中查詢資訊的語言，可用來在XML和HTML文件中對元素和屬性進行遍歷。二、xpath的基本語法 1、選擇節點 2、謂語謂語是用來找出某個特定的

python爬蟲系列(3.8-正則的使用)

一、需要系統的學習正則表示式二、在python爬蟲中需要掌握的正則有 1、元字元 1..:除了\n以外的任意字元 2.*:出現0到多次 3.?:出現0或者1次 4.+:表示出現1到多次 2、常用的方法 1.compile:表示生成正則表示式參

python爬蟲系列(3.6-css選擇器)

章節是繼上一小節的知識點,只是本人把它拆分了,如果你對css比較熟悉的話,可以直接使用這一章節的選擇器一、關於select選擇器的使用 1、直接獲取元素節點 print(soup.select('a')) 2、根據類名查詢,比如要查詢class=sister的標籤 print(

python爬蟲系列(3.5-Beautiful Soup的使用)

一、使用步驟 1、安裝包 pip3 install beautifulsoup4 2、簡單的使用 html_doc = """ <html> <head> &

爬蟲系列（六）--爬取頁面上的影象

爬蟲系列（六）--爬取頁面上的影象馬上國慶節了，要是再不寫，可能又要到了十一過後才能寫了。影象的爬取和普通頁面的爬取是一樣的，只是不需要進行轉碼，是二進位制資料，直接寫入檔案中就行了。要注意的地方就是副檔名，還有圖片檔案是否已經存在了。 1.目標簡介下面的內容要實現的是爬取取

Python爬蟲實戰 requests+beautifulsoup+ajax 爬取半次元Top100的cos美圖

1.Python版本以及庫說明 Python3.7.1 Python版本urlencode 可將字串以URL編碼，用於編碼處理bs4 解析html的利器re 正則表示式，用於查詢頁面的一些特定內容requests 得到網頁html、jpg等資源的

Python爬蟲入門之豆瓣短評爬取

採用工具pyCharm，python3，工具的安裝在這就不多說了，之所以採用python3是因為python2只更新維護到2020年。新建python專案 File-Settings-project interpreter，點右上角+號，安裝requests，lx

Python爬蟲-利用正則表示式爬取貓眼電影

利用正則來爬去貓眼電影 =================================== ===================================================== 1 ''' 2 利用正則來爬去貓眼電影 3 1. url: http://maoya

python爬蟲系列(3.7-使用 bs4 爬取獲取貴州農產品)

相關推薦