Python編寫網路爬蟲帶model

阿新 • • 發佈：2018-11-29

Python編寫網路爬蟲帶model

以http://zuidazy.net電影網站為例，實現步驟如下：

一、分析網站：

分析網站的程式碼結構：如網址，需要採集的程式碼取，建設使用谷歌瀏覽器
如圖：在這裡插入圖片描述
解釋：1.為網址欄，分析網址的相同部分及不同部分
2.為按F12檢視原始碼，為需要採集的程式碼

二、編寫網站所有網頁的遍歷如下(檔名稱：index.py)

from reptileTest import qu
url=""
for i in range(1,423):
    if i==1:
        url="/?m=vod-index.html"
    else:
        url="/?m=vod-index-pg-"+str(i)+".html"
    qu(url,i)

注：該段程式碼為對網站所有網站的完整遍歷，以方便獲取所有電影的真實路徑

三、編寫向指定網站發起訪問請求(檔名稱：reptileTest.py)

import urllib.request

from requl import requ

def qu(jia,ii):
    print("正在獲取第：" + str(ii) + "頁的電影資訊")
    url = "http://zuidazy.net"+jia
    req = urllib.request.Request(url)
    res = urllib.request.urlopen(req)
    html = res.read().decode("utf-8", 'ignore')
    # print(html)
    requ(html)
    print("獲取第："+str(ii)+"頁的電影資訊結束")

四、使用BeautifulSoup進行最終的抓取(檔名稱：requl.py)

import urllib.request
from bs4 import BeautifulSoup

def requ(html):
    web = BeautifulSoup(html, features="html.parser")
    # print("開始抓取")
    daima = web.select("ul > li > span > a")
    for h in daima:
        # 通過主頁進入某個電影的資訊頁面
        # 抓取新的url 這次抓取，需要抓取電影的：圖片路徑，電影名稱，主演，型別，及播放地址等
        url1 = "http://zuidazy.net/" + h.get("href")
        req1 = urllib.request.Request(url1)
        res1 = urllib.request.urlopen(req1)
        html1 = res1.read().decode("utf-8", 'ignore')
        web1 = BeautifulSoup(html1, features="html.parser")
        # daima1 = web1.select("div[class=vodInfo]")
        # print(daima1)
        # 獲取電影圖片
        daima1 = web1.select("img[class=lazy]")
        for dao in daima1:
            dao.get("src")
            print("該電影的圖片地址：------------"+dao.get("src"))

        # 獲取電影名稱
        daima1 = web1.select("div[class=vodh] > h2")
        for dai in daima1:
            print(dai.get_text())
        # 獲取播放型別
        daima1 = web1.select("div[class=vodh] > span")
        for dai in daima1:
            print(dai.get_text())
        # 獲取評分
        daima1 = web1.select("div[class=vodh] > label")
        for dai in daima1:
            print(dai.get_text())
        # 獲取別名
        daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(1) > span")
        for dai in daima1:
            print(dai.get_text())
        # 獲取導演
        daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(2) > span")
        for dai in daima1:
            print(dai.get_text())
        # 獲取主演
        daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(3) > span")
        for dai in daima1:
            print(dai.get_text())
        # 獲取電影型別
        daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(4) > span")
        for dai in daima1:
            print(dai.get_text())


        # 網站圖片程式碼
        # <img class="lazy" src="http://tupian.tupianzy.com/pic/upload/vod/2018-10-04/201810041538621879.jpg" alt="青春豬頭少年不會夢到兔女郎學姐">

抓取結束：
在這裡插入圖片描述

model原始檔下載地址：Python編寫網路爬蟲帶model
請下載這個model: Python編寫網路爬蟲優化版model

Python編寫網路爬蟲帶model

Python編寫網路爬蟲帶model 以http://zuidazy.net電影網站為例，實現步驟如下：一、分析網站：分析網站的程式碼結構：如網址，需要採集的程式碼取，建設使用谷歌瀏覽器如圖：解釋：1.為網址欄，分析網址的相同部分及不同部分 2.為按F12檢視原始碼，為需

Python實戰（一）——Python編寫網路爬蟲

實戰內容針對不需要login的靜態網頁爬取。避免抓取登入、ajax非同步載入的內容。一、抓取程式主要模組組成 1、url管理器：管理已抓取、未抓取的url連線，避免重複、迴圈抓取 2、網頁下載器 urllib2：下載url網頁資料 3、網頁解析器

用python語言編寫網路爬蟲

本文主要用到python3自帶的urllib模組編寫輕量級的簡單爬蟲。至於怎麼定位一個網頁中具體元素的url可自行百度火狐瀏覽器的firebug外掛或者谷歌瀏覽器的自帶方法。 1、訪問一個網址 re=urllib.request.urlopen('網址‘）開啟的也可以是個urll

用Python編寫web爬蟲的5個方法

web 描述結構化數據方式網絡提取信息 src 添加只讀這些庫可以使你更容易構架個人項目。在 Python/Django 的世界裏有這樣一個諺語：為語言而來，為社區而留。對絕大多數人來說的確是這樣的，但是，還有一件事情使得我們一直停留在 Pytho

《用Python寫網路爬蟲》第一章踩坑

教程使用環境為pyhon2.x，使用python3.x進行學習時遇到一些坑，記錄下解決辦法。由於python2.x中的urllib2模組在3.x中被整合到了urllib模組中，教程中涉及urllib2的部分的程式碼需調整 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; f

Python：網路爬蟲

網路爬蟲，爬取某網站的某個網頁的所有圖片。 python的網路爬蟲是很強大的。 import urllib.request import re path="http://www.xiaohuar.com/2014.html" content=urllib.request.

用 Python 寫網路爬蟲第2版

內容簡介暢銷的 Python 網路爬蟲開發實戰圖書全新升級版，上一版年銷量近 40000 冊。針對 Python 3.6 版本編寫。 Internet 上包含了許多有用的資料，其中大部分是可以免費公開訪問的。但是，這些資料不容易使用，它們內嵌在網站的架構和樣式中，在提取時也需要多加小心。網

python 基礎網路爬蟲 day08

day07 1.response.xpath('xpath表示式') xpath表示式沒有text()則結果為選擇器物件 xpath表示式加上text()則結果為選擇器文字物件 extract()將列表中所有元素序列化為Unicode字串 2.MongoDB持久化儲存 settin

python Scrapy網路爬蟲實戰（存Json檔案以及存到mysql資料庫）

1-Scrapy建立新工程在開始爬取之前，您必須建立一個新的 Scrapy 專案。進入您打算儲存程式碼的目錄中【工作目錄】，執行下列命令，如下是我建立的一個爬取豆瓣的工程douban【儲存路徑為：C:\python27\web】: 命令： scrapy star

分享《Python 3網路爬蟲開發實戰》中文PDF+原始碼崔慶才著

下載： https://pan.baidu.com/s/1XNJwYJRurKN1bScroixpYA 更多資料分享：https://home.cnblogs.com/u/aitf/ 《Python 3網路爬蟲開發實戰》中文PDF+原始碼崔慶才著中文版PDF，

【Python】網路爬蟲(靜態網站)例項

本爬蟲的特點： 1.目標：靜態網站 2.級數：二級 3.執行緒：單執行緒（未採用同步，為了避免順序錯亂，因此採用單執行緒） 4.結果：爬取一部網路小說，將分散的各章節合併成一個txt文字檔案獲取網頁模板： def get_url(url): try:

Python編寫簡單爬蟲之新手入門（一）

最近學習了一下python的基礎知識，大家一般對“爬蟲”這個詞，一聽就比較熟悉，都知道是爬一些網站上的資料，然後做一些操作整理，得到人們想要的資料，但是怎麼寫一個爬蟲程式程式碼呢？相信很多人是不會的，今天寫一個針對新手入門想要學習爬蟲的文章，希望對想要學習的你能有所幫助~~廢

python 基礎網路爬蟲 day03

目錄 day02 1.關於正則解析分組（想要抓取什麼內容就要加小括號（））正則方法 p = re.compile('...') r_list = p.findall(html) 結果：[(),(),(),()] 貪婪匹配： .* 非貪婪匹配

Python 3網路爬蟲開發實戰 (崔慶才)pdf

本書介紹瞭如何利用Python 3開發網路爬蟲，書中首先介紹了環境配置和基礎知識，然後討論了urllib、requests、正則表示式、Beautiful Soup、XPath、pyquery、資料儲存、Ajax資料爬取等內容，接著通過多個案例介紹了不同場景下如何實現資料爬取

python 基礎網路爬蟲 day05

目錄 day04 lxml解析庫使用流程 from lxml import etree parseHtml = etree.HTML(html) parseHtml.xpath('xpath表示式') xpath匹配規則獲取

python 基礎網路爬蟲 day06

目錄 day05 1.json模組 json.loads() json格式(物件，陣列) ->Python(字典，列表) json.dumps() Python(字典，元組，列表) -> json(物件，陣列) 2.Ajax動態載入

《用Python寫網路爬蟲》下載

2018年11月01日 13:27:27 qq_43576443 閱讀數：5 標籤：程式設計資料

Python大型網路爬蟲專案開發實戰

1 講師簡介 2 課程簡介及特色實戰精通Scrapy爬蟲專案編寫 "Scrapy是Python的一個非常流行的爬蟲框架，使用Scrapy框架可以很方面做出大型爬蟲專案，但Scrapy框架近期才支援Python3，在Python3中使用有許多坑，

Python 3網路爬蟲開發實戰+精通Python爬蟲框架Scrapy學習資料

《Python 3網路爬蟲開發實戰》介紹瞭如何利用Python 3開發網路爬蟲，首先介紹了環境配置和基礎知識，然後討論了urllib、requests、正則表示式、Beautiful Soup、XPath、pyquery、資料儲存、Ajax資料爬取等內容，接著通過多個案例介紹了不同場景下如何實現資料爬取，後介

2018用Python寫網路爬蟲（視訊+原始碼+資料）

課程目標實現Python寫網路爬蟲入門適用人群資料零基礎愛好者,職場新人 ,在校大學生課程簡介 1.基本Http請求以及驗證方式分析 2.Python用於處理Html格式資料beautifulsoup模組 3.Pyhton的request

Python編寫網路爬蟲帶model