python day23簡易爬蟲

阿新 • • 發佈：2018-11-19

簡易爬蟲

爬出該網頁的 2018新片精品的"電影名稱""和"下載連結"

如下:

import re
import ssl
import json
from urllib.request import urlopen
ssl._create_default_https_context = ssl._create_unverified_context #幹掉數字簽名證書

# 獲取首頁的新片精品電影的url
url = "https://www.dytt8.net/"  #電影天堂首頁url
content = urlopen(url).read().decode(" 
gbk")
pa = re.compile(r'<td width="85%" height="22" class="inddline">.*?最新電影下載</a>]<a href=\'(?P<wangye>.*?)\'>2018年',re.S)
xiazai = pa.finditer(content)
lst =[]   #建立列表,裝電影url
for el in xiazai:
    shijiurl ="https://www.dytt8.net"+ el.group("wangye") 
    lst.append(shijiurl)

 
#獲取電影名稱
lst_name =[]  #建立列表,裝電影名字
pa3 = re.compile(r'<td width="85%" height="22" class="inddline">.*?最新電影下載</a>]<a href=\'.*?《(?P<movie>.*?)》',re.S)
name = pa3.finditer(content)
for el in name:
    moviename = el.group("movie")
    lst_name.append(moviename)

#獲取電影下載地址
lst_url =[] # 
建立列表,裝電影的下載url
for i in lst:
    url2 = i
    content2 = urlopen(url2).read().decode("gbk")
    pa2 = re.compile(r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<xiazaiurl>.*?)">',re.S)
    xiazai2 = pa2.search(content2)
    lst_url.append(xiazai2.group('xiazaiurl'))

#儲存為json字串並寫入movie.json檔案中儲存.
dic = {"電影":[],"下載地址":[]}  #建立字典,裝電影名和下載連結
f = open("movie.json", mode="w", encoding="utf-8")
for i in range(len(lst_name)):
    dic["電影"] = lst_name[i]
    dic["下載地址"] = lst_url[i]
    j = json.dumps(dic, ensure_ascii=False)
    f.write(j+"\n")
f.close()

最後效果圖:

python day23簡易爬蟲

簡易爬蟲爬出該網頁的 2018新片精品的"電影名稱""和"下載連結" 如下: import re import ssl import json from urllib.request import urlopen ssl._create_default_https

Python簡易爬蟲

5.0 抓取 content utf ade response con pla bsp # coding: utf-8 import urllib import urllib2 import re import os if __name__==‘__main__‘:

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

python進階一（簡易爬蟲一）

一、爬蟲的基本知識： 1、爬蟲的理解：（1）網路爬蟲，即Web Spider，網路蜘蛛是通過網頁的連結地址來尋找網頁的。 2、爬蟲的設計過程：根

Python 實現一個自動下載小說的簡易爬蟲

最近在學 Python，個人覺得 Python 是一種比較好玩的程式語言。快速看過一遍之後準備自己寫個小說爬蟲來鞏固下 Python 基礎知識。本人程式設計剛入門，很多東西理解還比較淺，寫下來是為了作為筆記方便以後回來優化改進，如果對本篇文章有好的建議或者有不足

Python簡易爬蟲以及巢狀資料型別

1). urllib：官網的一句話描述是：通過url開啟任意資源。從官網的簡介來看，這個模組最初是模擬檔案模組來實現的，只是將本地的檔案路徑，改為遠端的網際網路url。常用操作有： urlopen(url, [,data])——根據url開啟一個網頁，根據引數區分post或者get urlretrieve

Python 和 Scrapy 爬蟲框架部署

python scrapy 爬蟲框架 Scrapy 是采用Python 開發的一個快速可擴展的抓取WEB 站點內容的爬蟲框架。安裝依賴 yum install gcc gcc-c++ openssl mysql mysql-server libffi* libxml* libxml2 l

Python簡單網頁爬蟲

tab write open python2.x row browser mod err urlopen 由於Python2.x與Python3.x存在很的差異，Python2.x調用urllib用指令urllib.urlopen（），運行時報錯：AttributeErr

python網絡爬蟲

所有網站源碼 href 段子正則 chat ade www write 獲取http://www.qiushibaike.com/textnew/的所有段子，並且按照頁碼保存到本地一共35頁。二話不說上代碼，正則表達式有待研究。網站源碼片段： <a href="/

Python文本爬蟲實戰

文本文取出 www close each 取圖爬蟲 edit 正則表達式轉載請註明原文地址：http://www.cnblogs.com/ygj0930/p/7019950.html 一：流程目標：爬取目標網頁的圖片 1：獲取網頁源碼 2：用Python讀取源

python實現簡易的進度條

span div imp 進度 python stdout for flush logs 1 import sys,time 2 3 for i in range(50): 4 sys.stdout.write(‘#‘) 5 sys.stdout.flu

什麽是Python網絡爬蟲？帶你爬向頂峰

python網絡爬蟲首先我們來介紹一下什麽是Python網絡爬蟲，先大概了解一下關於Python網絡爬蟲的相關知識點。Python作為一門入門簡單，功能強大的，庫類完善的語言，身受廣大猿友們的喜歡。本身對Python也是非常有好感的，所以時不時的逛逛有關Python的網站啥的。通過在各大Python學習群和論

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

python制作爬蟲爬取京東商品評論教程

頭文件天津 ref back 文字 eai 目的格式 open 作者：藍鯨類型：轉載本文是繼前2篇Python爬蟲系列文章的後續篇，給大家介紹的是如何使用Python爬取京東商品評論信息的方法，並根據數據繪制成各種統計圖表，非常的細致，有需要的小夥伴可以參考下

Python之Scrapy爬蟲框架安裝及簡單使用

intern 原理 seda api release linux發行版 3.5 pic www 題記：早已聽聞python爬蟲框架的大名。近些天學習了下其中的Scrapy爬蟲框架，將自己理解的跟大家分享。有表述不當之處，望大神們斧正。一、初窺Scrapy Scrapy是

2017.07.26 Python網絡爬蟲之Scrapy爬蟲框架

返回 scripts http ref select 文本 lang bsp str 1.windows下安裝scrapy：cmd命令行下：cd到python的scripts目錄，然後運行pip install 命令然後pycharmIDE下就有了Scrapy：

2017.07.28 Python網絡爬蟲之爬蟲實戰今日影視2 獲取JS加載的數據

常見實戰交互影視獲取框架並且 htm 處理 1.動態網頁指幾種可能： 1）需要用戶交互，如常見的登錄操作； 2）網頁通過js / AJAX動態生成，如一個html裏有<div id="test"></div>，通過JS生成<divi

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報

font size 項目執行 weather html time art show 1.項目準備：網站地址：http://quanzhou.tianqi.com/ 2.創建編輯Scrapy爬蟲： scrapy startproject weather scrapy

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報的數據存儲問題

sql語句 city amd64 ces img href asp encoding primary 1.數據存儲到JSon：程序閱讀一般都是使用更方便的Json或者cvs等待格式，繼續講解Scrapy爬蟲的保存方式，也就是繼續對pipelines.py文件動手腳（1）創

2017.08.11 Python網絡爬蟲實戰之Beautiful Soup爬蟲

文件的華僑定位 spa 文件目錄 lxml odi nco unicode 1.與Scrapy不同的是Beautiful Soup並不是一個框架，而是一個模塊；與Scrapy相比，bs4中間多了一道解析的過程（Scrapy是URL返回什麽數據，程序就接受什麽數據進行過濾

python day23簡易爬蟲

相關推薦