爬蟲_電影天堂熱映電影（xpath）

阿新 • • 發佈：2018-08-03

name while 思路 html com ges turn element def

寫了一天才寫了不到100行。不過總歸是按自己的思路完成了

  1 import requests
  2 from lxml import etree
  3 import time
  4 
  5 BASE = ‘http://www.dytt8.net‘
  6 def get_one_page(url):
  7     headers = {‘User-Agent‘: ‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36‘}
  8 
     try:
  9 
 10         response = requests.get(url, headers=headers)
 11         response.encoding = response.apparent_encoding
 12         return response.text
 13     except:
 14         return 0
 15 
 16 
 17 
 18 def parse_one_page_href(html):
 19     str_hrefs = []
 20     html_element = etree.HTML(html)
 
 21     # //div[@class="co_content8"]/ul/table//a/@href
 22     hrefs = html_element.xpath(‘//table[@class="tbspan"]//a/@href‘)
 23     for href in hrefs:
 24         href = BASE + href 
 25         str_hrefs.append(href)
 26     return str_hrefs
 27 
 28 """
 29 return 
 30     [‘http://www.dytt8.net/html/gndy/dyzz/20180731/57193.html‘, 
 
 31      ‘http://www.dytt8.net/html/gndy/dyzz/20180730/57192.html‘, 
 32                     ......
 33      ‘http://www.dytt8.net/html/gndy/dyzz/20180702/57064.html‘,
 34      ‘http://www.dytt8.net/html/gndy/dyzz/20180630/57056.html‘]
 35 """
 36 
 37 
 38 
 39 def get_all_pages(page_nums):
 40     hrefs = []
 41     for index in range(1, page_nums + 1):
 42         url = ‘http://www.dytt8.net/html/gndy/dyzz/list_23_‘ + str(index) + ‘.html‘
 43         html = get_one_page(url)
 44         while html == 0:
 45             time.sleep(3)
 46             html = get_one_page(url)
 47         hrefs.extend(parse_one_page_href(html))
 48     return hrefs
 49 
 50 
 51 def get_detail(page_nums):
 52     movie = []
 53     hrefs = get_all_pages(page_nums)
 54     for href in hrefs:  #href: every page url
 55         informations = {}
 56         
 57         response = requests.get(href)
 58         response.encoding = response.apparent_encoding
 59         html = response.text
 60         
 61         html_element = etree.HTML(html)
 62 
 63         title = html_element.xpath(‘//font[@color="#07519a"]/text()‘)[0]
 64         informations[‘title‘] = title
 65 
 66         image_src = html_element.xpath(‘//p//img/@src‘)
 67         informations[‘image_src‘] = image_src[0]
 68         
 69         download_url = html_element.xpath(‘//td[@bgcolor="#fdfddf"]/a/@href‘)
 70         informations[‘download_url‘] = download_url
 71 
 72         texts = html_element.xpath(‘//div[@id="Zoom"]//p/text()‘)
 73         for index, text in enumerate(texts):
 74 
 75             if text.startswith(‘◎片　　名‘):
 76                 text = text.replace(‘◎片　　名‘, ‘‘).strip()
 77                 informations[‘english_name‘] = text
 78 
 79             elif text.startswith(‘◎產　　地‘):
 80                 text = text.replace(‘◎產　　地‘, ‘‘).strip()
 81                 informations[‘location‘] = text
 82 
 83             elif text.startswith(‘◎上映日期‘):
 84                 text = text.replace(‘◎上映日期‘, ‘‘).strip()
 85                 informations[‘date‘] = text
 86 
 87             elif text.startswith(‘◎片　　長‘):
 88                 text = text.replace(‘◎片　　長‘, ‘‘).strip()
 89                 informations[‘time‘] = text
 90 
 91             elif text.startswith(‘◎導　　演‘):
 92                 text = text.replace(‘◎導　　演‘, ‘‘).strip()
 93                 informations[‘director‘] = text
 94 
 95             elif text.startswith(‘◎主　　演‘):
 96                 text = text.replace(‘◎主　　演‘, ‘‘).strip()
 97                 actors = []
 98                 actors.append(text)
 99                 for x in range(index+1, len(texts)):
100                     actor = texts[x].strip()
101                     if texts[x].startswith(‘◎簡　　介‘):
102                         break
103                     actors.append(actor)
104                 informations[‘actors‘] = actors
105 
106             elif text.startswith(‘◎簡　　介 ‘):
107                 text = text.replace(‘◎簡　　介 ‘, ‘‘).strip()
108                 intros = []
109                 # intros.append(text)
110                 for x in range(index+1, len(texts)):
111                     intro = texts[x].strip()
112                     if texts[x].startswith(‘◎獲獎情況‘):
113                         break
114                     intros.append(intro)
115                 informations[‘intros‘] = intros
116         movie.append(informations)
117     return movie
118 
119 
120 def main():
121     page_nums = 1  #176
122     movie = get_detail(page_nums)
123     print(movie)
124 
125 
126 if __name__ == ‘__main__‘:
127     main()

運行結果：（選中的是一部電影，一頁中有25部電影，網站裏一共有176頁）

技術分享圖片

感受到了代碼的魅力了嗎

爬蟲_電影天堂熱映電影（xpath）

name while 思路 html com ges turn element def 寫了一天才寫了不到100行。不過總歸是按自己的思路完成了 1 import requests 2 from lxml import etree 3 import t

爬蟲_豆瓣全部正在熱映電影（xpath）

post cin mali span odin -a douban size pos 單純地練習一下xpath 1 import requests 2 from lxml import etree 3 4 5 def get_url(url):

簡單Python爬蟲例項：抓取豆瓣熱映電影資訊

最近在學習Python爬蟲基礎，僅用部落格記錄下學習的過程。學習過程基於麥子學院的課程，感謝麥子學院，感謝Joey老師。那麼我們來看一下，怎麼抓取資料。Chrome瀏覽器有一個開發者工具，很適合檢視網頁原始碼，所以我們用Chrome。開啟之後是這樣：然後我們在網頁位址列輸入豆

python3.6簡單爬蟲：獲取電影的爛番茄指數（一）

載入包import requests from bs4 import BeautifulSoup獲取網站的urlurl = 'https://www.rottentomatoes.com/m/et_the_extraterrestrial' response = reque

Python獲取電影天堂各版塊電影

版本： Python3.6.5 引用庫： re,requests,json,lxml 執行效果：程式碼： #-*-coding:UTF-8-*- import re import requests

python爬取電影天堂網各個電影下載地址

# -*- coding:utf-8 -*- import requests from lxml import etree url="https://www.dy2018.com/html/gndy/dyzz/index.html" response=requests.ge

Python小工具-電影天堂爬取電影下載連結

import requests import bs4 # 獲取單獨的url def movie_info(url): ''' 內容標籤：<div id="Zoom"> 下載連結標籤：--》a標籤屬性：thunderrestitle

【SSH進階之路】Hibernate映射——一對一單向關聯映射（五）

技術 iyu 標識 tails for sso 3.0 sdn 例如【SSH進階之路】Hibernate基本原理（一），小編介紹了Hibernate的基本原理以及它的核心，採用對象化的思維操作關系型數據庫。【SSH進階之路】Hibernate搭建開發環境+簡單實例

華為ICDComm通訊控件IP映射（穿透）

華為icdcomm通訊控件 ip映射 ip穿透操作指引在下圖所示界面中的IP地址和端口號編輯框中輸入本ICDComm需要綁定的IP地址和端口號。系統初始配置的IP地址即為本機的IP地址，端口號為“8888”。最大消息長度，設置值最大不能超過100000000字節。配置IP地址等參數信息如

【SSH進階之路】Hibernate基本映射（三）

tor res 主動 tran clas oid 支持包 lose 包括【SSH進階之路】Hibernate基本原理（一），小編介紹了Hibernate的基本原理以及它的核心。採用對象化的思維操作關系型數據庫。【SSH進階之路】Hibernate搭建開發環境+簡單

【SSH 基礎】淺談Hibernate關系映射（3）

區別 ack 增加 ans 存儲結構 mil pro 映射方向繼上篇博客一對多關聯映射（單向）上面我們介紹了多對一，我們反過來看一對多不就是多對一嗎？那還用再進行不同的映射嗎？有什麽區別嗎？一對多和多對一映射原理是一致的，存儲是同樣的。也就是生成的數據庫

Spring MVC http請求地址映射（三）

問題 custom 支持 ref quest path pin 風格依據 Spring [email protected]/* */@RequestMapping的方法進行映射，然後調用映射的方法處理請求，這個分發過程默認是由DispaterServlet處理

初識Hibernate之關聯映射（一）

ber 初識 album nat amp uid 關聯映射映射 pic http://pic.cnhubei.com/space.php?uid=1774&do=album&id=1361989http://pic.cnhubei.com/space.ph

F5 BIG-IP 不用Virtual Servers 做NAT映射（單向）映射（方法一）

f5 big-ip 不用virtual servers 做nat映射本人主要做為配置備份背景說明：F5做為網絡負載使用，兩條鏈路，分別為聯通與電信內部服務用NGINX服務做轉發，提供服務，地址為192.168.1.100，使用端口為20000映射外網地址為10.10.10.1（實際地址不為此），端口為200

配置防火墻端口映射（VIP）

配置固定找到 img 說明選項轉發多個 itl 外部IP地址的選項填寫說明：如果外網地址是固定IP的話，將要映射的具體外部IP地址填寫上去；如果外網地址是撥號自動獲取的話，則在外部IP地址的選項上填寫0.0.0.0，以下場景模擬的是撥號線路的情況。1. 定義好具體

爬蟲（Xpath）——爬tieba.baidu.com (bug)

tieba 數據 http lis __name__ gin lencod 問題： agen 工具：python3 問題：在執行loadPage時遇到了問題， link_list = content.xpath(‘//div[@class="t_con cleafix"]/

C#_基礎_方法以及方法重載（十）

closed gif 重新 pre num 條件 alt summary stat 方法：就是將一段代碼放在一起，進行重復調用的機制。語法： * [private] static 返回值類型函數名（參數列表） * {

『TensorFlow』分布式訓練_其二_多GPU並行demo分析（待續）

print all set represent proto copyright keys 20M runners 建議比對『MXNet』第七彈_多GPU並行程序設計 models/tutorials/image/cifar10/cifer10_multi_gpu-trai

路飛學城—python爬蟲實戰密訓-—第1章（作業）

找不到 sla 進行 lse sig -a 後來 spa fin 一：學習心得，體會感覺跟著視頻做的汽車之家，和抽屜網站登錄的爬蟲沒有那麽難。但做github登錄並獲取信息的，就覺得不太容易了，登錄操作挺簡單，和抽屜例子差不多，但獲取個人信息部分就感覺有點麻煩了，主要

python爬蟲練習 -- 簽名器+GUI界面（Tkinter）

語言 gen 模塊 geometry rep mode 窗口下載參考效果圖：實現步驟如下：實現原理：其實就是套了一層GUI的殼，主要還是爬蟲抓取某個網站返回的數據，然後利用python自帶的GUI工具包Tkinter來實現gui界面： 1.爬蟲分析：目標站點：

爬蟲_電影天堂 熱映電影（xpath）

相關推薦

爬蟲_電影天堂熱映電影（xpath）