第十一講：爬取貓眼網站上的前100名電影

阿新 • • 發佈：2019-08-26

本次我們來通過翻頁爬取的方式爬取貓眼電影裡面推薦的前100名電影，並存儲到資料庫。

1、我們登入貓眼，看下我們的資料在哪裡

然後點選今日TOP100，看下具體的網頁資料

最下面我們看到底部有頁碼，並分析頁碼與位址列的關係。

我們可以總結出以下規律:

後續我們通過不斷變化位址列就可以實現翻頁搜尋資訊的效果。

而，我們要獲取的影片內容有哪些？下面這些：排名、影片名稱、主演、上映時間、評分。

對於我們要獲取的資訊，我們要檢視原始碼，看下對應的資訊的通用格式是怎樣的。

按F12鍵，在除錯模式裡面點選小箭頭，選中對應的頁面元素就可以看到元素的原始碼了。

1、排名：

元素格式：1

上面格式中的紅色字型是可以改變的，比如第二名就是：2

我們可以用\d{1,3} 代替1-100的數字，那麼對應的正則表示式可以寫成：

p=r'\d{1,3}'

所以，我們獲取排名的程式碼如下：

最後在修改一下，把數字提取出來，用split()函式：

2、電影名稱：

有兩條，我們只取一條就可以了。

元素格式：<a href="/films/1203" title="霸王別姬" class="image-link"

根據上面，我們可以寫正則表示式為：p2=r'<a href="/films/\d{1,}" title="\S{1,}" class="image-link"

程式碼如下：

最後，我們要修改下，只過濾電影名稱，採用split()函式

3、主演與上映時間：

4、最後是評分

最後，我們要做的是：

1、分值合併。

2、以上各個值的組裝。

3、寫入資料庫。

4、翻頁

先寫到這裡，同學們思考上面兩個，答案下面一講再公佈。

注：其實我們的正則表示式更加精準的話，就不用擷取那麼多次。後續再重點講正則表

第十一講：爬取貓眼網站上的前100名電影

本次我們來通過翻頁爬取的方式爬取貓眼電影裡面推薦的前100名電影，並存儲到資料庫。 1、我們登入貓眼，看下我們的資料在哪裡

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

第十一講：11.spring宣告式事務管理-xml方式

1，複製專案spring404 ，改名spring404-2，修改BankServiceImpl類，刪除宣告式事務的程式碼。宣告式事務管理的方式缺點是，事務程式碼嚴重嵌入邏輯程式碼中 package com.cruise.service.impl; import org.springframewor

MIT 線性代數導論第十一講：矩陣空間、秩1矩陣和小世界圖

本講的主要內容有：矩陣空間的具體概念秩1矩陣的概念以及性質小世界圖矩陣空間在之前的一講中提到了矩陣空間的概念，其實本質上與之前的向量空間是一致的，只是概念的拓展。例如：矩陣空間 MMM 是所有 3×33\times33×3 的矩陣構成的空間，它的子

工具教程第十一講：如何加入電報群

這裡是王團長區塊鏈學院，與最優秀的區塊鏈人一起成長！今天給大家講講如何加入電報群。 telegram俗稱電報，是國外的一款即時通訊軟體，類似於微信。因為政策的一些限制，現在很多幣種的官方群、交流群都從QQ/微信群轉到了電報。所以電報群也是咱們必備的一個軟體。電報

測試回顧版-第十一講：Loadrunner8.1自帶訂票系統指令碼實戰1

1：訂票 vuser_init，錄製登陸 action，一個完整的訂票流程 vuser_end，退出具體 vuser_init 自動關聯sessionID，設定兩個事務，開啟網頁，登陸 /* ---------------------------------------

名詞解釋第七十一講：分叉

這裡是王團長區塊鏈學院，與最優秀的區塊鏈人一起成長！今天給大家講講分叉。一般來說，在區塊鏈上同一時間內只會產生一個區塊，但如果在相同時間，出現兩個區塊同時被生成的情況，全網中就會出現兩條長度相同、包含的交易資訊相同但由不同的礦工簽名或者交易

Python3 Scrapy框架學習一：爬取貓眼Top100榜

以下操作基於Windows平臺。開啟CMD命令提示框：輸入如下命令：開啟專案裡的items.py檔案，定義如下變數，用於儲存。 class MaoyanItem(scrapy.Item): # define the fields for your

工具教程第三十一講：電報的使用（二）

這裡是王團長區塊鏈學院，與最優秀的區塊鏈人一起成長！今天給大家講講電報Telegram的使用。第三步、註冊使用Telegram 1、點開telegram，點選開始 2、在選擇國家處選擇中國China，填寫手機號碼，最後點“√”進入下一步

聽課筆記（第十一講）：線性分類模型 (臺大機器學習）

在上一講中，我們瞭解到線性迴歸和邏輯斯蒂迴歸一定程度上都可以用於線性二值分類，因為它們對應的錯誤衡量(square error, cross-entropy) 都是“0/1 error” 的上界。1，三個模型的比較1.1 分析Error Function本質上講，線性分類

JavaSE第七十一講：Target及ElementType詳解

1. 繼續上一講內容，複習上一講內容我們講到了 Retention以及RetentionPolicy。這兩個都是成對出現的，因為Retention裡面包含了一個屬性value型別為 RetentionPolicy 列舉型別,它有三個列舉CLASS、RUNTIME、SOURC

孤荷淩寒自學python第八十一天學習爬取圖片1

提取網頁影響函數 ren 服務器 hunk 解決 chardet 孤荷淩寒自學python第八十一天學習爬取圖片1 （完整學習過程屏幕記錄視頻地址在文末）通過前面十天的學習，我已經基本了解了通過requests模塊來與網站服務器進行交互的方法，也知道了Bea

Ng第十一課：機器學習系統的設計(Machine Learning System Design)

未能計算公式 pos 構建我們行動 mic 哪些指標 11.1 首先要做什麽 11.2 誤差分析 11.3 類偏斜的誤差度量 11.4 查全率和查準率之間的權衡 11.5 機器學習的數據 11.1 首先要做什麽在接下來的視頻將談到機器

第十一章：基本系統的配置工具

scrip ati 設置 down dns system show 一個 work 1、配置網絡 2、配置和發送文本到打印服務（用的少，大家忘了他吧） 3、設置系統日期和時間 4、調度計劃任務 TCP/IP Network Configuration 　　配置IP地址

Oracle11g溫習-第十一章：管理undo

undo 大小 not table set lsp 星期查看 reat 2013年4月27日星期六 10:40 1、undo tablespace 功能 undo tablespace 功能：用來存放從datafiles 讀出的數據塊舊的鏡像

OpenGL第十一節：拉伸和過濾

bind wap fromfile 坐標 .cpp mfile identity get ott LTexture.hvoid render( GLfloat x, GLfloat y, LFRect* clip = NULL, LFRect* stretch = NULL

第十一課：結合律

tin 結合 .com com img es2017 images get image http://www.52investing.com/jpkecheng/payRoom_31_109.html 第十一課：結合律

第十一節：Bundles壓縮合並js和css及原理分析

string數組 tab 速度操作 spn sof 參考 reader 調試一. 簡介 1.背景：瀏覽器默認一次性請求的網絡數是有上限的,如果你得js和css文件太多，就會導致瀏覽器需要多次加載，影響頁面的加載速度, MVC中提供Bundles的方式壓縮合並js和cs

第十一篇：消息隊列、緩存

dir hash 廣播 body 消息分發 ash rec 模式 edi 一、消息隊列簡紹二、RabbitMQ基本實列：三、RabbitMQ消息分發輪詢四、消息持久化五、Fanout廣播模式六、Direct廣播模式七、Redis基本操作八、Redis Hash

（轉）第十一篇：springboot集成swagger2，構建優雅的Restful API

html 風格 lan round amt select() hash 指定 model 　　聲明：本部分內容均轉自於方誌明博友的博客，因為本人很喜歡他的博客，所以一直在學習，轉載僅是記錄和分享，若也有喜歡的人的話，可以去他的博客首頁看：http://blog.csdn.n

第十一講：爬取貓眼網站上的前100名電影

相關推薦