爬蟲之貓眼電影

阿新 • • 發佈：2018-12-23

獲取電影相關資料

import re
from urllib.request import urlopen
from urllib import request
import pymysql


def get_content(url):
    """
    獲取網頁內容
    :return:
    """
    user_agent = "Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0"
    req = request.Request(url, headers={'User-Agent': user_agent})
    content = urlopen(req).read().decode('utf-8')
    return content


def parser_all_page():
    FilmInfo = []
    conn = pymysql.connect(user='root', password='westos', charset='utf8', autocommit=True, db='FilmInfo')
    with conn:
        cur = conn.cursor()
        create_table = 'CREATE TABLE FilmInfo(FilmName VARCHAR (30),FilmStar VARCHAR(40),ReleaseTime VARCHAR(40));'
        cur.execute(create_table)
        for i in range(10):
            url = 'http://maoyan.com/board/4?offset=%d' %(i*10)
            print("正在爬取第%d頁" %(i+1))
            content = get_content(url)
            pattern = r'<div class="movie-item-info">\s+<p class="name"><a href="/films/\d+" title="\w+" data-act="boarditem-click" data-val="{movieId:\d+}">([^\s+]*)</a></p>\s+<p class="star">\s+主演：([^\s+]*)\s+</p>\s+<p class="releasetime">上映時間：([^\s+]*)</p>\s+</div>'
            Info = re.findall(pattern,content)
            print(Info)
            for film in Info:
                insert_url = 'INSERT INTO FilmInfo VALUES ("%s", "%s" ,"%s");' % (film[0], film[1],film[2])
                cur = conn.cursor()
                res = cur.execute(insert_url)
            FilmInfo.append(Info)

    return FilmInfo

def main():
    parser_all_page()

main()

在這裡插入圖片描述

爬蟲之貓眼電影

獲取電影相關資料 import re from urllib.request import urlopen from urllib import request import pymysql def get_content(url): """

python3爬蟲之貓眼電影Toop100獲取

以下是全部程式碼。 import requests from requests.exceptions import RequestException import re import json from multiprocessing import

「Python3爬蟲」貓眼電影爬蟲（破解字符集反爬）！

一、頁面分析首先開啟貓眼電影，然後點選一個正在熱播的電影（比如：毒液）。開啟開發者工具，點選左上角的箭頭，然後用滑鼠點選網頁上的票價，可以看到原始碼中顯示的不是數字，而是某些根本看不懂的字元，這是因為使用了font-face定義字符集，並通過unicode去對映展示，所以我們在網頁上看

python爬蟲之貓眼視訊Top100

貓眼視訊Top100 import requests import re,json from multiprocessing import Pool def get_one_page(url,h

python爬蟲之豆瓣電影評分

想知道一部電影好不好看，豆瓣的評分還是比較靠譜的，於是，搞了搞，寫了一個小爬蟲：說明文件： 1.直接講程式碼儲存成.py檔案 2.輸入你喜歡的電影，按下回車 3.顯示豆瓣的電影評分 4. 按任意鍵退出程式； # -*- coding: utf-8 -*- im

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

Python爬蟲之requests+正則表示式抓取貓眼電影top100以及瓜子二手網二手車資訊(四)

{'index': '1', 'image': 'http://p1.meituan.net/movie/[email protected]_220h_1e_1c', 'title': '霸王別姬', 'actor': '張國榮,張豐毅,鞏俐', 'time': '1993-01-01', 'sc

Python爬蟲之三：抓取貓眼電影TOP100

今天我要利用request庫和正則表示式抓取貓眼電影Top100榜單。執行平臺： Windows Python版本： Python3.6 IDE： Sublime Text 其他工具： Chrome瀏覽器 1. 抓取單頁內容瀏

Python爬蟲之抓取貓眼電影TOP100

執行平臺：windowsPython版本：Python 3.7.0IDE:Sublime Text瀏覽器：Chrome瀏覽器思路： 1.檢視網頁原始碼 2.抓取單頁內容 3.正則表示式提取資訊

靜覓爬蟲學習筆記8-爬取貓眼電影

nal rip score item 之前 req exceptio pool html 　　不知道是不是我學習太晚的原因，貓眼電影這網站我用requests進行爬取源碼直接返回給我一個您的訪問被禁止。作為萌新的我登時就傻了，還好認真聽了之前的課，直接換selenium抓了

爬蟲（七）：爬取貓眼電影top100

all for rip pattern 分享爬取 values findall proc 一：分析網站目標站和目標數據目標地址：http://maoyan.com/board/4?offset=20目標數據：目標地址頁面的電影列表，包括電影名，電影圖片，主演，上映日期以

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

Python爬蟲之多線程下載豆瓣Top250電影圖片

process current ocs code roc 輸出 wait div 允許爬蟲項目介紹 ??本次爬蟲項目將爬取豆瓣Top250電影的圖片，其網址為：https://movie.douban.com/top250，具體頁面如下圖所示： ??本次爬蟲項目將分別

python爬蟲知識點總結（九）Requests+正則表達式爬取貓眼電影

bsp code item 代碼 proc action none width auth 一、爬取流程二、代碼演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:[email protected] #date:20

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

爬蟲之爬取豆瓣電影的名字

import requests #requests模組用於傳送HTTP請求 import json #json模組用於對JSON資料進行編解碼 #新建陣列用於存放多個電影資料 movielist=[] #瀏覽器演示json crawlSite="https://api.douba

【Python3 爬蟲學習筆記】基本庫的使用 13 —— 抓取貓眼電影排行

四、抓取貓眼電影排行 4.1 抓取分析需要抓取的目標站點為http://maoyan.com/board/4 ,開啟之後便可以檢視到榜單資訊，如下圖所示：排名第一的電影是霸王別姬，頁面中顯示的有效資訊有影片名稱、主演、上映時間、上映地區、評分、圖片等資訊。將網頁滾動到最下方，

Python3爬蟲入門實戰系列（二）爬取貓眼電影排行榜

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。執行平臺：windows Python版本： Python3.x 一、依賴庫的安裝在本節實戰之前，請確保已經正確安裝了requests庫 requests庫的安裝 pip3 instal

Python：爬蟲例項2：爬取貓眼電影——破解字型反爬

字型反爬字型反爬也就是自定義字型反爬，通過呼叫自定義的字型檔案來渲染網頁中的文字，而網頁中的文字不再是文字，而是相應的字型編碼，通過複製或者簡單的採集是無法採集到編碼後的文字內容的。現在貌似不少網站都有采用這種反爬機制，我們通過貓眼的實際情況來解釋一下。下圖的是貓眼網頁

一起學爬蟲——使用xpath庫爬取貓眼電影國內票房榜

之前分享了一篇使用requests庫爬取豆瓣電影250的文章，今天繼續分享使用xpath爬取貓眼電影熱播口碑榜 XPATH語法 XPATH(XML Path Language)是一門用於從XML檔案中查詢資訊的語言。通用適用於從HTML檔案中查詢資料。工欲善其事必先利其器，我們首先來了解XPATH常用的語法

爬蟲之貓眼電影

相關推薦