python3爬蟲之貓眼電影Toop100獲取

阿新 • • 發佈：2019-01-29

以下是全部程式碼。

import requests
from requests.exceptions import RequestException
import re
import json
from  multiprocessing import Pool

def get_one_page(url):
   try:
       reseponse = requests.get(url)
       if reseponse.status_code == 200:
           return reseponse.text
       return None
   except 
 RequestException:
       return None

# 得到了網頁後對html進行解析  ,注意下面的正則表示式，以《dd》開始，有一個數字標籤，每個需要得到的標籤前後都系要加進去。

def paese_one_page(html):    
    pattern = re.compile('<dd>.*?board-index.*?>(\d*)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>'
                         '.*?releasetime">(.*?)</p>.*?</dd>' 
,re.S)
    items = re.findall(pattern,html)
    for item in items:
        yield {                           # yied生成器對於items中每個item都
                                               #要進行相同操的遍歷
            'index':item[0],
            'image':item[1],
            'title':item[2],
            'actor':item[3 
].strip()[3:],
            'time': item[4].strip()[5:],
             }

def write_to_file(content):
    with open('5.txt','a',encoding='utf-8') as f:
        f.write(json.dumps(content,ensure_ascii=False) + '\n')
        f.close()


def main(offset):
    url = 'http://maoyan.com/board/4?offset=' +str(offset)     # 定義的主函式
    html = get_one_page(url)
    for item in paese_one_page(html):
        print(item)
        write_to_file(item)


if  __name__ == '__main__':   # 這個是用來控制住函式main(),每當主函式主函式執行時，都會進行這個判斷
    #for i in range(10): 如果不用程序池可用這個
        #main(i*10)
    pool = Pool()        # 定義一個程序，map中後面的引數不斷的給前面的主函 數，迭代的過程，當有空的程序池時，後面的i提前完成mian函式，而不用進行等待（5.txt中並不是按照順序來迭代）

歡迎新手一起交流。

python3爬蟲之貓眼電影Toop100獲取

以下是全部程式碼。 import requests from requests.exceptions import RequestException import re import json from multiprocessing import

「Python3爬蟲」貓眼電影爬蟲（破解字符集反爬）！

一、頁面分析首先開啟貓眼電影，然後點選一個正在熱播的電影（比如：毒液）。開啟開發者工具，點選左上角的箭頭，然後用滑鼠點選網頁上的票價，可以看到原始碼中顯示的不是數字，而是某些根本看不懂的字元，這是因為使用了font-face定義字符集，並通過unicode去對映展示，所以我們在網頁上看

爬蟲之貓眼電影

獲取電影相關資料 import re from urllib.request import urlopen from urllib import request import pymysql def get_content(url): """

Python爬蟲之模擬登入豆瓣獲取最近看過的電影

哈哈哈，模擬登入成功啦啦啦啦啦~~~~~ 重要的事本來要說三遍，不過還是算了== 先上效果圖：眾所周知，很多網站都設定了登入之後才能獲取檢視頁面的權利，因此模擬登入成了爬取資訊的第一步，這一步

python3 爬蟲之Pyquery的使用方法

ger -s pos amp int lxml pyquery add ddc 安裝 pip install pyquery 官方文檔： https://pythonhosted.org/pyquery/ 初始化方式（四種） 1. 直接字符串 from pyquer

python3 爬蟲之requests模塊使用總結

swd rom 一個 http 寫入 delet pen req 狀態碼 Requests 是第三方模塊，如果要使用的話需要導入。Requests也可以說是urllib模塊的升級版，使用上更方便。這是使用urllib的例子。 import urllib.request

python3爬蟲之安裝和使用scrapy

環境：win10-64位、python3.6 安裝依賴安裝lxml pip install lxml 安裝zope.interface pip install zope.interface 安裝wheel pip inatall whee

python3爬蟲之lxml的xpath二次匹配遇到的問題

文章目錄 1. lxml的xpath解析頁面 2. BeautifulSoup解析頁面 1. lxml的xpath解析頁面 from lxml import etree text = ''' &l

2018 - Python 3.7 爬蟲之利用 Scrapy 框架獲取圖片並下載（二）

一、通過命令構建一個爬蟲專案二、定義 item 三、啟用 pipeline 管道四、編寫爬蟲 Spider 五、執行爬蟲六、結果檢視未安裝 Scrapy 框架，見上一篇文章：框架安裝及配置一、通過命令構建一個爬蟲專

python3爬蟲之開篇

寫在前面的話：　　折騰爬蟲也有一段時間了，從一開始的懵懵懂懂，到現在的有一定基礎，對於這一路的跌跌撞撞，個人覺得應該留下一些文字性的東西，畢竟好記性不如爛筆頭，而且畢竟這是吃飯的傢伙，必須用心對待才可以，從今天起，我將會把關於爬蟲的東西進行一個整理，以供後期的查閱，同時也想將自己的一點點經驗分享給大家。

python3爬蟲之Urllib庫（二）

cau python err 發送請求 split 完成構造服務器 inf 在上一篇文章中，我們大概講了一下urllib庫中最重要的兩個請求方法：urlopen() 和 Request() 但是僅僅憑借那兩個方法無法執行一些更高級的請求，如Cookies處理，代

Python3爬蟲之模擬登陸

爬取一些不需要登陸的網址操作已經試過了，這次來用Python嘗試需要登陸的網址，來利用cookie模擬登陸我用的是火狐瀏覽器自帶的F12開發者工具，開啟網址輸入賬號，密碼，登陸，如圖可以看到捕捉到很多post和get請求，第一個post請求就是我們提交賬號和密

Python3爬取貓眼電影榜並將資料存入MySql

直接上程式碼： #coding=utf-8 import re import time import pymysql import requests from requests.exceptions import RequestException from bs4 import Beautif

python3爬蟲之使用Scrapy框架爬取性感女神美女照片

使用Scrapy框架爬取性感女神美女照片其實很簡單哦，只需要5分鐘，爬取上萬張性感女神照片。先給大家看一下成果吧：激不激動，興不興奮，那就快來學一下吧：開始專案前需要安裝python3和Scrapy，不會的自行百度，這裡就不具體介紹了接下來是程式碼

Python3爬蟲之爬取百度高清圖片

#!/usr/bin/env python # -*- coding:utf-8 -*- # Author: OFZFZS # Datetime:2018/3/23 11:00 # Description: 百度圖片爬取這裡只做了簡單處理,注意百度圖片返回的資料是aja

python3爬蟲之使用Scrapy框架爬取英雄聯盟高清桌面桌布

使用Scrapy爬蟲抓取英雄聯盟高清桌面桌布開始專案前需要安裝python3和Scrapy，不會的自行百度，這裡就不具體介紹了首先，建立專案 scrapy startproject loldesk 生成專案的目錄結構首先需要定義抓取元素，在item.p

python爬蟲之貓眼視訊Top100

貓眼視訊Top100 import requests import re,json from multiprocessing import Pool def get_one_page(url,h

python3爬蟲豆瓣top250電影（並儲存到mysql資料庫）

所用到的模組（需要提前安裝好）： requests、BeautifulSoup、lxml、mysql.connector（或者pymysql也可以，如果不想插入到資料庫，只需要將裡邊相關的程式碼刪除）（程式碼下邊將貼出本文beautifulsoup的使用）程式碼

Python3爬取貓眼電影Top100(多程序)

分析過程：網頁原始碼關鍵部分（一對<dd></dd>標籤包括所有主要資訊）： <div class="content"> <div class="wrapper"> <div cl

Python3爬蟲之四簡單爬蟲架構【爬取百度百科python詞條網頁】

前面介紹了Python寫簡單的爬蟲程式，這裡參考慕課網Python開發簡單爬蟲總結一下爬蟲的架構。讓我們的爬蟲程式模組劃分更加明確，程式碼具有更佳的邏輯性、可讀性。因此，我們可以將整個

python3爬蟲之貓眼電影Toop100獲取

相關推薦