requests和正則爬取貓眼的資料

阿新 • • 發佈：2019-02-05

用requests爬取貓眼網站的top100榜單，再用正則提取所需的資料，並將資料儲存

#成功抓取所有資料，並存為檔案（參考程式碼：https://github.com/Germey/TouTiao/blob/master/spider.py）
import requests 
import re
import json  
from multiprocessing import Pool#Python多程序 

url='http://maoyan.com/board/4?offset='
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:57.0) Gecko/20100101 Firefox/57.0'}

def get(url):
    response=requests.get(url,headers=headers)
    response.encoding='utf-8'
    #print(response.text)
    #pattern = re.compile(r'<dd>.*?(\d+)</i>.*?"data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?score">.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)
    pattern = re.compile(r'<dd>.*?(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?score">.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)
    info=re.findall(pattern,response.text)
    for item in info:
        yield {
            'index':item[0].strip(),
            'img':item[1].strip(),
            'name':item[2].strip(),
            'star':item[3].strip()[3:],
            'releasetime':item[4].strip()[5:],
            'score':item[5].strip()+item[6].strip()   
        }

def main(url):
    with open(r'D:\cs.txt','a',encoding='utf-8') as f:
        for i in get(url):
            f.write(json.dumps(i,ensure_ascii=False))
            f.write('\n')

if __name__ == '__main__':
    #多程序方法抓取
    pool = Pool()
    pool.map(main,[url+str(x) for x in range(0,100,10)])
    pool.close()
    pool.join()

requests和正則爬取貓眼的資料

用requests爬取貓眼網站的top100榜單，再用正則提取所需的資料，並將資料儲存 #成功抓取所有資料，並存為檔案（參考程式碼：https://github.com/Germey/TouTiao/blob/master/spider.py） import request

利用requests和正則爬取貓眼電影top100榜單

環境：win10， anaconda3（python3.5）用python的requests庫和正則將貓眼電影top100榜單資訊抓取下來，儲存資料並做了點簡單的分析。（貓眼電影top100榜單網頁的原始碼可能發生了改變，程式里正則那邊可能不適用了，需要修改。）下面

(爬蟲)採用BeautifulSoup和正則爬取今日頭條圖集.詳細!

用beautifulsoup提取文字資訊,正則匹配關鍵的圖片資訊. 最後存入資料庫mongodb. 完成後的感想: 其實分析網頁是最關鍵的一個環節. ajax分析,json處理等等,還是需要多點練習. 下面是程式碼: ''' 步驟: 1. 首先抓取索引頁的內容,

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

用Requests和正則表示式爬取豆瓣圖書TOP250

思路和上文大同小異。 import requests from requests.exceptions import RequestException import re import json headers = {'User-Agent':'Mozilla/5.0(Macinto

python爬蟲系列（1）：使用python3和正則表示式獲取貓眼電影排行榜資料

簡述這次打算寫一個爬蟲系列，一邊也想好好總結鞏固學習的知識，一邊做總結筆記，方便以後回憶。這次我們使用Python3和正則表示式來爬取一個簡單html頁面資訊，就從貓眼電影的排行榜單開始吧。如果讀到這篇文章的是位大神，期望您能不吝賜教，指正錯誤，如果您是小白，咋們可以一同

正則爬取二手房數據

ace req spider spi con 網址 for repl 插入數據以下代碼是二手房的數據，代碼僅供參考，很簡單，超級簡單#encoding:utf8import requestsimport re調用網址def spider(url): html = r

爬取貓眼資料

//原始碼 # # 導包#import pyximportimport requestsfrom fake_useragent import UserAgentimport json import osimport pandas as pdimport csvimport datetime

Python 爬取貓眼資料分析《無名之輩》為何能逆襲成黑馬？

本文首發在 CSDN 微信（ID：CSDNNews）。最近幾天，有部國產電影因好評及口碑傳播而開始異軍突起以黑馬之勢逆襲，在朋友圈以及微博上都會不時看到相關內容，那便是由陳建斌、任素汐等主演的《無名之輩》。這樣一部沒有什麼特別大牌或流量明星，甚至名稱與海報都沒有

python 爬蟲使用正則爬取51job內容並存入txt

python爬蟲基礎–使用正則提取51job內容輸出到txt from urllib import request #url url = 'https://search.51job.com/list/020000%252C010000%252C080200%25

正則抓取貓眼TOP100電影的海報

1，開啟貓眼電影TOP100的榜單網址： 2，Google Chrome 瀏覽器中按F12，開啟開發者面板，使用Network: 此時什麼也沒有。 3，回到榜單的原始頁面，按下F5進行重新整理，此時再看開發者面板中的Network中會有資訊流：通過查詢看

Requests+正則表達式爬取貓眼電影

movies core http status roc find apple ascii int 代碼: import re import json from multiprocessing import Pool import requests from reque

python爬蟲知識點總結（九）Requests+正則表達式爬取貓眼電影

bsp code item 代碼 proc action none width auth 一、爬取流程二、代碼演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:[email protected] #date:20

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

Python爬蟲實習筆記 | Week3 資料爬取和正則再學習

2018/10/29 1.所思所想：雖然自己的考試在即，但工作上不能有半點馬虎，要認真努力，不辜負期望。中午和他們去吃飯，算是吃飯創新吧。下午爬了雞西的網站，還有一些欄位沒爬出來，正則用的不熟悉，此時終於露出端倪，心情不是很好。。明天上午把正則好好看看。 2.工作： [1].哈爾濱：html p

Python 利用BeautifulSoup和正則表示式來爬取旅遊網資料

import re import requests import time from bs4 import BeautifulSoup url = ‘http://www.cntour.cn/’ r = requests.get(url) print(r.encoding,len(r.t

requests正則表示式爬取貓眼電影

目標通過Request+正則表示式爬取貓眼電影TOP100電影的排名、名字、電影封面圖片、主演、上映時間、貓眼評分，將爬取的內容寫入檔案中。流程框架進入到貓眼電影TOP100的頁面，此時的URL為http://maoyan.com/board/4，點選第2頁，會發現此時的URL為http://ma

14-Requests+正則表示式爬取貓眼電影

'''Requests+正則表示式爬取貓眼電影TOP100''''''流程框架：抓去單頁內容：利用requests請求目標站點，得到單個網頁HTML程式碼，返回結果。正則表示式分析：根據HTML程式碼分析得到電影的名稱、主演、上映時間、評分、圖片連結等資訊。儲存至檔案：通過檔案的形式儲存結果，每一部電影一個結

14-Requests+正則表達式爬取貓眼電影

ons 亂碼 aci resp 正則 app 名稱 header ascii ‘‘‘Requests+正則表達式爬取貓眼電影TOP100‘‘‘‘‘‘流程框架：抓去單頁內容：利用requests請求目標站點，得到單個網頁HTML代碼，返回結果。正則表達式分析：根據HTML代碼

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

requests和正則爬取貓眼的資料

相關推薦