爬取貓眼top100電影並存儲在mysql中

阿新 • • 發佈：2019-01-20

import requests
from bs4 import BeautifulSoup
import pymysql

print("連線到mysql伺服器...")
db = pymysql.connect("127.0.0.1", "root", "1234", charset="utf8")
print("連線成功！")
# 資料的遊標
cursor = db.cursor()
# 選擇資料庫
cursor.execute("use test")
#計數
num = 0

# 網頁請求頭
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36 OPR/49.0.2725.47' 
}
url = "http://maoyan.com/board/4?offset="

for i in range(0, 100, 10):  # 從0開始，每次增加10，到100結束，不包括100
    url = "http://maoyan.com/board/4?offset=" + str(i)
    # 傳送get請求
    r = requests.get(url, headers=headers)
    # 獲取文字
    content = r.text
    soup = BeautifulSoup(content, 'lxml')

    div_name = soup.find_all(class_='name' 
)  # 找出所有電影的名字
    div_star = soup.find_all(class_='star')  # 找出所有電影的主演
    div_time = soup.find_all(class_='releasetime')  # 找出所有電影的上映時間
    div_score = soup.find_all(class_='score')  # 找出所有電影的評分

    long = len(div_name)

    for i in range(0, long):
        num = num + 1
        number = str(num)
        name = div_name[i].get_text()
        actor = div_star[i].get_text()
        date 
 = div_time[i].get_text()
        score = div_score[i].get_text()
        #插入資料
        insert_name = ("insert into maoyantop100(num,name,actor,date,score)" "values(%s,%s,%s,%s,%s)")
        data = (number,name,actor,date,score)
        cursor.execute(insert_name, data)
        db.commit()
        print("第 "+ str(num) +" 條插入完成")

爬取貓眼top100電影並存儲在mysql中

import requests from bs4 import BeautifulSoup import pymysql print("連線到mysql伺服器...") db = pymysql.co

爬取貓眼top100電影並存儲在本地csv檔案中

import requests from bs4 import BeautifulSoup import time import csv def getcontent(url): #網頁請求頭

Requests+正則表示式爬取貓眼TOP100電影

需要著重學習的地方:(1)爬取分頁資料時,url連結的構建(2)儲存json格式資料到檔案,中文顯示問題(3)執行緒池的使用(4)正則表示式的寫法 import requests from requests.exceptions import RequestException import re im

使用requests和xpath爬取貓眼TOP100電影

技術路線:requests-xpath - 使用 requests 獲取網頁內容使用 try...except 獲取網頁內容 - 使用 xpath 解析網頁對主要資訊使用 xpath 進行提取 - 翻頁及反爬處理貓眼的翻頁處理是 url 處進行翻頁的 ht

爬取貓眼 TOP100 電影並以 excel 格式儲存

爬取目標本文將提取貓眼電影 TOP100 排行榜的電影名稱、時間、評分、圖片等資訊，URL 為http://maoyan.com/board/4，提取的結果我們以 excel 格式儲存下來。準備工作爬取分析開啟http://maoya

Python爬取貓眼top100排行榜數據【含多線程】

代碼 status log col return map result port htm # -*- coding: utf-8 -*- import requests from multiprocessing import Pool from requests.e

使用selenium結合PhantomJS爬取淘寶美食並存儲到MongoDB

cnblogs exc cte ota browser -- pre command out PhantomJS是一種沒有界面的瀏覽器，便於爬蟲 1、PhantomJS下載 2、phantomjs無須安裝driver，還有具體的api參考： http://phantomj

爬取貓眼top100

cin -i afa header ble fire for mozilla 1.9 import urllib.request import random import re import json ‘‘‘ 解決訪問403的問題，需要模仿瀏覽器訪問 ‘‘‘ my_he

如何爬取貓眼網電影票房資料

https://blog.csdn.net/qq_31032181/article/details/79153578 一、背景字型反爬應用還是很普遍。這兩天有朋友諮詢如何實現貓眼票房資料的爬取，這裡其實與上面的文章核心思想是一致的，但是操作更復雜一些，本文做一個更詳細的破解實踐

Python3 Scrapy框架學習一：爬取貓眼Top100榜

以下操作基於Windows平臺。開啟CMD命令提示框：輸入如下命令：開啟專案裡的items.py檔案，定義如下變數，用於儲存。 class MaoyanItem(scrapy.Item): # define the fields for your

python3實現抓取貓眼top100電影資訊

前言：最近正在學習python爬蟲,瞭解一些基礎知識後，還是要實踐動手熟悉。下面文章例子有空再加備註。。import requests import re import json import time from requests.exceptions import Requ

爬取實習僧網站並存儲

# -*- coding:utf-8 -*- import requests,re,time,xlwt headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (

正則抓取貓眼TOP100電影的海報

1，開啟貓眼電影TOP100的榜單網址： 2，Google Chrome 瀏覽器中按F12，開啟開發者面板，使用Network: 此時什麼也沒有。 3，回到榜單的原始頁面，按下F5進行重新整理，此時再看開發者面板中的Network中會有資訊流：通過查詢看

20170513爬取貓眼電影Top100

top compile bs4 etime http res XML n) quest import jsonimport reimport requestsfrom bs4 import BeautifulSoupfrom requests import RequestE

使用requests爬取貓眼電影TOP100榜單

esp 進行得到 ensure .com key d+ odin pickle 　　Requests是一個很方便的python網絡編程庫，用官方的話是“非轉基因，可以安全食用”。裏面封裝了很多的方法，避免了urllib/urllib2的繁瑣。　　這一節使用request

爬蟲（七）：爬取貓眼電影top100

all for rip pattern 分享爬取 values findall proc 一：分析網站目標站和目標數據目標地址：http://maoyan.com/board/4?offset=20目標數據：目標地址頁面的電影列表，包括電影名，電影圖片，主演，上映日期以

python爬取貓眼電影top100排行榜

技術所有結果 mys url with 地址保存 pic 爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90)1). 爬取內容: 電影名稱，主演，上映時間，圖片url地址保存到mariadb數據庫中;2). 所有的圖片保

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

爬蟲練習 | 爬取貓眼電影Top100

#coding=utf-8 _date_ = '2018/12/9 16:18' import requests import re import json import time def get_one_page(url): headers={ 'User-Agent':'Mozil

爬取貓眼top100電影並存儲在mysql中

相關推薦