1. 程式人生 > >爬取貓眼top100電影並存儲在mysql中

爬取貓眼top100電影並存儲在mysql中

import requests
from bs4 import BeautifulSoup
import pymysql

print("連線到mysql伺服器...")
db = pymysql.connect("127.0.0.1", "root", "1234", charset="utf8")
print("連線成功!")
# 資料的遊標
cursor = db.cursor()
# 選擇資料庫
cursor.execute("use test")
#計數
num = 0

# 網頁請求頭
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36 OPR/49.0.2725.47'
} url = "http://maoyan.com/board/4?offset=" for i in range(0, 100, 10): # 從0開始,每次增加10,到100結束,不包括100 url = "http://maoyan.com/board/4?offset=" + str(i) # 傳送get請求 r = requests.get(url, headers=headers) # 獲取文字 content = r.text soup = BeautifulSoup(content, 'lxml') div_name = soup.find_all(class_='name'
) # 找出所有電影的名字 div_star = soup.find_all(class_='star') # 找出所有電影的主演 div_time = soup.find_all(class_='releasetime') # 找出所有電影的上映時間 div_score = soup.find_all(class_='score') # 找出所有電影的評分 long = len(div_name) for i in range(0, long): num = num + 1 number = str(num) name = div_name[i].get_text() actor = div_star[i].get_text() date
= div_time[i].get_text() score = div_score[i].get_text() #插入資料 insert_name = ("insert into maoyantop100(num,name,actor,date,score)" "values(%s,%s,%s,%s,%s)") data = (number,name,actor,date,score) cursor.execute(insert_name, data) db.commit() print("第 "+ str(num) +" 條插入完成")

相關推薦

貓眼top100電影並存mysql

import requests from bs4 import BeautifulSoup import pymysql print("連線到mysql伺服器...") db = pymysql.co

貓眼top100電影並存在本地csv檔案

import requests from bs4 import BeautifulSoup import time import csv def getcontent(url): #網頁請求頭

Requests+正則表示式貓眼TOP100電影

需要著重學習的地方:(1)爬取分頁資料時,url連結的構建(2)儲存json格式資料到檔案,中文顯示問題(3)執行緒池的使用(4)正則表示式的寫法 import requests from requests.exceptions import RequestException import re im

使用requests和xpath貓眼TOP100電影

技術路線:requests-xpath - 使用 requests 獲取網頁內容 使用 try...except 獲取網頁內容 - 使用 xpath 解析網頁 對主要資訊使用 xpath 進行提取 - 翻頁及反爬處理 貓眼的翻頁處理是 url 處進行翻頁的 ht

貓眼 TOP100 電影並以 excel 格式儲存

爬取目標 本文將提取貓眼電影 TOP100 排行榜的電影名稱、時間、評分、圖片等資訊,URL 為http://maoyan.com/board/4,提取的結果我們以 excel 格式儲存下來。 準備工作 爬取分析 開啟http://maoya

Python貓眼top100排行榜數據【含多線程】

代碼 status log col return map result port htm # -*- coding: utf-8 -*- import requests from multiprocessing import Pool from requests.e

使用selenium結合PhantomJS淘寶美食並存到MongoDB

cnblogs exc cte ota browser -- pre command out PhantomJS是一種沒有界面的瀏覽器,便於爬蟲 1、PhantomJS下載 2、phantomjs無須安裝driver,還有具體的api參考: http://phantomj

貓眼top100

cin -i afa header ble fire for mozilla 1.9 import urllib.request import random import re import json ‘‘‘ 解決訪問403的問題,需要模仿瀏覽器訪問 ‘‘‘ my_he

如何貓眼電影票房資料

https://blog.csdn.net/qq_31032181/article/details/79153578 一、背景  字型反爬應用還是很普遍。這兩天有朋友諮詢如何實現貓眼票房資料的爬取,這裡其實與上面的文章核心思想是一致的,但是操作更復雜一些,本文做一個更詳細的破解實踐

Python3 Scrapy框架學習一:貓眼Top100

以下操作基於Windows平臺。 開啟CMD命令提示框: 輸入 如下命令: 開啟專案裡的items.py檔案,定義如下變數,用於儲存。 class MaoyanItem(scrapy.Item): # define the fields for your

python3實現抓貓眼top100電影資訊

前言:最近正在學習python爬蟲,瞭解一些基礎知識後,還是要實踐動手熟悉。下面文章例子有空再加備註。。import requests import re import json import time from requests.exceptions import Requ

實習僧網站並存

# -*- coding:utf-8 -*- import requests,re,time,xlwt headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (

正則抓貓眼TOP100電影的海報

1,開啟貓眼電影TOP100的榜單網址: 2,Google Chrome 瀏覽器中按F12,開啟開發者面板,使用Network: 此時什麼也沒有。 3,回到榜單的原始頁面,按下F5進行重新整理,此時再看開發者面板中的Network中會有資訊流: 通過查詢看

20170513貓眼電影Top100

top compile bs4 etime http res XML n) quest import jsonimport reimport requestsfrom bs4 import BeautifulSoupfrom requests import RequestE

使用requests貓眼電影TOP100榜單

esp 進行 得到 ensure .com key d+ odin pickle   Requests是一個很方便的python網絡編程庫,用官方的話是“非轉基因,可以安全食用”。裏面封裝了很多的方法,避免了urllib/urllib2的繁瑣。   這一節使用request

爬蟲(七):貓眼電影top100

all for rip pattern 分享 爬取 values findall proc 一:分析網站 目標站和目標數據目標地址:http://maoyan.com/board/4?offset=20目標數據:目標地址頁面的電影列表,包括電影名,電影圖片,主演,上映日期以

python貓眼電影top100排行榜

技術 所有 結果 mys url with 地址 保存 pic 爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90)1). 爬取內容: 電影名稱,主演, 上映時間,圖片url地址保存到mariadb數據庫中;2). 所有的圖片保

用Requests和正則表示式貓眼電影(TOP100+最受期待榜)

目標站點分析 目標站點(貓眼榜單TOP100): 如下圖,貓眼電影的翻頁offset明顯在URL中,所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。 流程框架 1、抓取單頁內容 利用requests請求目標站點,得到單個網頁HTML程式碼,返回結

Python爬蟲實戰之Requests+正則表示式貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下 這裡需要自己新增頭部 否則得不到網頁 hea

爬蟲練習 | 貓眼電影Top100

#coding=utf-8 _date_ = '2018/12/9 16:18' import requests import re import json import time def get_one_page(url): headers={ 'User-Agent':'Mozil