爬取貓眼top100電影並存儲在mysql中
import requests
from bs4 import BeautifulSoup
import pymysql
print("連線到mysql伺服器...")
db = pymysql.connect("127.0.0.1", "root", "1234", charset="utf8")
print("連線成功!")
# 資料的遊標
cursor = db.cursor()
# 選擇資料庫
cursor.execute("use test")
#計數
num = 0
# 網頁請求頭
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36 OPR/49.0.2725.47' }
url = "http://maoyan.com/board/4?offset="
for i in range(0, 100, 10): # 從0開始,每次增加10,到100結束,不包括100
url = "http://maoyan.com/board/4?offset=" + str(i)
# 傳送get請求
r = requests.get(url, headers=headers)
# 獲取文字
content = r.text
soup = BeautifulSoup(content, 'lxml')
div_name = soup.find_all(class_='name' ) # 找出所有電影的名字
div_star = soup.find_all(class_='star') # 找出所有電影的主演
div_time = soup.find_all(class_='releasetime') # 找出所有電影的上映時間
div_score = soup.find_all(class_='score') # 找出所有電影的評分
long = len(div_name)
for i in range(0, long):
num = num + 1
number = str(num)
name = div_name[i].get_text()
actor = div_star[i].get_text()
date = div_time[i].get_text()
score = div_score[i].get_text()
#插入資料
insert_name = ("insert into maoyantop100(num,name,actor,date,score)" "values(%s,%s,%s,%s,%s)")
data = (number,name,actor,date,score)
cursor.execute(insert_name, data)
db.commit()
print("第 "+ str(num) +" 條插入完成")
相關推薦
爬取貓眼top100電影並存儲在mysql中
import requests from bs4 import BeautifulSoup import pymysql print("連線到mysql伺服器...") db = pymysql.co
爬取貓眼top100電影並存儲在本地csv檔案中
import requests from bs4 import BeautifulSoup import time import csv def getcontent(url): #網頁請求頭
Requests+正則表示式爬取貓眼TOP100電影
需要著重學習的地方:(1)爬取分頁資料時,url連結的構建(2)儲存json格式資料到檔案,中文顯示問題(3)執行緒池的使用(4)正則表示式的寫法 import requests from requests.exceptions import RequestException import re im
使用requests和xpath爬取貓眼TOP100電影
技術路線:requests-xpath - 使用 requests 獲取網頁內容 使用 try...except 獲取網頁內容 - 使用 xpath 解析網頁 對主要資訊使用 xpath 進行提取 - 翻頁及反爬處理 貓眼的翻頁處理是 url 處進行翻頁的 ht
爬取貓眼 TOP100 電影並以 excel 格式儲存
爬取目標 本文將提取貓眼電影 TOP100 排行榜的電影名稱、時間、評分、圖片等資訊,URL 為http://maoyan.com/board/4,提取的結果我們以 excel 格式儲存下來。 準備工作 爬取分析 開啟http://maoya
Python爬取貓眼top100排行榜數據【含多線程】
代碼 status log col return map result port htm # -*- coding: utf-8 -*- import requests from multiprocessing import Pool from requests.e
使用selenium結合PhantomJS爬取淘寶美食並存儲到MongoDB
cnblogs exc cte ota browser -- pre command out PhantomJS是一種沒有界面的瀏覽器,便於爬蟲 1、PhantomJS下載 2、phantomjs無須安裝driver,還有具體的api參考: http://phantomj
爬取貓眼top100
cin -i afa header ble fire for mozilla 1.9 import urllib.request import random import re import json ‘‘‘ 解決訪問403的問題,需要模仿瀏覽器訪問 ‘‘‘ my_he
如何爬取貓眼網電影票房資料
https://blog.csdn.net/qq_31032181/article/details/79153578 一、背景 字型反爬應用還是很普遍。這兩天有朋友諮詢如何實現貓眼票房資料的爬取,這裡其實與上面的文章核心思想是一致的,但是操作更復雜一些,本文做一個更詳細的破解實踐
Python3 Scrapy框架學習一:爬取貓眼Top100榜
以下操作基於Windows平臺。 開啟CMD命令提示框: 輸入 如下命令: 開啟專案裡的items.py檔案,定義如下變數,用於儲存。 class MaoyanItem(scrapy.Item): # define the fields for your
python3實現抓取貓眼top100電影資訊
前言:最近正在學習python爬蟲,瞭解一些基礎知識後,還是要實踐動手熟悉。下面文章例子有空再加備註。。import requests import re import json import time from requests.exceptions import Requ
爬取實習僧網站並存儲
# -*- coding:utf-8 -*- import requests,re,time,xlwt headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (
正則抓取貓眼TOP100電影的海報
1,開啟貓眼電影TOP100的榜單網址: 2,Google Chrome 瀏覽器中按F12,開啟開發者面板,使用Network: 此時什麼也沒有。 3,回到榜單的原始頁面,按下F5進行重新整理,此時再看開發者面板中的Network中會有資訊流: 通過查詢看
20170513爬取貓眼電影Top100
top compile bs4 etime http res XML n) quest import jsonimport reimport requestsfrom bs4 import BeautifulSoupfrom requests import RequestE
使用requests爬取貓眼電影TOP100榜單
esp 進行 得到 ensure .com key d+ odin pickle Requests是一個很方便的python網絡編程庫,用官方的話是“非轉基因,可以安全食用”。裏面封裝了很多的方法,避免了urllib/urllib2的繁瑣。 這一節使用request
爬蟲(七):爬取貓眼電影top100
all for rip pattern 分享 爬取 values findall proc 一:分析網站 目標站和目標數據目標地址:http://maoyan.com/board/4?offset=20目標數據:目標地址頁面的電影列表,包括電影名,電影圖片,主演,上映日期以
python爬取貓眼電影top100排行榜
技術 所有 結果 mys url with 地址 保存 pic 爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90)1). 爬取內容: 電影名稱,主演, 上映時間,圖片url地址保存到mariadb數據庫中;2). 所有的圖片保
用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜)
目標站點分析 目標站點(貓眼榜單TOP100): 如下圖,貓眼電影的翻頁offset明顯在URL中,所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。 流程框架 1、抓取單頁內容 利用requests請求目標站點,得到單個網頁HTML程式碼,返回結
Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100
import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下 這裡需要自己新增頭部 否則得不到網頁 hea
爬蟲練習 | 爬取貓眼電影Top100
#coding=utf-8 _date_ = '2018/12/9 16:18' import requests import re import json import time def get_one_page(url): headers={ 'User-Agent':'Mozil