python 爬蟲抓豆瓣電影，並存入資料庫

阿新 • • 發佈：2019-01-22

import urllib.request
import json    
import codecs  
class info(object):  
	#@classmethod
	def moviedown(url):
		#網址  
		url = "https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1&start=9960"  
  
		#請求  
		request = urllib.request.Request(url)  
  
		#爬取結果  
		response = urllib.request.urlopen(request)  
		data = response.read()   
		#設定解碼方式  
		data = data.decode('utf-8')  

		data1 = []  
		data1=json.loads(data)#這一步pyrhon  轉成字典
		#data1['data']------>這是list      
		#data1['data'][0]-------->這是dict
		print(data1['data'][0]['rate']);
		str = "\r\n"  
		for item in data1['data']:  
   			 #print json.dumps(item)  
   			str = str + "insert into tencent(title,rate) values "  
   			str = str + "('%s','%s');\r\n" % (item['title'],item['rate'])  
  
		file_object = codecs.open('tencent.sql', 'a' ,"utf-8")  
		file_object.write(str)  
		file_object.close()  
		print ("success") ; 
test = info()
test.moviedown()##例項呼叫方法

這個只是普通實現，做個例子，會繼續優化下去

上面只實現了20個電影的存入，下面做了一個近萬電影的存入，功能可以做綜藝，電視劇等等

import urllib.request  
import json      
import codecs    
class info(object):    
    #@classmethod  
    def moviedown(url):  
        #網址    
        url = "https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1&start="    
        #地址更改的情況下 還能存入小說 電視劇  綜藝等等     
             
               
        #設定解碼方式    
        
        count=0
                
        data1 = []
        final=[]             
        while (int(count) < 9961): #這裡獲取了9980個電影，裡面有電影名稱，卡司，評分，圖片，海報，icon等內容 我這邊存入資料的只有評分和名稱
            a='%d'%count
            print(url+a);            
            request = urllib.request.Request(url+a)    
        
            #爬取結果    
            response = urllib.request.urlopen(request)
            data = response.read()
            data = data.decode('utf-8')                  
            data1=json.loads(data)#這一步pyrhon  轉成字典
            final=final+data1['data']
            count=count+20            
            #data1['data']------>這是list        
            #data1['data'][0]-------->這是dict  
        print(final);  
        str = "\r\n"    
        for item in final:    
             #print json.dumps(item)    
            str = str + "insert into mx_movie(title,rate) values "    
            str = str + "('%s','%s');\r\n" % (item['title'],item['rate'])    
    
        file_object = codecs.open('mx_movie.sql', 'a' ,"utf-8")    
        file_object.write(str)    
        file_object.close()    
        print ("success") ;   
test = info()  
test.moviedown()##例項呼叫方法

python 爬蟲抓豆瓣電影，並存入資料庫

import urllib.request import json import codecs class info(object): #@classmethod def moviedown(url): #網址 url = "https://m

爬蟲學習之11：爬取豆瓣電影TOP250並存入資料庫

本次實驗主要測試使用PyMySQL庫寫資料進MySQL，爬取資料使用XPATH和正則表示式，在很多場合可以用XPATH提取資料，但有些資料項在網頁中沒有明顯特徵，用正則表示式反而反而更輕鬆獲取資料。直接上程式碼：from lxml import etree impo

Python模擬登入豆瓣網，並爬取小組信息

count alias pass spa .post windows chrome apr ror import requests from bs4 import BeautifulSoup from PIL import Image headers = { ‘

Python3 Scrapy框架學習五：使用crawl模板爬取豆瓣Top250，並存入MySql、MongoDB

1.新建專案及使用crawl模板 2.頁面解析 rules = (Rule(LinkExtractor(allow=r'subject/\d+/',restrict_css = '.hd > a[class = ""]'), callback='parse_it

python爬蟲之豆瓣電影評分

想知道一部電影好不好看，豆瓣的評分還是比較靠譜的，於是，搞了搞，寫了一個小爬蟲：說明文件： 1.直接講程式碼儲存成.py檔案 2.輸入你喜歡的電影，按下回車 3.顯示豆瓣的電影評分 4. 按任意鍵退出程式； # -*- coding: utf-8 -*- im

Python爬蟲如何快速上手，並達到爬取大規模資料的水平

網際網路的資料爆炸式的增長，而利用 Python 爬蟲我們可以獲取大量有價值的資料：1.爬取資料，進行市場調研和商業分析爬取知乎優質答案，篩選各話題下最優質的內容；抓取房產網站買賣資訊，分析房價變化趨勢、做不同區域的房價分析；爬取招聘網站職位資訊，分析各行業人才需求情況及薪資水平。2.作為機器學習、資料探勘

php讀取xml檔案，並存入資料庫

附：xml檔案 <beans> <bean> <yearMonth>201612</yearMonth> <odpType>ODP1</odpT

Java解析txt檔案中json資料到List，並存入資料庫

背景：存在一個txt檔案，內容為json資料，格式如下（不是一行一條資料）： [{"name":"job","age":39,"occupation":"doctor"},{"name":"tom","age":30,"occupation":"tea

爬取電影天堂並存入資料庫

程式碼具體如下： from urllib.request import urlopen from urllib.error import HTTPError from bs4 import Bea

python爬蟲抓取zabbix監控圖，並發郵件

python 抓取最近十九大非常煩，作為政府網站維護人員，簡直是夜不能寐。各種局子看著你，內保局，公安部，360，天融信，華勝天成，中央工委，政治委員會...360人員很傻X，作為安全公司，竟然不能抓到XX網站流量，在我們機房放的探針更是搞笑，讓我們手工上報流量數據。白天還行，晚上怎麽辦？給他寫個腳

Python抓取電視劇《天盛長歌》豆瓣短評，並製作成詞雲。

最近在看《天盛長歌》，才看了30多集，感覺裡邊的劇情還是很有深度，每個反派都是智商線上，劇情也是環環相扣，以至於每個鏡頭給了哪些特寫我都要細細斟酌一番。不過可能劇情是根據小說改編，所以部分劇情有些老套，而且因為節奏有點慢，劇情過多，光是大皇子領盒飯就用了20集。目前來說不喜歡

Python爬蟲系列（四）（簡單）Dota排行榜爬取，並存入Excel表格

在編寫Python程式的時候，有很多庫供我們選擇，如urllib、requests，BeautifulSoup，lxml，正則表示式等等，使得我們在獲取網頁原始碼或者選擇元素的時候

python 爬取豆瓣電影評論，並進行詞雲展示及出現的問題解決辦法

本文旨在提供爬取豆瓣電影《我不是藥神》評論和詞雲展示的程式碼樣例 1、分析URL 2、爬取前10頁評論 3、進行詞雲展示 1、分析URL 我不是藥神短評第一頁url https://movie.douban.com/subject/26752088/comments?start=0&limit=2

Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL

簡述以下的程式碼是使用python實現的網路爬蟲，抓取動態網頁http://hb.qq.com/baoliao/。此網頁中的最新、精華下面的內容是由JavaScript動態生成的。審查網頁元素與網頁原始碼是不同。本人對於Python學習建立了一個小小的學習圈子，為各位提供了

Python網路爬蟲（九）：爬取頂點小說網站全部小說，並存入MongoDB

前言：本篇部落格將爬取頂點小說網站全部小說、涉及到的問題有：Scrapy架構、斷點續傳問題、Mongodb資料庫相關操作。背景： Python版本：Anaconda3 執行平臺：Windows IDE：PyCharm 資料庫：MongoDB 瀏

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

利用閒暇時間寫了一個抓取京東商品評論資料的爬蟲。之前寫了抓取拉勾網資料的爬蟲，請參考1，參考2。我的開發環境是Windows + Anaconda3（Python 3.6），家用電腦沒安裝Linux（Linux下也是可以的）。京東的評論資料是通過介面提供的，所以先找

Python爬蟲入門 | 7 分類爬取豆瓣電影，解決動態載入問題

比如我們今天的案例，豆瓣電影分類頁面。根本沒有什麼翻頁，需要點選“載入更多”新的電影資訊，前面的黑科技瞬間被秒…… 又比如知乎關注的人列表頁面：我複製了其中兩個人暱稱的 xpath： //*[@id="Popov

Python scrapy實踐應用，爬取電影網站的影片資源並存入資料庫

知識點 scrapy 分頁爬取。 scrapy提取頁面元素之xpath表示式語法 scrapy 配合pymysql儲存爬取到的資料到mysql資料庫 scrapy.Request（……）向回撥方法傳遞額外資料資料庫儲存前先

Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲

alt 插入 pytho width 重新 tab 空值 utf word Python爬蟲可以說是好玩又好用了。現想利用Python爬取網頁股票數據保存到本地csv數據文件中，同時想把股票數據保存到MySQL數據庫中。需求有了，剩下的就是實現了。在開始之前，保證已經

使用簡單的python語句編寫爬蟲定時拿取信息並存入txt

item line 簡單 ror article 5.5 quest win tail # -*- coding: utf-8 -*- #解決編碼問題import urllibimport urllib2import reimport osimport timepag

python 爬蟲抓豆瓣電影，並存入資料庫

相關推薦