第一次爬蟲實例

阿新 • • 發佈：2018-09-02

信息 bmi browser .sh turn 有時 data imp app

第一次爬蟲實例

1、這是我第一次寫的爬蟲實例，寫的不好請見諒，最後發現爬取的次數多了，被網站拉黑了，還是需要代理才行，代理還不太清楚怎麽弄就先這樣了

後面請大神可以幫忙改下怎麽使用代理爬取。

第一次爬取網站的所有電影信息（僅供參考）

具體思路就是先獲取第一頁上的信息

然後根據翻頁上的頁數來確定爬取多少頁

#下一步就是要寫怎麽爬取這些電影的種子並且下載到本地，等有時間了在寫

下面是具體代碼：

import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor


root  
= ‘http://www.btrenren.com‘

def  bt_video(num):
    url = "http://www.btrenren.com/index.php/Index/index/p/%s.html"%num
    head = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER"}

    html = requests.get(url=url,headers=head)
    soup  
= BeautifulSoup(html.content,‘lxml‘)
    data = soup.find(‘div‘,class_="ml")
    data = data.find_all(class_="title")
    with open("video.txt", ‘a‘, encoding=‘utf-8‘) as f:
        for i in data:
            #電影名
            name = i.find_all(‘font‘)[1].get_text().split(‘/‘)[0]
            #日期國家
            vlue = i.find_all(class_=‘ 
des‘)[0].get_text().split(‘\n‘)[0]
            #演員
            vlue1 = i.find_all(class_=‘des‘)[0].get_text().split(‘\n‘)[1]
            #豆瓣評分
            douban = i.find(class_="rt").get_text()
            #網頁路徑
            href = root + i.find_all(‘a‘)[1].get(‘href‘)
            #print(name,vlue,vlue1,douban,href)
            f.write(‘%s,%s,%s,%s,%s\n‘ % (name, vlue, vlue1, douban,href))
    print(num)


def num_video():
    url = "http://www.btrenren.com/index.php/Index/index/p/1.html"
    head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER"}
    html = requests.get(url=url, headers=head)
    soup = BeautifulSoup(html.content, ‘lxml‘)
    number = soup.find(‘ul‘,class_="pagelist")
    number = number.find_all(‘span‘,class_="rows")
    num = number[0].get_text().split(‘ ‘)[1]
    return num





if __name__ == "__main__":
    executor = ThreadPoolExecutor(max_workers=30)
    num = int(num_video())
    for i in range(1,num):
        executor.submit(bt_video,i)
    executor.shutdown()
    exit()

第一次爬蟲實例

信息 bmi browser .sh turn 有時 data imp app 第一次爬蟲實例 1、這是我第一次寫的爬蟲實例，寫的不好請見諒，最後發現爬取的次數多了，被網站拉黑了，還是需要代理才行，代理還不太清楚怎麽弄就先這樣了後面請大神可以幫忙改下怎麽使用代理爬取。第

爬蟲實例1-爬取新聞列表和發布時間

爬蟲 python 工程 import title 一、新建工程scrapy startproject shop 二、Items.py文件代碼：import scrapy class ShopItem(scrapy.Item): title = scrapy.Field()

爬蟲實例——爬取python百度百科相關一千個詞條

管理器 name 詞條 enc aik lib cnblogs response ons 調度器： import url_manager,html_downloader,html_parser,html_outputer class SpiderMain(object

[定向爬蟲] 網絡爬蟲實例2-淘寶定向爬蟲

break 解析 tao 運行 title out 繼續 pri 字符串分割 import requests import re import time #獲取html頁面 def getHTMLText(url): try:

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python爬蟲實例（二）使用selenium抓取鬥魚直播平臺數據

def 獲取平臺 es2017 抓取設置 log ips driver 程序說明：抓取鬥魚直播平臺的直播房間號及其觀眾人數，最後統計出某一時刻的總直播人數和總觀眾人數。過程分析：一、進入鬥魚首頁http://www.douyu.com/directory/all 進

Python爬蟲實例（三）代理的使用

pen .sh strong list blank 寫入禁止 bsp open() 一些網站會有相應的反爬蟲措施，例如很多網站會檢測某一段時間某個IP的訪問次數，如果訪問頻率太快以至於看起來不像正常訪客，它可能就會會禁止這個IP的訪問。所以我們需要設置一些代理服務器，每隔

Python爬蟲實例（四）網站模擬登陸

opener 運行 webkit zh-cn head window targe Coding 破解一、獲取一個有登錄信息的Cookie模擬登陸下面以人人網為例，首先使用自己的賬號和密碼在瀏覽器登錄，然後通過抓包拿到cookie，再將cookie放到請求之中發送請求即可

爬蟲實例：唐詩宋詞爬蟲

點滴 itl cnblogs @class .com 南方 xpath repl users 每年都期待夏天趕緊變成秋天，沒有木頭馬尾的九月，沒有顏色奇跡的南方，只得古詩詞裏把情緒商量，算雲煙，此處認春秋。以流浪丈量秋天的面積，秋天的外面還是秋天。以攀登探測秋天的深度，

python爬蟲實例

mobile 獲取數據 sea con orm obi tle lob time 這裏有兩個爬蟲的實例，是剛開始學python用的，一個是爬取京東茅臺酒評論的，另一個是爬取新浪網國內新聞的，兩個都是網上的教程裏邊的，代碼略微有些不同，供參考學習。都可以在andconda裏

爬蟲實例之selenium爬取淘寶美食

獲取 web tex 匹配 ive cati def presence dea 這次的實例是使用selenium爬取淘寶美食關鍵字下的商品信息，然後存儲到MongoDB。首先我們需要聲明一個browser用來操作，我的是chrome。這裏的wait是在後面的判斷元素是

Python 爬蟲實例（7）—— 爬取新浪軍事新聞

secure host agen cat hand .com cati ica sts 我們打開新浪新聞，看到頁面如下，首先去爬取一級 url，圖片中藍色圓圈部分第二zh張圖片，顯示需要分頁，

Python 爬蟲實例（10）—— 四行代碼實現刷博客園閱讀數量

體會博客 http log 實例代碼 port 代碼實現 ive 代碼很少，自己去體會 from selenium import webdrever driver = webdrever.Chrome() url = "http://www.cnblo

Python 爬蟲實例（12）—— python selenium 爬蟲

bsp ide doc wid environ att fig exc title # coding:utf-8 from common.contest import * def spider():　　url = "http://www.salamoyua.

Python爬蟲實例動態ip+抓包+驗證碼自動識別

PE IT agent 也有 pass ttr timeout edi targe 　　最近出於某種不可描述的原因，需要爬一段數據，大概長這樣：　　　　是一個價格走勢圖，鼠標移到上面會顯示某個時刻的價格，需要爬下來日期和價格。　　第一步肯定先看源代碼，找到了這

爬蟲實例(一)——爬取微博動態

對象 sts search script offic 開發者 sea all 不起作用首語：開始準備認真學習爬蟲了，先從基礎的開始學起，比如先爬取微博的個人動態。兩個難點：獲取動態加載的內容和翻頁這兩項操作。對象：何炅的個人需要的URL：　　首頁url：https

vue.js 第一課：實例化vue

col 開發 china css min tle 賦值 dem oct 1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset="UTF-8"&g

Python爬蟲實例：爬取B站《工作細胞》短評——異步加載信息的爬取

localtime pre global web for short sco 網頁解析 save 《工作細胞》最近比較火，bilibili 上目前的短評已經有17000多條。先看分析下頁面右邊 li 標簽中的就是短評信息，一共20條。一般我們加載大量數據的時候，都

爬蟲實例利用Ajax爬取微博數據

alt b2b 每次 png 微博可變實例我們 images 隨著代理IP技術的普及，爬蟲的使用也變得簡單起來，許多企業和個人都開始用爬蟲技術來抓取數據。那麽今天就來分享一個爬蟲實例，幫助你們更好的理解爬蟲。下面我們用程序模擬Ajax請求，將我的前10頁微博全部爬取下

記第一次爬蟲 python3.6+pyquery

爬取深市上市公司資訊從安裝python開始最基本的語法到開始在網上爬取資訊才過去一週，好多東西還沒有系統的學習，沒有太深的見解，還需繼續努力。 1. 開發環境的配置所安裝的python版本是3.6，關於各種庫的安裝，參考了《Python3網路爬蟲開發實

第一次爬蟲實例

相關推薦