python 爬蟲示例，方便日後參考

阿新 • • 發佈：2018-07-07

主函數 cto fin iter rep incr one lines web



def getOneMoviesInfo(Mid,url):
    import requests
    from lxml import etree
    
    #print(url)
    data = requests.get(url).text   #download the website
    s = etree.HTML(data)            #analyse data

    picture = s.xpath(‘//*[@id="main"]/section/div[1]/div/div/section/div[1]/div[1]/img/@src‘)
    if len(picture)== 0:
        picture = ‘NULL‘
    #longPicture = s.xpath(‘//*[@id="media_v4"]/div[2]/div[1]/div/div/section[3]/div[2]/div/div[1]/img/@src‘)
    name = s.xpath(‘//*[@id="main"]/section/div[1]/div/div/section/div[2]/section/div[1]/span/a/h2/text()‘)
    if len(name)==0:
        print("Mid = %s , failed for a lack of TMDB id "%Mid)
        return
    name = s.xpath(‘//*[@id="main"]/section/div[1]/div/div/section/div[2]/section/div[1]/span/a/h2/text()‘)[0]
    year = s.xpath(‘//*[@id="main"]/section/div[1]/div/div/section/div[2]/section/div[1]/span/span/text()‘)[0].strip("(").strip().strip(")")
    date = s.xpath(‘//*[@id="media_v4"]/div[2]/div[2]/div/section/div[1]/div/section[1]/ul/li[1]/text()‘)[1].strip()
    brief = s.xpath(‘//*[@id="main"]/section/div[1]/div/div/section/div[2]/section/div[2]/div/p/text()‘)[0].replace("\n","\\n")

    mainCreators =s.xpath(‘//*[@id="main"]/section/div[1]/div/div/section/div[2]/section/div[2]/ol/li‘) #all main creators array
    writers = []
    director = "NULL"
    for div in mainCreators:
        if len(div.xpath(‘./p[1]/a/text()‘))== 0:
            director = ‘NULL‘
            writers = [‘NULL‘,‘NULL‘,‘NULL‘]
        else:            
            creatorName = div.xpath(‘./p[1]/a/text()‘)[0]
            #print(creatorName)
            creatorProfession = div.xpath(‘./p[2]/text()‘)[0]
            #print(creatorProfession)
            if  ‘Director‘ in creatorProfession:
                director = creatorName
            elif ‘Screenplay‘ in creatorProfession or ‘Writer‘ in creatorProfession:
                writers.append(creatorName)
    
        
    stars = []
    starsData = s.xpath(‘//*[@id="media_v4"]/div[2]/div[1]/div/div/section[1]/ol/li‘)
    for div in starsData:
        star = div.xpath(‘./p[1]/a/text()‘)
        if len(star)== 0:
            stars == ["NULL","NULL","NULL"]
        else:
            star = star[0]
            stars.append(star)
                
    
    writerslen = len(writers)
    starslen=len(stars)
    
    for i in range(writerslen,3):
        writers.append("NULL");
    for i in range(starslen,5):
        stars.append("NULL");
    
    with open(r‘C:\Users\yuqiao\Desktop\testSpider.txt‘,‘a‘,encoding=‘utf-8‘) as f:
        f.write("{}|{}|{}|{}|{}|{}|{}|{}|{}|{}|{}|{}|{}|{}|{}\n".format(Mid,name,brief,year,date,director,
                                                 writers[0],writers[1],writers[2],
                                                 stars[0],stars[1],stars[2],stars[3],stars[4],
                                                 picture))
    print(Mid)
    print(name)
    
#______________________________________________________主函數__________________________________________________________
import time
with open(r‘C:\Users\yuqiao\Desktop\testSpider.txt‘,‘w‘,encoding=‘utf-8‘) as f:
        f.write("")
language = ‘?language=zh-CN‘ #######################
with open(r‘D:\git\ZiyeMovie\MidURL.txt‘, "rt",encoding=‘utf-8‘) as in_file:
    all = in_file.read()
    lines = all.split("\n")
    
    #for i in range(51,61):    51~60
    for i in range(9124,9125):
        line = lines[i]
        print(line)

print(‘finished‘)

python 爬蟲示例，方便日後參考

主函數 cto fin iter rep incr one lines web def getOneMoviesInfo(Mid,url): import requests from lxml import etree #print(u

python:簡單爬蟲示例，含分析文件，建庫，程式程式碼

環境：ubantu18.04，mysql5.7，python3.6 1.分析文件 1.1 目標爬取笑話集-最新兒童笑話大全前三頁的笑話題目，訪問量，發表時間 1.2 URL 第一頁：www.jokeji.cn/list7_1.htm 第三頁：www.jokej

第一次寫，python爬蟲圖片，操作excel。

comment org ems exc strip() all 全局變量習慣生成　　第一次寫博客，其實老早就註冊博客園了，有寫博客的想法，就是沒有行動，總是學了忘，忘了丟，最後啥都沒有，電腦裏零零散散，東找找，西看看，今天認識到寫博客的重要性。　　最近閑著看了潭州教

貼一段Shell腳本，以便日後參考。

ear src dbn proc logs shel ble path $1 1 #! /bin/bash 2 3 ICMS_PATH=$(cd $(dirname $0); pwd) 4 DEPLOY_PATH=$(cd $(dirname $ICMS_PAT

8個最高效的Python爬蟲框架，你用過幾個？

python 爬蟲入門詳細官網小編收集了一些較為高效的Python爬蟲框架。分享給大家。1.ScrapyScrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。。用這個框架可以輕松爬下來如亞馬遜商品信息之

5個python爬蟲教材，讓小白也有爬蟲可寫，含視頻教程！

但是認識了解 web開發徹底幫助回復增強兩個認識爬蟲網絡爬蟲，如果互聯網是一張蜘蛛網，網絡爬蟲既是一個在此網上爬行的蜘蛛，爬了多少路程即獲取到多少數據。 python寫爬蟲的優勢其實以上功能很多語言和工具都能做，但是用python爬取的速度更快

python爬蟲基礎，post提交方式復習

.post post請求 HERE int test orm 爬蟲 star tip #-*-coding:utf8-*-#參考學習官方資料 http://docs.python-requests.org/zh_CN/latest/user/quickstart.ht

換IP軟體的python爬蟲集合，函式，元素，字典，刪除

【芝麻代理IP】大資料時代下，資料採集推動著資料分析，資料分析推動發展。但是在這個過程中會出現很多問題。拿最簡單最基礎的爬蟲採集資料為例，過程中就會面臨，IP被封，爬取受限、違法操作等多種問題，所以在爬取資料之前，一定要了解好預爬網站是否涉及違法操作，找到合適的代理IP訪問網站等一系列問題。

一個月入門Python爬蟲學習，輕鬆爬取大規模資料

利用爬蟲我們可以獲取大量的價值資料，從而獲得感性認識中不能得到的資訊，這篇文章給大家帶來了一個月入門Python學習,爬蟲輕鬆爬取大規模資料，感興趣的朋友一起看看吧資料獲取方式：Python技術學習QQ群832339352 新增即可免費獲取！ Python爬蟲為

python爬蟲示例

python爬蟲即編寫python指令碼處理web網頁，使用特定的演算法，抓取所需要的內容：以下以爬取糗事百科的段子為例進行說明，程式碼如下： import urllib.request import re def jokeCrawler(url): headers = {

綜合使用python爬蟲技術，selenium模組動態抓取“視覺中國”網站上的圖片的url

一、匯入模組 import time from selenium import webdriver from lxml import etree 本文章純粹用來練手，於是我使用了etree,其實光使用find_elements…的方法也可以二、開始幹活 1.

python爬蟲綜合篇，採集網易雲音樂全部歌手的熱門歌曲以及評論！

今天我給大家介紹一下用Python爬取網易雲音樂全部歌手的熱門歌曲.由於歌手個人主頁的網頁原始碼中還嵌入了一個子網頁(框架原始碼裡面包含了我們需要的資訊),因此我們不能使用requests庫來爬取,而使用selenium,接下來,讓我詳細講解整個爬取過程. 學習Pyt

python爬蟲時，判斷IP代理是否有效的解決方法

1、不停的請求測試，可以發現網路IP在不斷更新 import requests import random # 該網站會返回你請求網站時的IP地址資訊 url = 'http://icanhazip.com' #首先我們在xicidaili.com中獲取一些ip代理資訊，放入列表中

python爬蟲示例（1）---urlretrieve() 函式使用

下面我們再來看看 urllib 模組提供的 urlretrieve() 函式。urlretrieve() 方法直接將遠端資料下載到本地。 1 >>> help(urllib.urlretrieve)

三個Python爬蟲版本，帶你以各種方式爬取校花網，輕鬆入門爬蟲

爬蟲是什麼？進群進群：943752371可以獲取Python各類入門學習資料！這是我的微信公眾號【Python程式設計之家】各位大佬用空可以關注下，每天更新Python學習方法，感謝！如果我們把網際網路比作一張大的蜘蛛網，資料便是存放

urllib庫的簡單使用 && 一個簡單的Python爬蟲示例

urllib庫的簡單使用 && 一個簡單的Python爬蟲示例本篇文章，介紹urllib.request庫的簡單使用以及注意的問題。最後實現一個Python爬蟲的示例。本文是基於Python3.6.2實現的。urllib.request相

Python爬蟲下手，就得從高清美圖開始!

寫在前面前幾天玩遊戲時，lol盒子右下角有條廣告，廣告大概這個樣子咦，小姐姐，還有cosplay，點進去看看。哇，發現一個好玩的網站，好多漂亮的妹子，頁面開啟很流暢，點開後有的瀏覽頁面還有好聽的音樂，產品體驗極佳。 &

Python爬蟲應用，八仙過海各顯神通！

網路爬蟲能夠從網站某1個網頁頁面(通常是首頁)開始，讀取網頁的資訊，找到在網頁中的其它連結地址，之後經由這些連結地址尋找下1個網頁，這樣一直迴圈下去，直到把這個網站所有的網頁都爬取完為止。進群：960410445 獲取更多爬蟲原始碼！ &nb

三個Python爬蟲版本，帶你輕松入門爬蟲！

程序 json water 耗時 pyquery img python爬蟲 vpd 資源爬蟲是什麽？如果我們把互聯網比作一張大的蜘蛛網，數據便是存放於蜘蛛網的各個節點，而爬蟲就是一只小蜘蛛，沿著網絡抓取自己的獵物（數據）爬蟲指的是：向網站發起請求，獲取資源後分析並提

Python爬蟲學習，實戰一糗事百科（2017/7/21更新）

前言這幾天學習爬蟲，網上看了一些教程，發現這個 http://cuiqingcai.com/990.html 是相當不錯的。但可惜的是，整個教程是兩年前的，但是Python是2.x版本的，跟現在的3.x有一些基本的語法不同；還有糗事百科也經過了改版。總

python 爬蟲示例，方便日後參考

相關推薦