python爬取20000個單詞音訊

阿新 • • 發佈：2019-01-13

雖然單詞現在隨處可見，但是對於鍛鍊技術來說是一個好方法，這篇部落格將從找目標到程式碼完整的記錄此過程。

真實需求：
下載了20000個單詞，結果只有單詞沒有音訊，這怎麼行呢？
作為一名喜歡自動化的童鞋來說，才不會再去網上找音訊，所以乾脆寫個程式吧。

步驟

1、找一個查單詞的網站，找到單詞發音的地址
2、使用python下載儲存

接下來就一步步來

1、網站與地址

經過多次查詢，發現以前有前輩寫過的，但是那是個外國網站，而且實在難得操作，所以乾脆找個國內的，然後發現幾乎都不能直接找到地址，是通過js觸發的，於是在js程式碼裡找到地址：
1、此網站
http://www.chadanci.com/

2、找到頁面發音的a標籤：

<a onmouseover="asplay('and', 0)" onclick="asplay('and', 0)" class="play_word" href="javascript:;" title="真人發音"></a>

3、找到對應此函式的js程式碼：
在source裡找到：http://www.chadanci.com/images/js/_xml_content.js
裡面的方法：

function play_sentence(liju){
    $.ajax({
        type: "GET",
        url: "/e/extend/s/file.php?type=sentence" 
,
        data: "q="+encodeURIComponent(liju),
        success: function(url){
            var asound = getFlashObject("asound");
            if(asound){
                asound.SetVariable("f",url);
                asound.GotoFrame(1);
            }
        }
    });
}

4、構造查詢地址：

http://www.chadanci 
.com/e/extend/s/file.php?type=0&world=and

很清楚就出來了：0是英式發音，1是美式，word是單詞

5、但是查詢這個頁面返回的是音訊mp3的地址，可以直接進行下載。

2、使用python下載儲存

因為是GET連結，可能伺服器沒有過多在意爬蟲，所以也不搞代理和分散式了。

最開始想法非常簡單：
1、讀取單詞文字
2、構造連結進行下載
3、寫入文字

def download(word):
    url = "http://www.chadanci.com//e/extend/s/file.php?type=0&world="+word

    req = urllib2.Request(url)
    req.add_header("User-Agent",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")

    res_data = urllib2.urlopen(req)
    mp3_url = res_data.read()
    #print mp3_url
    if mp3_url is None:
        return
    try:
        f = urllib2.urlopen(mp3_url) 
        with open("mp3/"+word+".mp3", "wb") as fword:
            fword.write(f.read()) 
    except:
        print "error1"

def process(file_name):
    done = [] #儲存已下載單詞
    #進度處理
    with open(file_name) as f:
        words = f.readlines()
        num = len(words)
        i = 0
        width = num/100 #用來控制進度
        p = '#'
        while i<num:
            word = words[i].strip('\n')
            # print word
            try:
                if word not in done:
                    download(word)
                    #加入已下載列表
                    done.append(word)
            except:
                print "error2"
            i+=1
            if i%width==0:
                p+='#'
            #原地重新整理進度
            sys.stdout.write(str((i*1.0/num)*100)+"% :"+p+"->"+"\r")
            sys.stdout.flush()

if __name__=='__main__':
    process('word.txt')

結果：
發現到某個單詞會卡住，然後整個就卡了，後來發現作出如下改正：

1、設定延時：

res_data = urllib2.urlopen(req,timeout=3)

2、採用多執行緒處理

3、改進程式碼

也許一次沒有下載完，所以考慮將已下載的單詞寫入檔案。

#!/usr/bin/env python
# coding=utf-8
import urllib2
import threading
import sys

#執行緒類
class MyThread(threading.Thread):
    def __init__(self,target,args):
        super(MyThread,self).__init__()
        self.target = target
        self.args = args

    def run(self):
        self.target(self.args)

def download(word):
    url = "http://www.chadanci.com//e/extend/s/file.php?type=0&world="+word

    req = urllib2.Request(url)
    req.add_header("User-Agent",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")

    #延時
    res_data = urllib2.urlopen(req,timeout=3)
    mp3_url = res_data.read()
    #print mp3_url
    if mp3_url is None:
        return
    try:
        f = urllib2.urlopen(mp3_url) 
        with open("mp3/"+word+".mp3", "wb") as fword:
            fword.write(f.read()) 
        with open("done_word.txt","ab") as done:
            done.write(word+"\n")
    except:
        print "error1"

def process(file_name):
    #從檔案把已下載單詞加入列表裡
    done = []

    #繼續下載
    with open(file_name) as f:
        words = f.readlines()
        num = len(words)
        i = 0
        width = num/100
        p = '#'
        while i<num:
            word = words[i].strip('\n')
            # print word
            try:
                if word not in done:
                    download(word)
                    #加入已下載列表
                    done.append(word)
            except:
                print "error2"
            i+=1
            if i%width==0:
                p+='#'
            sys.stdout.write(str((i*1.0/num)*100)+"% :"+p+"->"+"\r")
            sys.stdout.flush()

def main():
    t1 = MyThread(process,'word.txt')
    t1.start()
    t1.join()

if __name__=='__main__':
    main()

結果，雖然沒有卡頓，但這速度不敢恭維，半個小時才下了6000多個單詞。

4、總結

使用到的技術：
1、urllib2爬取網頁
2、檔案處理
3、系統輸出，進度重新整理
4、多執行緒

python爬取20000個單詞音訊

雖然單詞現在隨處可見，但是對於鍛鍊技術來說是一個好方法，這篇部落格將從找目標到程式碼完整的記錄此過程。真實需求：下載了20000個單詞，結果只有單詞沒有音訊，這怎麼行呢？作為一名喜歡自動化的童鞋來說，才不會再去網上找音訊，所以乾脆寫個程式吧。步驟 1、找一個查單詞

Python爬取考研必備單詞

參考連結：(https://blog.csdn.net/OnlyloveCuracao/art0icle/details/80768334) 原博主的程式碼可能因為單詞發音的音訊爬取有問題，導致無法將單詞存入資料庫，不過也非常感謝原博主，我根據原始碼做了一定刪減和更改，下次可能會根據使用者的

Python爬取數萬條北京租房資料，從6個維度揭穿房租瘋漲的祕密！！！

導讀：昨天還幻想海邊別墅的年輕人，今天可能開始對房租絕望了。 8月初，有網友在“水木論壇”發帖控訴長租公寓加價搶房引起關注。據說，一名業主打算出租自己位於天通苑的三居室，預期租金7500元/月，結果被二方中介互相擡價，

python 爬取新浪網站 NBA球員最近2個賽季庫裡前20場資料

1. 分析新浪網站中球員資料的獲取方式(F12 開發者模式，除錯網頁)：一般網站儲存資料的方式分為2種：1. 靜態網頁儲存；2. 動態請求；對於靜態網頁儲存來說，就是開啟瀏覽器中檢視原始碼，就可以從原始碼中獲取所需要的資料；對於動態請求來說，採用F12的開發者模式中，才能從伺服器的

利用Python爬取了1600個崗位！原來一個程式設計師的年薪可以這麼高！

Python學了這麼久，相信很多小夥伴都想知道錢途如何，全國各大城市招聘Python的崗位有多少，都招哪些職位，年薪如何等等，我爬取了拉勾近1600個Python相關的職位，我們用資料說話！進群：548377875 即可獲取數十套PDF哦！ &nb

python爬取百度圖片---釋出exe小計編碼是個大坑

#*--coding:utf-8--* import requests import sitecustomize import os import sys reload(sys) sys.setdefaultencoding('utf-8') type=sys.getfilesystemencodi

教你用python爬取喜馬拉雅FM音訊，乾貨分享~

前前言喜馬拉雅已經更換標籤，我重新更新了下程式碼，文章暫時未改，因為思路還是如此，需要的可以掃一下文末公眾號二維碼（本人會在上面發表爬蟲以及java的文章還有送書等資源福利哦），也可以直接搜尋公眾號“ 猿獅的單身日常”，好了廣告結束... 前言之前寫過爬取圖片的一篇文章，這回來看看如

python requests做爬蟲爬取oxford詞典單詞音標

import requests import re def phonetic_spelling(word): word=word.replace(" ","_") phoneticSpelling="" #ur

python 模擬滑鼠點選+bs4爬取多個網頁新聞（題目、媒體、日期、內容、url）

在搜狗新聞中，輸入關鍵詞（兩岸關係fa發展前景）後，出現6頁有關於這個關鍵詞的新聞。現在目的就是爬取有關這個關鍵詞的網頁文章，如題目、媒體、日期、內容、url。如下圖：載入包 import requests from bs4 import Beautif

python爬蟲建立代理池，爬取5000個代理IP並進行驗證！

前面已經介紹了urllib+正則表示式和BeautifulSoup進行爬取資料的方法，今天再解決一個實際問題——構建自己的代理池。通過爬蟲在網上進行資料的獲取，由於效率很快，換言之，訪問的速度過快，導致一段時間內的流量過大，會使得對方的伺服器壓力過

小心Python爬取了你的微信隱私！用Python分析了數千個微信暱稱後，發現了這些祕密！

01 Let's get it 1. 基本資訊獲取訪問英文取名的使用者基本信介面，獲取英文取名使用者微信名（NickName）、訪問次數（Count）、總資料集（ResponseData），並將微信名存入檔案。 # 獲取所有使用

Selenium學習四——利用Python爬取網頁多個頁面的表格資料並存到已有的excel中

利用Python爬取網頁多個頁面的表格資料並存到已有的excel中 1、具體要求獲取牛客網->題庫->線上程式設計->劍指Offer網頁，獲取表格中的全部題目，儲存到本地excel中 2、技術要求利用Selenium+Python獲取網頁，操

python爬取喜馬拉雅FM音訊

前前言喜馬拉雅已經更換標籤，我重新更新了下程式碼，思路還是如此，需要的可以掃一下文末公眾號二維碼（本人會在上面發表爬蟲以及java的文章還有送書等資源福利哦），也可以直接搜尋公眾號“ 猿獅的單身日常”，好了廣告結束… 前言之前寫過爬取圖片的一篇文章，這回來看

python爬取網易雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url：http://music.163.com/#/discover/playlist/ 依次第二頁：http://music.1

python 爬取qidian某一頁全部小說

decode return data- dib read etc break beautiful range 1 import re 2 import urllib.request 3 from bs4 import BeautifulSou

Python爬取今日頭條段子

找到 eat 修改是什麽一次時間地址 style 用戶名剛入門Python爬蟲，試了下爬取今日頭條官網中的段子，網址為https://www.toutiao.com/ch/essay_joke/源碼比較簡陋，如下： 1 import requests 2 i

利用python爬取龍虎榜數據及後續分析

登錄 one 可能股市 .com 爬蟲但我由於相關 ##之前已經有很多人寫過相關內容，但我之前並未閱讀過，這個爬蟲也是按照自己的思路寫的，可能比較醜陋，請見諒！本人作為Python爬蟲新手和股市韭菜，由於時間原因每晚沒辦法一個個翻龍虎榜數據，所以希望借助爬蟲篩選出

python爬取豆瓣小組700+話題加回復啦啦啦python open file with a variable name

技術分享 ash 寫入 blog ima ron tar 回復 -128 需求：爬取豆瓣小組所有話題（話題title，內容，作者，發布時間），及回復（最佳回復，普通回復，回復_回復，翻頁回復，0回復）解決：1. 先爬取小組下，所有的主題鏈接，通過定位nextp

Node.js/Python爬取網上漫畫

版本中間 kit ont mic 這一圖片加載同步改變　　某個周日晚上偶然發現了《火星異種》這部漫畫，便在網上在線看了起來。在看的過程中圖片加載很慢，而且有時候還不小心點到廣告，大大延緩了我看的進度。後來想到能不能把先把漫畫全部抓取到本地再去看。　　經過一段時間

python爬取百度搜索圖片

知乎需要 with 異常 mage 不足 request height adr 在之前通過爬取貼吧圖片有了一點經驗，先根據之前經驗再次爬取百度搜索界面圖片廢話不說，先上代碼 #!/usr/bin/env python # -*- coding: utf-8 -*- #

python爬取20000個單詞音訊

步驟

1、網站與地址

2、使用python下載儲存

3、改進程式碼

4、總結

相關推薦