【Python學習】python爬蟲Google翻譯的實現

阿新 • • 發佈：2019-01-30

由於最近的學習，需要把相關的中文語料進行翻譯，自然而然想到爬蟲獲取，主要嘗試了谷歌翻譯和有道翻譯。

一、谷歌翻譯

1.1 所需模組（Python 2.7）

①re

②urllib

③urllib2

④execjis

這些模組一般都可以通過pip來安裝，例如：pip install urllib,但是需要注意的是execjis模組是pip install pyexecjs,否則會提示錯誤。

1.2 一個關鍵的引數

        谷歌翻譯在國內無需任何的VPN什麼的都可以正常使用的，而且翻譯的效果相對比其他的也好得多，但是現在已經不提供免費的介面，其中有一個關鍵的引數tk，處理好它就可以好了，所幸國外已經有人搞定啦，我們只要使用就行啦。對應後面程式碼中的的 
Py4Js()類那部分，感興趣的可以研究研究，反正我是看不懂。

1.3  一些細節

    無論是谷歌翻譯或者是有道翻譯我都發現了一個問題，那就是在中譯英的過程中，如果碰到中文的句號或者感嘆號等使段落結束的標點符號，那麼就會切分翻譯，最後以元組返回，我做了一個很蹩腳的處理，就是直接用split（）進行符號分割，取回每一句話進行翻譯，最後再串聯起來,如下我做了個句號分割。除此之外也可以自己看看返回的結構然後自己寫個正則化取回翻譯的內容，由於本人比較懶，所以你懂得。。。

以下程式碼還有一個問題只能翻譯一定長度的內容超過之後也不能翻譯，如果有大神解決也請指導一下哈！

1.4  中英互換

    由於我需要的是中譯英，所以下面的程式碼是中譯英的，如果需要英譯中，那麼需要對程式碼進行一個小小的修改，只需要把translate函式裡面的url變數中的第二行變為：

"&sl=EN&tl=zh-CN&hl=zh-CNdt=at&dt=bd&dt=ex&dt=ld&dt=md&dt=qca" \，看不出來區別的仔細看，哈哈哈，當然相應的正則也需要做改變。

1.5  實現程式碼

#-*- coding:utf-8 -*

import re
import execjs
import urllib,urllib2

class Py4Js():
    def __init__(self):
        self.ctx = execjs.compile("""
        function TL(a) {
        var k = "";
        var b = 406644;
        var b1 = 3293161072;

        var jd = ".";
        var $b = "+-a^+6";
        var Zb = "+-3^+b+-f";

        for (var e = [], f = 0, g = 0; g < a.length; g++) {
            var m = a.charCodeAt(g);
            128 > m ? e[f++] = m : (2048 > m ? e[f++] = m >> 6 | 192 : (55296 == (m & 64512) && g + 1 < a.length && 56320 == (a.charCodeAt(g + 1) & 64512) ? (m = 65536 + ((m & 1023) << 10) + (a.charCodeAt(++g) & 1023),
            e[f++] = m >> 18 | 240,
            e[f++] = m >> 12 & 63 | 128) : e[f++] = m >> 12 | 224,
            e[f++] = m >> 6 & 63 | 128),
            e[f++] = m & 63 | 128)
        }
        a = b;
        for (f = 0; f < e.length; f++) a += e[f],
        a = RL(a, $b);
        a = RL(a, Zb);
        a ^= b1 || 0;
        0 > a && (a = (a & 2147483647) + 2147483648);
        a %= 1E6;
        return a.toString() + jd + (a ^ b)
    };

    function RL(a, b) {
        var t = "a";
        var Yb = "+";
        for (var c = 0; c < b.length - 2; c += 3) {
            var d = b.charAt(c + 2),
            d = d >= t ? d.charCodeAt(0) - 87 : Number(d),
            d = b.charAt(c + 1) == Yb ? a >>> d: a << d;
            a = b.charAt(c) == Yb ? a + d & 4294967295 : a ^ d
        }
        return a
    }
    """)

    def getTk(self, text):
        return self.ctx.call("TL", text)



def open_url(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
    req = urllib2.Request(url=url, headers=headers)
    response = urllib2.urlopen(req)
    data = response.read().decode('utf-8')
    return data


def translate(content):
    js = Py4Js()
    tk = js.getTk(content)

    content = urllib2.quote(content)
    url = "http://translate.google.cn/translate_a/single?client=t" \
          "&sl=zh-CN&tl=EN&hl=EN&dt=at&dt=bd&dt=ex&dt=ld&dt=md&dt=qca" \
          "&dt=rw&dt=rm&dt=ss&dt=t&ie=UTF-8&oe=UTF-8&clearbtn=1&otf=1&pc=1" \
          "&srcrom=0&ssel=0&tsel=0&kc=2&tk=%s&q=%s" % (tk, content)

    result = open_url(url)
    end = result.find("\",")
    if end > 4:
        texts = result[4:end]
    return texts


if __name__ == "__main__":
    text="很多的不滿意。書中竟然都有錯別字以及句子結構的錯誤?故事講得也不好。"
    texts=text.split('。')
    results=''
    for i in range(len(texts)):
        try:
            results = results + "," + translate(str(texts[i]))
        except Exception as e:
            print e
    print results

1.6  輸出結果

很多的不滿意。書中竟然都有錯別字以及句子結構的錯誤?故事講得也不好。
local variable 'texts' referenced before assignment
,A lot of dissatisfied,The book even have typos and sentence structure of the error? The story is not good

參考：

    ①解決tk的github：https://github.com/doloopwhile/PyExecJS

    ②http://blog.csdn.net/yingshukun/article/details/53470424

【Python學習】python爬蟲Google翻譯的實現

由於最近的學習，需要把相關的中文語料進行翻譯，自然而然想到爬蟲獲取，主要嘗試了谷歌翻譯和有道翻譯。一、谷歌翻譯 1.1 所需模組（Python 2.7） ①re ②urllib ③urllib2

【Python學習】python爬蟲有道翻譯的實現

一、有道翻譯 1.1 實驗環境 Anaconda2-4.3.1（Python2.7） 1.2 所需模組 ①request ②json 1.3 一些

【Python學習】Python解決漢諾塔問題

次數代碼 int 解題思路 move python學習求解 color 印度參考文章：http://www.cnblogs.com/dmego/p/5965835.html 一句話：學程序不是目的，理解就好；寫代碼也不是必然，省事最好；拿也好，查也好，解決問題就好

【Python學習】Python中的數據類型精度問題

類型一次 /usr logs int 第一次 pytho 整數問題 Python真的很神奇。。。神奇到沒有直接的數據類型概念，並且精度可以是任意精度。想當初，第一次接觸OI算法時，寫得第一個算法就是高精度加法，搗鼓了半天。一切在Python看來，僅僅三行代碼即可完成。

【機器學習】Python 快速入門筆記

python 筆記基礎 Python 快速入門筆記Xu An 2018-3-7 1、Python print#在Python3.X中使用print（）進行輸出，而2.x中使用（）會報錯 print("hello world") print('I\'m a

【深度學習】Python實現2層神經網路的誤差反向傳播法學習

前言基於計算圖的反向傳播詳解一篇中，我們通過計算圖的形式詳細介紹了構建神經網路需要的層，我們可以將其視為元件，接下來我們只需要將這些元件組合起來就可以實現誤差反向傳播法。首先我們回顧下神經網路的學習步驟如下：從訓練資料中隨機選擇一部分資料（mini-batch）

【深度學習】Python實現基於數值微分的神經網路的學習

回顧 \quad\quad 在之前的神經網路的學習過程一篇中，我們介紹瞭如何獲取批量資料、損失函式、梯度以及梯度下降

【深度學習】python實現簡單神經網路以及手寫數字識別案例

前言 \quad \qu

【深度學習】Python實現簡單神經網路

Python簡單神經網路環境介紹定義神經網路的框架初始化建立網路節點和連結簡單均勻分佈隨機初始權重正態分佈初始權重編寫查詢函式階段性測試編寫訓練函式

【強化學習】python 實現 q-learning 例二

問題情境一個2*2的迷宮，一個入口，一個出口，還有一個陷阱。如圖這是一個二維的問題，不過我們可以把這個降維，變為一維的問題。 0.相關引數 epsilon = 0.9 # 貪婪度 greedy alpha = 0.1 # 學習率 gamma = 0.8 #

【強化學習】python 實現 q-learning 例三

本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10139738.html 例一的程式碼是函式式編寫的，這裡用面向物件的方式重新擼了一遍。好處是，更便於理解環境(Env)、個體(Agent)之間的關係。有緣看到的朋友，自己慢慢體會吧。 0.效果

【強化學習】python 實現 q-learning 例四（例二改寫）

陷阱 data img 入口 turn pda state save isod 將例二改寫成面向對象模式，並加了環境！不過更新環境的過程中，用到了清屏命令，play()的時候，會有點問題。learn()的時候可以勉強看到:P 0.效果圖 1.完整代碼相對於例一，

【強化學習】python 實現 q-learning 迷宮通用模板

本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10145797.html 0.說明這裡提供了二維迷宮問題的一個比較通用的模板，拿到後需要修改的地方非常少。對於任意的二維迷宮的 class Agent，只需修改三個地方：MAZE_

【強化學習】python 實現 saras lambda 例一

本文作者：hhh5460 本文地址：https://www.cnblogs.com/hhh5460/p/10147265.html 將例一用saras lambda演算法重新擼了一遍，沒有參照任何其他人的程式碼。僅僅根據虛擬碼，就擼出來了。感覺已真正理解了saras lambda演算法。記錄如下 0.

【機器學習】python第三方模組lda包呼叫程式碼

# coding=utf-8 # !/usr/bin/env python ''' 【資料來源樣例】詞語1 詞語2 詞語3 詞語4 詞語5 詞語6 詞語7 詞語8 詞語9 詞語1 詞語2 詞語3 詞語4 詞語5 詞語1 詞語2 詞語3 詞語4 詞語5 詞語6 詞語7 ……

【機器學習】Python sklearn包的使用示例以及引數調優示例

# coding=utf-8 # !/usr/bin/env python ''''' 【說明】 1.當前sklearn版本0.18 2.sklearn自帶的鳶尾花資料集樣例：（1）樣本特徵矩陣（型別：numpy.ndarray） [[ 6.7 3. 5.2 2

【深度學習】python用RNN中LSTM進行正弦函式擬合

深度學習框架：Tensorflow 0.8.0 Python：2.7.6 資料的兩種輸入模型： ①data和label是同一個變數，整個模型相當於自迴歸（本文先演示第一種） ②data和label是不同的變數，整個模型相

【Python學習】Python實現的FTP上傳和下載功能

一、背景最近公司的一些自動化操作需要使用Python來實現FTP的上傳和下載功能。因此參考網上的例子，擼了一段程式碼來實現了該功能，下面做個記錄。二、ftplib介紹 Python中預設安裝的ftplib模組定義了FTP類，其中函式有限，可用來實現

【worldwind學習】worldwindjava新增google中國衛星圖切片圖層和糾偏

【機器學習】使用gensim 的 doc2vec 實現文本相似度檢測

評估 sum ref txt imp uil archive 自然語言 htm 環境 Python3， gensim，jieba，numpy ，pandas 原理：文章轉成向量，然後在計算兩個向量的余弦值。 Gensim gensim是一個python的自然語言處理庫，能

【Python學習】python爬蟲Google翻譯的實現

相關推薦