大眾點評評分爬取-圖文識別ORC

阿新 • • 發佈：2018-11-25

大眾點評評分爬取-圖文識別ORC

十一了，沒出去玩，因為老婆要加班，我陪著。
晚上的時候她說要一些點評的評分資料，我合計了一下scrapy request一下應該很好做，就答應下來了，感覺沒什麼難度嘛。
但是呢沒那麼簡單。需要人驗證的問題就不說了，我覺得這個我也解決不了，比較吸引我的是他的評分展現方式。
大眾點評這塊展示用的是圖片，css offset方式

selector那套行不通
這裡我使用的 tesseract 圖片文字識別
下面是大概流程

爬取頁面

這裡是使用Selenium進行頁面訪問，然後截圖
程式碼片段


opt = Options()
opt.add_argument('--headless')
self.driver = webdriver.Chrome(executable_path='/Users/xiangc/bin/chromedriver', options=opt)
self.wait = WebDriverWait(self.driver, 10)
self.driver.get('http://www.dianping.com/shop/4227604')            self.driver.save_screenshot('image{}.png'.format(url_id))

截圖頁面

擷取需要部分

程式碼片段如下，這裡是hardcode，慚愧


 cropped_img = im.crop((239, 500, 239 + 780, 500 + 63)) 
 cropped_img.save('crop{}.png'.format(url_id))

圖片預處理

圖片預處理流程如下

清理噪點，如果一點四周只有一個非白點則為噪點，去掉
非空白點著色，色值大於200的點直接給白色
提高圖片對比度


def get_color(image, x, y):
    if isinstance(image, type(Image.new('RGB', (0, 0), 'white'))):
        r, g, b = image.getpixel((x, y))[:3]
    else:
        r, g, b = image[x, y]
    return r, g, b


def is_noise(image, x, y):
    white_count = 0
    for i in range(0, x + 2):
        for j in range(0, y + 2):
            r, g, b = get_color(image, i, j)
            if (r, g, b) == (255, 255, 255):
                white_count += 1
    return white_count >= 7


def clear_noise(image, new_pixels):
    w, h = image.size
    clear_count = 0
    for i in range(w):
        for j in range(h):
            r, g, b = get_color(image, i, j)

            if r != g != b and is_noise(image, i, j):
                clear_count += 1
                print(clear_count)
                new_pixels[i, j] = (255, 255, 255)
            else:
                new_pixels[i, j] = (r, g, b)
    return clear_count

def clear_color(new_pixels, w, h):
    for i in range(w):
        for j in range(h):
            r, g, b = get_color(new_pixels, i, j)
            if np.average((r, g, b)) > 200:
                new_pixels[i, j] = (255, 255, 255)
            else:
                new_pixels[i, j] = (0, 0, 0)

def pre_image(full_path):
    image = Image.open(full_path)
    w, h = image.size
    new_image = Image.new('RGB', (w, h), 'white')
    new_pixels = new_image.load()

    clear_count = clear_noise(image, new_pixels)
    while clear_count > 0:
        clear_count = clear_noise(new_pixels, new_pixels)
        print(clear_count)
        if clear_count == 0:
            break
    clear_color(new_pixels, w, h)

    # 對比度增強
    enh_img = ImageEnhance.Contrast(new_image)
    contrast = 3
    image_contrasted = enh_img.enhance(contrast)

    dir_name = os.path.dirname(full_path)
    file_name = os.path.basename(full_path)
    new_file_path = os.path.join(dir_name, 'sharped' + file_name)
    image_contrasted.save(new_file_path)
    return new_file_path

圖片文字識別

文字識別是用tesseract
注意這裡加了白名單提高準確率
chi為我自己訓練的識別庫，訓練集為10個


new_file_path = imgutils.pre_image('crop{}.png'.format(url_id))
result = pytesseract.image_to_string(
    image=new_file_path,
    lang='chi',
    config='--psm 7 --oem 3 -c tessedit_char_whitelist=0123456789評論服務:費用設施環境條.元'

結果

還湊合哦

訓練輔助指令碼

下面是一些指令碼集合

生成box檔案
批量圖片處理
批量訓練生成訓練結果檔案
批量圖片格式轉換png->tiff

都是js和python指令碼，比較簡單哈~

gitee連結

爬蟲程式碼就不放了哈~寫的太醜~目前也沒時間做程式碼優化。
由於python註釋和Markdown的程式碼tag重複了，註釋都去掉了，相信大家能看懂哈~

大眾點評評分爬取-圖文識別ORC

大眾點評評分爬取-圖文識別ORC 十一了，沒出去玩，因為老婆要加班，我陪著。晚上的時候她說要一些點評的評分資料，我合計了一下scrapy request一下應該很好做，就答應下來了，感覺沒什麼難度嘛。但是呢沒那麼簡單。需要人驗證的問題就不說了，我覺得這個我也解決不了，比較吸引我的是他的評分展

Python爬蟲基礎：驗證碼的爬取和識別詳解

今天要給大家介紹的是驗證碼的爬取和識別，不過只涉及到最簡單的圖形驗證碼，也是現在比較常見的一種型別。執行平臺：Windows Python版本：Python3.6 IDE: Sublime Text 其他：Chrome瀏覽器簡述流程：步驟1：簡單介紹驗證碼步驟2：

驗證碼的爬取和識別詳解

今天要給大家介紹的是驗證碼的爬取和識別，不過只涉及到最簡單的圖形驗證碼，也是現在比較常見的一種型別。執行平臺：Windows Python版本：Python3.6 IDE: Sublime Text 其他：Chrome瀏覽器 &nbs

Python自定義豆瓣電影種類，排行，點評的爬取與儲存（進階上）

Python 2.7 IDE Pycharm 5.0.3 Firefox 47.0.1 想了想，還是稍微人性化一點，做個成品GUI出來起因沒辦法，在知乎預告了要做個GUI出來，吹的牛逼總得自己填坑，下次一定要慎重啊，話說也複習了一下G

python爬取人臉識別圖片資料集/python爬去圖片/python爬蟲

本人長期出售超大量微博資料、旅遊網站評論資料，並提供各種指定資料爬取服務，Message to [email protected] 前言最近在做機器學習下的人臉識別的學習，機器學習這個東西有點暴力，很大程度上靠訓練的資料量來決定效果。為了找資

Python3爬蟲：爬取大眾點評網北京所有酒店評分資訊

學習Python3爬蟲實戰：爬取大眾點評網某地區所有酒店相關資訊，我爬取的北京地區的酒店，由於網站更新，原文中的一些方法已經不再適用，我的工作是在該文指導下重寫了一個爬蟲。爬蟲無非分為這幾塊：分析目標、下載頁面、解析頁面、儲存內容，其中下載頁面不提。

Scrapy爬取大眾點評

BE info enable each city wow64 news 數據 windows 最近想吃烤肉，所以想看看深圳哪裏的烤肉比較好吃，於是自己就開始爬蟲咯。這是個靜態網頁，有反爬機制，我在setting和middlewares設置了反爬措施 Setting # -

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

爬取大眾點評之初步試探

常規的反爬機制有訪問頻率限制、cookie限制、驗證碼、js加密引數等。目前解決不了的js加密是今日頭條的_signature引數、京東的s引數(在搜尋結果的ajax中，返回的結果根據s引數的不同而不同，目前沒有發現規律)、新版12306登陸時的callback引數等而今天的網站的反爬

大眾點評之執行緒池實現全站爬取

要想全站爬取，首先需要分商區、菜系，這樣得到的資料才全，不然網站預設只顯示50頁的資料，根本不滿足要求。第一步，獲取所有商區和菜系的url從http://www.dianping.com/beijing/food這個網站獲取比較簡單，就直接在後面貼程式碼了。朝外大街： http://

爬取大眾點評之獲取商家地址

昨天爬取大眾點評的文章昨天試探性的爬取了大眾點評的數字資訊，但一般我們獲取的資料中，不止是這些數字資訊。在基本資訊裡面，地址也是一個很重要的資料。於是今天嘗試一下怎麼獲取地址。思路和數字是一樣的，概括就是，通過css檔案裡的偏移量找到class屬性和svg檔案中的漢字的對應關係。

Python爬取大眾點評成都資料，只為告訴你哪家火鍋最好吃

冬天到了，天氣越來越冷，小編起床越來越困難了，每一天都想吃辣辣的火鍋。成都到處都是火鍋店，有名的店，稍微去晚一點，排隊都要排好久，沒聽說的店，又怕味道不好。那麼如何選擇火鍋店呢？最簡單的肯定是在美團。大眾點評上找一找啊。所以，本文就從大眾點評上爬取了成都的火鍋資料，來進行了分析。 Python學

爬取大眾點評資料

通過觀察每個城市的連結主要區別於ranKld，每個城市有特定的ID，因此先獲取到相應城市的ID，便可進行後續抓取。獲取到的城市ID為： [“上海”,“fce2e3a36450422b7fad3f2b90370efd71862f838d1255ea693b9

python2.7爬蟲例項詳細介紹之爬取大眾點評的資料

一．Python作為一種語法簡潔、面向物件的解釋性語言，其便捷性、容易上手性受到眾多程式設計師的青睞，基於python的包也越來越多，使得python能夠幫助我們實現越來越多的功能。本文主要介紹如何利用python進行網站資料的抓取工作。我看到過利用c++和java進行爬蟲的

Python 爬取大眾點評 50 頁資料，最好吃的成都火鍋根本想不到！

成都到處都是火鍋店，有名的店，稍微去晚一點，排隊都要排好久，沒聽說的店，又怕味道不好。那麼如何選擇火鍋店呢？最簡單的肯定是在美團。大眾點評上找一找啊。所以，本文就從大眾點評上爬取了成都的火鍋資料，來進行了分析。 &nbs

python爬蟲爬取大眾點評中所有行政區內的商戶將獲取資訊存於excle中

import xlwt ''' 爬取網頁時直接出現403，意思是沒有訪問許可權 ''' import requests from bs4 import BeautifulSoup #入口網頁 start_url = 'https://www.dianping.com/se

爬蟲軟體爬取公開網路資料案例(以大眾點評為例)

原文地址：http://blog.csdn.net/qq_34149805/article/details/69367578大資料在規劃行業被炒的熱火朝天，但是大多數人還是處於不知所以然的程度，應用於日常和工作更是遙遙無期。關鍵的大資料被網際網路巨頭、手機運營商、政府機構所壟

Python利用scrapy框架，爬取大眾點評部分商鋪資料~

分享一下，自己從0開始，用python爬取資料的歷程。希望可以可以幫到一起從0開始的小夥伴~~加油。首先，我的開發環境是：電腦：macOS Sierra 10.12.6 編譯器：PyCharm + 終端我的電腦自帶的Python版本為2.7，我下載了一個Python3.6。使

python2.7爬取大眾點評模擬滑鼠 python第二天含原始碼

*第二天是指寫部落格的第二天創作背景對於新手來說最快的學習方法就是看專案，在百度搜索python爬蟲基本都是爬大眾點評的，不知道這個網站做錯了什麼被這麼多人爬。接下來博主興沖沖的找了幾個有程式碼的部落格，改了改就測試，但是結果無非就是網站不能正常訪問啊，需要拖動驗證之

Python3爬蟲實戰：爬取大眾點評網某地區所有酒店相關資訊

歷時一下午加一晚上，終於把這個爬蟲程式碼寫好，後面還有很多想完善的地方（譬如資料儲存用redis、使用多執行緒加快速度、爬取圖片、細分資料等等），待有空再做更改，下面是具體的步驟與思路：工具：PyC

大眾點評評分爬取-圖文識別ORC

大眾點評評分爬取-圖文識別ORC

爬取頁面

擷取需要部分

圖片預處理

圖片文字識別

結果

訓練輔助指令碼

相關推薦