互動百科詞條快速抓取[適用於文字處理與挖掘]

阿新 • • 發佈：2018-12-07

1.前言

　　因近期小組的一個專案有文字挖掘的需求，需要用到Word2Vec的文字特徵抽取，為了進行技術預演需要我們提前對模型進行訓練。而只要涉及資料探勘相關的模型，資料集是不必可少的。中文文字挖掘領域，百科詞條涵蓋面廣，而且內容比較豐富，於是便選擇百科的詞條作為資料集（http://baike.com）。

2.詞條抓取方案與程式碼實現

　　2.1 抓取方案

　　step1:

　　　　收集百科詞條種子(後臺的id列表)

　　step2:

　　　　獲取詳情頁並解析html中的詞條正文

　　step3:

　　　　資料儲存（以文字txt儲存或者存庫）

　　a)如何獲取載入列表的js請求地址和請求引數格式

　　b)如從詞條詳情頁獲取正文的css樣式 ？

　　2.2 程式碼實現

　　step1:收集詞條id列表並儲存到redis

 1 def fetch_seeds():
 2     print "-- fetch seeds --"
 3     cnt = 0
 4     for def_index in range(4, 10):
 5         ret = do_run(index=def_index)
 
 6         cnt += ret
 7     print("cnt =  %d" % cnt)
 8 
 9 def do_run(index, page_num=100):
10     artical_list = []
11     for pn in range(1, page_num + 1):
12         try:
13             url = 'http://api.hudong.com/flushjiemi.do?flag=2&topic=%d&page=%d&type=2' % (index, pn)
14             retText = fetch(url)
 
15             print("ret = %s" % retText)
16             ret_json = json.loads(retText, encoding='utf-8')
17             result = ret_json["result"]
18             if len(result) > 0:
19                 for ob in result:
20                     # artical_list.append(ob["article_topic_name"])
21                     # artical_list.append("%s%s%s" % (ob["article_topic_name"], "-", ob["article_id"]))
22                     artical_list.append(ob["article_id"])
23                 save2redis(index, artical_list)
24             # sleep
25             if pn % 5 == 0:
26                 print 'pn=%d, sleeping...' % pn
27                 time.sleep(1)
28         except:
29             print "http get or parse error!"
30 
31     return 1
32 
33 def save2redis(index, article_list):
34     r = redis.Redis(host=redis_db_host, port=redis_db_port, db=redis_db_index)
35     for article in article_list:
36         r.sadd("%s-%d" % ("news.set", index), article)

　　step2:抓取詞條詳情並儲存到redis

 1 def fetch_detail():
 2     print "-- fetch detail --"
 3     r = redis.Redis(host=redis_db_host, port=redis_db_port, db=redis_db_index)
 4     cnt = 0
 5     for news_index in range(4, 10):
 6         seeds = r.smembers("%s-%s" % ("news.set", news_index))
 7         if len(seeds) > 0:
 8             for seed in seeds:
 9                 try:
10                     ret = crawl(seed)
11                     cnt += 1
12                     if cnt % 10 == 0:
13                         time.sleep(2)
14                         print 'cnt=%d, sleeping...' % cnt
15                     # save to redis
16                     save_detail(seed, result=ret)
17                     # break  # unit test
18                 except:
19                     print "fetch detail error!!!"
20     pass
21 
22 def crawl(page_no):
23     url = 'http://jiemi.baike.com/pa/detail?id=%s&type=1' % page_no
24     print "url=", url
25     content = fetch(url)
26     soup = BeautifulSoup(content, "html.parser")
27     return fetch_with_class(soup, class_type="jiemi-content")
28     
29 def save_detail(seed, result=""):
30     r = redis.Redis(host=redis_db_host, port=redis_db_port, db=redis_db_index_2)
31     r.set("id_%s" % seed, result)
32     return 1

　　1）環境說明 python2.7, redis4.x　　

　　2）github專案完整原始碼 https://github.com/SeaSky0606/baike-crawler

　　3）為維護網路和諧，詞條資料僅適用於研究與學習，請勿惡意抓取。

互動百科詞條快速抓取[適用於文字處理與挖掘]

1.前言　　因近期小組的一個專案有文字挖掘的需求，需要用到Word2Vec的文字特徵抽取，為了進行技術預演需要我們提前對模型進行訓練。而只要涉及資料探勘相關的模型，資料集是不必可少的。中文文字挖掘領域，百科詞條涵蓋面廣，而且內容比較豐富，於是便選擇百科的詞條作為資料集

Jumony快速抓取網頁 --- Jumony使用筆記--icode

　　剛剛在部落格園看到一篇博文《使用HttpWebRequest和HtmlAgilityPack抓取網頁（拒絕亂碼，拒絕正則表示式）》，感覺不錯，作者寫的也挺好的，然後在看了園子裡的朋友的評論後，我知道了有一個更牛x的工具——Jumony 。這個工具用起來可謂稱之為簡單、高效。特此

Wireshark學習筆記——如何快速抓取HTTP資料包

0.前言在火狐瀏覽器和谷歌瀏覽器中可以非常方便的除錯network（抓取HTTP資料包），但是在360系列瀏覽器（相容模式或IE標準模式）中抓取HTTP資料包就不那麼那麼方便了。雖然也可使用HttpAnalyzer等工，但是畢竟都是收費軟體。只需通過合適的過濾和操作，

python:利用asyncio進行快速抓取

web資料抓取是一個經常在python的討論中出現的主題。有很多方法可以用來進行web資料抓取，然而其中好像並沒有一個最好的辦法。有一些如scrapy這樣十分成熟的框架，更多的則是像mechanize這樣的輕量級庫。DIY自己的解決方案同樣十分流行：你可以使用request

python爬蟲使用BeautifulSoup庫簡單快速抓取資料

如何快速入門抓取html網頁資料開發準備：1：開發工具使用pycharm，下載點選開啟連結2 : python3.6 下載點選開啟連結配置過程百度，不做細緻分析，配置完成後進入開發，pycharm破解選擇License server啟用即可，idea.qmanga.com可用

多執行緒快速抓取網頁

一段簡單的程式碼，用於抓取wiki百科資料，簡單的多執行緒程式設計例子，很少佔記憶體，執行緒數開大了後效率很高。import sys, thread, threading, time; import commands finish_num = 0; mutex = thr

劍走偏鋒，robots.txt快速抓取網站的小竅門

多好 alt item 處的 href -i 帶寬高級臨時性在我抓取網站遇到瓶頸，想劍走偏鋒去解決時，常常會先去看下該網站的robots.txt文件，有時會給你打開另一扇抓取之門。寫爬蟲有很多苦惱的事情，比如： 1.訪問頻次太高被限制； 2.如何大量發現該網站的UR

原始套接字抓取所有乙太網資料包與分析

If you have any idea, just send comments to me. 1.原始套接字介紹關於socket使用客戶機/伺服器模型的 SOCK_STREAM 或者 SOCK_DGRAM 用於 TCP 和 UDP 連線的應用更為普遍

python自動規則化抓取百度百科詞條資料

程式碼已同步到GitHub中，以後會陸陸續續整理之前的程式碼，放在GitHub共享，歡迎圍觀。 qingmm的GitHub 百科詞條資料整體較為規範，至少在網頁上看起來是這樣。但實際抓取時可以發現正文內容不論標題還是內容都在同一級下，無法直接獲取到某一

爬蟲--python3.6+selenium+BeautifulSoup實現動態網頁的資料抓取，適用於對抓取頻率不高的情況

說在前面：本文主要介紹如何抓取頁面載入後需要通過JS載入的資料和圖片本文是通過python中的selenium（pyhton包） + chrome（谷歌瀏覽器） + chromedrive（谷歌瀏覽器驅動） chrome 和chromdrive建議都下最新版本（參考地址：https://blog.c

使用Chrome快速實現數據的抓取（二）

run 描述管理 opp socket 請求 icon err protoc 在前面的文章簡單的介紹了一下Chrome調試模式的啟動方式，但前面的API只能做到簡單的打開，關閉標簽操作，當我們需要對某個標簽頁進行詳細的操作時，則需要用到頁面管理API。首先我們還是來回顧下

使用Chrome Headless 快速實現java版數據的抓取

chrome headless java調webkit 參考《使用Chrome快速實現數據的抓取（一）——概述》和《使用Chrome快速實現數據的抓取（二）——協議》。各協議客戶端實現參考：https://github.com/ChromeDevTools/awesome-chrome-devtoo

使用Chrome快速實現數據的抓取（四）——優點

一個 java 海量 height 調試工具 -1 idt socket程序格式些一個抓取WEB頁面的數據程序比較簡單，大多數語言都有相應的HTTP庫，一個簡單的請求響應即可，程序發送Http請求給Web服務器，服務器返回HTML文件。交互方式如下：　　在使用

爬蟲實戰1--抓取糗事百科段子

爬蟲1.提取某一頁的所有段子 # -*- coding:utf-8 -*- import urllib import urllib2 import re page = 1 url = ‘http://www.qiushibaike.com/hot/page/‘ + str(page) user_agen

使用Chrome快速實現數據的抓取（五）—— puppeteer

ref google rem 官方簡單的 code web 驅動 ace 如果要以自動化的方式驅動Chrome進行數據抓取，必須實現Chrome Dev Protocol協議的客戶端。這個協議本身並不復雜，我在之前的文章中也簡單的介紹過一下。 Google本身有一個No

HtmlAgilityPack抓取糗事百科內容

console lag node document 24小時 ner readline collect ldo 本文實例講述了C#使用HtmlAgilityPack抓取糗事百科內容的方法。分享給大家供大家參考。具體實現方法如下： Console.WriteLine("**

bs4抓取糗事百科

tps quest mpi block ntp lap closed resp pan 抓取糗事百科內容及評論，不包含圖片信息。user-agent填入瀏覽器的即可。user-agent對應的value，360極速瀏覽器的話，可以在地址欄輸入about:version，回車

Python爬蟲實戰專案1 | 基礎爬蟲的實現（爬取100條百度百科詞條）

【基礎爬蟲篇】本篇講解一個比較簡單的Python爬蟲。這個爬蟲雖然簡單，但五臟俱全，大爬蟲有的模組這個基礎爬蟲都有，只不過大爬蟲做的更全面、多樣。 1.實現的功能：這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識：(1).Python語法；(2).Be

socket心跳超時檢測，快速處理新思路（適用於超大量TCP連線情況下）

假設一種情景：TCP伺服器有1萬個客戶端連線，如果客戶端5秒鐘不發資料，則要斷開。服務端如何檢測客戶端是否超時？這看起來是一個非常簡單的問題，其實不然！最簡單的處理方法是：啟動一個執行緒，每隔一段時間，檢查每個連線是否超時。每次處理需要1萬次檢查。計算量太大！檢查的時間間隔不能太小，否則大大增

使用Puppeteer進行資料抓取(四)——快速除錯

在我們使用chrome作為爬蟲獲取網頁資料時，往往需如下幾步。開啟chrome 導航至目標頁面等待目標頁面載入完成解析目標頁面資料儲存目標頁面資料關閉chrome 我們實際的編碼往往集中在第4步，並且，在開發過程中，解析網頁資料往往不是一步到位的，需要經

互動百科詞條快速抓取[適用於文字處理與挖掘]

相關推薦