人民日報語料庫抓取python實現（二）--多執行緒

阿新 • • 發佈：2019-01-17

由於有大量的IO，多執行緒可以提高爬取的效率。出於不同佇列儲存不同url和對於爬蟲進行分工的初衷，這裡實現了兩個佇列shareMonthQueue和shareReportQueue。其中shareMonthQueue儲存所有月份初始url和包含的其他頁面（一個月份有很多page，例：1946年5月包含30個page）。shareReportQueue儲存所有新聞的url。兩個佇列有其專用的爬蟲monthSpider和reportSpider。師兄說：從作業系統的角度來看，兩個佇列是多此一舉，增加程式碼複雜度，並不提高效率。我想了想，師兄說的對。

上程式碼：

#coding:utf-8
#author:zhangyang
#date:2015-5-21
#此程式用於爬取人民日報下的資料資源。主頁面需要提取包括1946年到2003年之間所有月份
#次級頁面是各個月份的所有報道
#末級頁面是報道內容
#使用多執行緒提高爬取效率

import urllib2,bs4,os,re
from time import clock
import threading,Queue

#關於bs4解析url的方法可以參看：http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html


starturl="http://rmrbw.info/"
shareMonthQueue=Queue.Queue()  #儲存月份url的公共佇列
shareReportQueue=Queue.Queue() #c儲存新聞url的公共佇列
_WORK_MONTH_THREAD_NUM=3       #用於處理月份url的爬蟲數量
_WORK_REPORT_THREAD_NUM_=10    #用於處理新聞url的爬蟲數量
totalNum=0  #全域性計數器
mutex=threading.Lock() #互斥鎖
tlist=[]<span style="white-space:pre">	</span>#執行緒列表
t1=clock()
t2=clock()
t3=clock()
t4=clock()


class monthSplider(threading.Thread):
	def __init__(self,name,dicPath = os.getcwd()+os.path.sep+"data"+os.path.sep):
		threading.Thread.__init__(self)
		self.name=name
		self.dicPath=dicPath
		self.TIMEOUT=10

	def run(self):
		start=clock()
		end=clock()
		while True:
			if shareMonthQueue.empty()==False:
				start=clock()
				monthurl=shareMonthQueue.get()
				try:
					page=urllib2.urlopen(monthurl).read()
					soup=bs4.BeautifulSoup(''.join(page),'lxml')
				except Exception as e:
					print "loading url error at line 43"
					print e
					continue
				title=soup.find('a','fl')   #找到年月的標籤位置
				month=title.contents[0]
				curpath=os.getcwd()
				#print month.encode('utf8')
				datapath=self.dicPath+month.encode('gbk')
				if os.path.exists(datapath)==False:
					os.mkdir(datapath)                       #建立好當月資料夾

				pages=soup.find('div','pages').contents[-1]
				totalpage=pages.split(' ')[3].split('/')[1]   #得到總頁面數
				templist=monthurl.split('=')
				curpage=templist[-1]
				curpage=int(curpage.strip())              #得到當前頁面值
		
				#判斷如果curpage小於totalpage，則把curpage+1得到下一個頁面放入shareMonthQueue中
				if curpage<totalpage:
					templist[-1]=str(curpage+1)
					nexturl='='.join(templist)
					shareMonthQueue.put(nexturl)
				#獲取當前頁面所有新聞的url,並把url放入shareReportQueue裡
				res=soup.find_all(id=re.compile("a_ajax_"))
				for item in res:
					shareReportQueue.put(starturl+item['href'])
			else:
				#在shareMonthQueue為空的情況下等待TIMEOUT秒後退出
				end=clock()
				if (end-start)>self.TIMEOUT:
					break
					
class reportSpider(threading.Thread):
	def __init__(self,name,dicPath = os.getcwd()+os.path.sep+"data"+os.path.sep):
		threading.Thread.__init__(self)
		self.name=name
		self.dicPath=dicPath
		self.TIMEOUT=10
		
	def run(self):
		start=clock()
		end=clock()
		while True:
			if shareReportQueue.empty()==False:
				start=clock()
				url=shareReportQueue.get()
				try:
					page=urllib2.urlopen(url).read()
					soup=bs4.BeautifulSoup(''.join(page),'lxml')
				except Exception as e:
					print "loading url error at line 93"
					print e
					continue
				month=soup.find('a',href=re.compile('thread.php')).get_text().strip() #解析當前網頁所在年月
				month=month.encode('gbk')
				title=soup.find('h1','fl').get_text() #解析當前網頁的新聞標題

				title=title.strip().split(' ')[0]
				#print title.encode('utf8')
				cont_div=soup.find('div','tpc_content')
				cont=cont_div.get_text().strip()   #解析當前網頁的新聞內容
				title=title.encode('gbk')
				cont=cont.encode('gbk')
				try:
					filename=self.dicPath+month+os.path.sep+title+'.txt'
					f=open(filename,'w')
					f.write(cont)
				except Exception as e:
					print str(e)+self.name
					continue
				global totalNum
				global mutex
				if mutex.acquire(1):
					totalNum+=1
					mutex.release()
				#print self.name+"處理了一個頁面"
				if totalNum%100==0:
					global t3,t4
					t4=clock()
					print "已處理了"+str(totalNum)+"條資料,用時"+str(t4-t3)+'s'
			else:
				end=clock()
				if (end-start)>self.TIMEOUT:
					break


def main():
	global t1,t2,t3,t4
	t1=clock()
	pape=urllib2.urlopen(starturl)
	mainsoup=bs4.BeautifulSoup(''.join(pape),'lxml')
	alist=mainsoup.find_all('a',class_='fnamecolor',limit=10)

	for item in alist:
		monthurl=item['href']+'&page=1'
		shareMonthQueue.put(starturl+monthurl)
	t2=clock()
	print "主頁面爬取完成，用時"+str(t2-t1)+'s'

	for i in xrange(_WORK_REPORT_THREAD_NUM_):
		if i<_WORK_MONTH_THREAD_NUM:
			ms=monthSplider('ms'+str(i))
			tlist.append(ms)
		rs=reportSpider('rs'+str(i))
		tlist.append(rs)
	t3=clock()
	print "爬蟲準備就緒,用時"+str(t3-t2)+'s'
	for t in tlist:
		t.start()
	for t in tlist:
		t.join()




if __name__=="__main__":
	main()

人民日報語料庫抓取python實現（二）--多執行緒

人民日報語料庫抓取python實現（二）--多執行緒

Java併發程式設計（二）多執行緒四種實現方式

一行 Python 實現並行化 -- 日常多執行緒操作的新思路

學習大資料第五天：最小二乘法的Python實現（二）

Python高階程式設計（四）多執行緒

Java Socket應用（三）多執行緒實現多客戶端的通訊

python高階（二）——多工（三）協程（3）圖片下載器

python高階（二）——多工（三）協程（2）

python高階（二）——多工（三）協程（1）迭代器、生成器

python高階（二）——多工（二）程序（2）資料夾拷貝器

python高階（二）——多工（二）程序（1）

python高階（二）——多工（一）執行緒（2）多執行緒UDP聊天器

python高階（二）——多工（一）執行緒（1）

作業系統（Linux）多執行緒--互斥量實現同步

群聊實現（tcp和多執行緒）

爬蟲記錄（4）——多執行緒爬取圖片並下載

python進階（9）多執行緒

1998年人民日報語料庫，詞的最長，最短匹配提取問題，

基於Java的網路爬蟲實現抓取網路小說（一）

八大排序算法python實現（轉）

人民日報語料庫抓取python實現（二）--多執行緒

相關推薦