Python爬蟲新聞例項程式碼
阿新 • • 發佈:2018-12-09
"新聞的爬取到本地的" # 思路:先爬取首頁 然後在通過正則表示式獲取所有的新聞連結 然後在爬出各類的新聞 並存儲本地 #http://news.sina.com.cn/ html="http://news.sina.com.cn/" data=urllib.request.urlopen(html).read() newdata=data.decode("utf-8","ignore") pat='href="(http://news.sina.com.cn/.*?)">' allurl=re.compile(pat).findall(newdata) for i in range(len(allurl)): try: print("這是第%d次爬取成功了"%i) thisurl=allurl[i] file="D:/PythonFile/資料探勘/網頁/"+str(i)+".html" urllib.request.urlretrieve(thisurl,file) except urllib.error.URLError as e:#這個異常都是通用的一種程式碼 if hasattr(e,"code"): print(e.code) if hasattr(e,"reason"): print(e.reason) print("爬蟲結束")