1. 程式人生 > >Python爬蟲新聞例項程式碼

Python爬蟲新聞例項程式碼

"新聞的爬取到本地的"
# 思路:先爬取首頁 然後在通過正則表示式獲取所有的新聞連結 然後在爬出各類的新聞 並存儲本地
#http://news.sina.com.cn/
html="http://news.sina.com.cn/"
data=urllib.request.urlopen(html).read()
newdata=data.decode("utf-8","ignore")
pat='href="(http://news.sina.com.cn/.*?)">'
allurl=re.compile(pat).findall(newdata)
for i in range(len(allurl)):
    try:
        print("這是第%d次爬取成功了"%i)
        thisurl=allurl[i]
        file="D:/PythonFile/資料探勘/網頁/"+str(i)+".html"
        urllib.request.urlretrieve(thisurl,file)
    except urllib.error.URLError as e:#這個異常都是通用的一種程式碼
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

print("爬蟲結束")