初窺爬蟲
阿新 • • 發佈:2017-09-22
get kit 5.0 www. soft 錯誤 cor for pan
在網上看到一篇能夠爬圖片的程序想自己也試一試,一天的大部分時間都在調試爬蟲所需要的環境。
1)Beautiful Soup模塊
Beautiful Soup 是一個可以從 HTML 或 XML 文件中提取數據的 Python 庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間.
Beautiful Soup的安裝可使用Python自帶的easy_install和pip。其中pip是需要自己安裝,由於安裝過程較繁瑣就沒有嘗試,只是使用了自帶的easy_install進行安裝。
安裝過程如下:
【第一步】下載官方安裝包 beautifulsoup 4-4.4.1
下載地址:https://www.crummy.com/software/BeautifulSoup/bs4/download/4.4/
打開後,選擇第二個
將下載文件解壓到python的安裝下面
【第二步】打開CMD,用CD命令進入到Beautiful Soup的解壓目錄下:
例:cd c:\python27\beautifulsoup4-4.4.1
出現這個提示表示已經在該目錄下
【第三步】運行安裝指令
1.python setup.py build 輸入完成按回車等待
2.python setup.py install
【第四步】檢查安裝是否成功
到Python IDE下輸入語句:
1 from bs4 import BeautifulSoup
如果沒有報錯,恭喜你成功安裝。
2)copy的程序
# -*- coding:utf8 -*- # Python: 2.7.8 # Platform: Windows # Author: wucl # Version: 1.0 # Program: 自動下載妹子圖的圖片並保存到本地 import urllib2, os, os.path, urllib, random from bs4 import BeautifulSoupdef get_soup(url): """ 獲取網站的soup對象 """ my_headers = [ ‘Mozilla/5.0 (Windows NT 5.2) AppleWebKit/534.30 (KHTML, like Gecko) Chrome/12.0.742.122 Safari/534.30‘, ‘Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0‘, ‘Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.2; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C)‘, ‘Opera/9.80 (Windows NT 5.1; U; zh-cn) Presto/2.9.168 Version/11.50‘, ‘Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/533.21.1 (KHTML, like Gecko) Version/5.0.5 Safari/533.21.1‘, ‘Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C)‘] header={"User-Agent":random.choice(my_headers)} req=urllib2.Request(url, headers=header) html=urllib2.urlopen(req).read() soup=BeautifulSoup(html) return soup def get_pages(url): """ 獲取妹子圖網站的頁數 """ soup=get_soup(url) nums=soup.find_all(‘a‘,class_=‘page-numbers‘) pages=int(nums[-2].text) return pages def get_menu(url): """ 獲取頁面的所有妹子圖主題的鏈接名稱和地址,記入列表 """ soup=get_soup(url) menu=[] menu_list=soup.find_all(‘a‘,target=‘_blank‘) for i in menu_list: result=i.find_all(‘img‘,class_=‘lazy‘) if result: name=result[0][‘alt‘] address=i[‘href‘] menu.append([name,address]) return menu def get_links(url): """ 獲取單個妹子圖主題一共具有多少張圖片 """ soup=get_soup(url) all_=soup.find_all(‘a‘) nums=[] for i in all_: span=i.find_all(‘span‘) if span: nums.append(span[0].text) return nums[-2] def get_image(url,filename): """ 從單獨的頁面中提取出圖片保存為filename """ soup=get_soup(url) image=soup.find_all(‘p‘)[0].find_all(‘img‘)[0][‘src‘] urllib.urlretrieve(image,filename) def main(page): """ 下載第page頁的妹子圖 """ print u‘正在下載第 %d 頁‘ % page page_url=url+‘/page/‘+str(page) menu=get_menu(page_url) print u‘@@@@@@@@@@@@@@@@第 %d 頁共有 %d 個主題@@@@@@@@@@@@@@@@‘ %(page,len(menu)) for i in menu: dir_name=os.path.join(‘MeiZiTu‘,i[0]) if not os.path.exists(dir_name): os.mkdir(dir_name) pic_nums=int(get_links(i[1])) print u‘\n\n\n*******主題 %s 一共有 %d 張圖片******\n‘ %(i[0],pic_nums) for pic in range(1,pic_nums+1): basename=str(pic)+‘.jpg‘ filename=os.path.join(dir_name,basename) pic_url=i[1]+‘/‘+str(pic) if not os.path.exists(filename): print u‘......%s‘ % basename, get_image(pic_url,filename) else: print filename+u‘已存在,略過‘ if __name__==‘__main__‘: url=‘http://www.mzitu.com/‘ pages=get_pages(url) print u‘***************妹子圖一共有 %d 頁******************‘ %pages if not os.path.exists(‘MeiZiTu‘): os.mkdir(‘MeiZiTu‘) page_start=input(u‘Input the first page number:\n‘) page_end=input(u‘Input the last page number:\n‘) if page_end>page_start: for page in range(page_start,page_end): main(page) elif page_end==page_start: main(page_end) else: print u"輸入錯誤,起始頁必須小於等於結束頁\n"
初窺爬蟲