一個爬取52破解的全部帖子地址的簡單爬蟲

阿新 • • 發佈：2018-03-28

軟件調試 ict print __main__ 逆向慶典活動 exception requests 總頁數

 


  1 # -*- coding:utf-8 -*- 
  2 import requests
  3 from bs4 import BeautifulSoup
  4 import time
  5  
  6  
  7  
  8 title_list=[{‘原創發布區‘:‘http://www.52pojie.cn/forum-2-1.html‘},
  9                         {‘逆向資源區‘:‘http://www.52pojie.cn/forum-4-1.html‘},
 10                         {‘脫殼破解區‘:‘http://www.52pojie.cn/forum-5-1.html 
‘},
 11                         {‘動畫發布區‘:‘http://www.52pojie.cn/forum-6-1.html‘},
 12                         {‘懸賞問答區‘:‘http://www.52pojie.cn/forum-8-1.html‘},
 13                         {‘水漫金山‘:‘http://www.52pojie.cn/forum-10-1.html‘},
 14                         {‘站點公告‘:‘http://www.52pojie.cn/forum-13-1.html‘ 
},
 15                         {‘精品軟件區‘:‘http://www.52pojie.cn/forum-16-1.html‘},
 16                         {‘音樂視頻‘:‘http://www.52pojie.cn/forum-19-1.html‘},
 17                         {‘編程語言區‘:‘http://www.52pojie.cn/forum-24-1.html‘},
 18                         {‘申請專區‘:‘http://www.52pojie.cn/forum-25-1.html 
‘},
 19                         {‘LCG Area‘:‘http://www.52pojie.cn/forum-28-1.html‘},
 20                         {‘病毒分析區‘:‘http://www.52pojie.cn/forum-32-1.html‘},
 21                         {‘周年慶典活動專區‘:‘https://www.52pojie.cn/forum-36-1.html‘},
 22                         {‘招聘求職‘:‘http://www.52pojie.cn/forum-39-1.html‘},
 23                         {‘病毒樣本區‘:‘http://www.52pojie.cn/forum-40-1.html‘},
 24                         {‘安全工具區‘:‘http://www.52pojie.cn/forum-41-1.html‘},
 25                         {‘電子書策劃制作區‘:‘http://www.52pojie.cn/forum-42-1.html‘},
 26                         {‘Key|Patch|共享賬號‘:‘http://www.52pojie.cn/forum-44-1.html‘},
 27                         {‘病毒救援區‘:‘http://www.52pojie.cn/forum-50-1.html‘},
 28                         {‘影視推薦‘:‘http://www.52pojie.cn/forum-56-1.html‘},
 29                         {‘LSG Area‘:‘http://www.52pojie.cn/forum-58-1.html‘},
 30                         {‘軟件調試區‘:‘http://www.52pojie.cn/forum-59-1.html‘},
 31                         {‘T恤活動作品區‘:‘http://www.52pojie.cn/forum-62-1.html‘},
 32                         {‘移動安全區‘:‘http://www.52pojie.cn/forum-65-1.html‘},
 33                         {‘福利經驗‘:‘http://www.52pojie.cn/forum-66-1.html‘},
 34                         {‘2014CrackMe大賽‘:‘http://www.52pojie.cn/forum-67-1.html‘},
 35                         {‘吾愛破解2016安全挑戰賽‘:‘http://www.52pojie.cn/forum-71-1.html‘},
 36                         {‘站務處理‘:‘http://www.52pojie.cn/forum-72-1.html‘}]
 37  
 38  
 39  
 40  
 41  
 42  
 43 def get_html(url):
 44         while True:
 45                 try:
 46                         response = requests.get(url)
 47                         return response.text
 48                 except Exception as e:
 49                         time.sleep(10)
 50                         continue
 51  
 52  
 53 # 得到區域總頁數        
 54 def get_page(url):
 55         html = get_html(url)
 56         soup = BeautifulSoup(html,‘lxml‘)
 57         label_list =soup.find_all(‘label‘)
 58         page = int(label_list[3].span.string[3:-2])
 59         return page
 60          
 61 # 下載指定頁面
 62 def page_down(url):
 63  
 64         page = get_page(url)
 65         print("總頁數："+str(page))
 66         txt = input("請輸入保存到的文件名(註意添加後綴):")
 67         for j in range(1,page+1):
 68                 print(("第"+str(j)+"頁下載中").center(40,"■"))
 69                 html = get_html(url[:-7]+‘-‘+str(j)+‘.html‘)        
 70                 soup = BeautifulSoup(html,‘lxml‘)
 71                 label_list =soup.find_all(‘label‘)
 72                 a_list =soup.find_all(‘a‘,attrs={‘class‘:‘s xst‘})
 73                 #寫入到文件
 74                 for a in a_list:
 75                         #print(a.string)
 76                         #print("https://www.52pojie.cn/"+a.attrs[‘href‘])
 77                         with open(txt,‘a+‘,encoding=‘utf-8‘) as f:
 78                                 f.write(a.get_text())
 79                                 f.write(‘\n‘)
 80                                 f.write("https://www.52pojie.cn/"+a.attrs[‘href‘])
 81                                 f.write(‘\n‘)
 82          
 83                 print(("第"+str(j)+"頁下載完成").center(40,"■"))
 84  
 85 def main():
 86         i = 0
 87         time = 0
 88         url = ‘‘
 89         # 輸出列表
 90         for title in title_list:
 91                 #print(title)
 92                 for key in title:
 93                         url = str(title[key])
 94                         if time==1:
 95                                 print((str(i)+‘:‘+key).ljust(20))
 96                                 time=0
 97                                  
 98                         else:
 99                                 print((str(i)+‘:‘+key).ljust(20),end=" ")
100                                 time+=1
101                 i+=1
102          
103         # 判斷輸入是否在範圍內
104         while True:
105                 try:
106                         print()
107                         num = int(input(‘請輸入你要瀏覽的代號：‘))
108                         if num>28 or num<0:
109                                 print(‘輸入有誤請重新輸入‘)
110                                 continue
111                         else:
112                                 break
113                 except Exception as e:
114                         print(‘輸入有誤請重新輸入‘)
115                         continue
116         # 獲得區域鏈接
117         dict_t = title_list[num]
118         for key in dict_t:
119                 print(dict_t[key])
120                 page_down(dict_t[key])
121                  
122 if __name__ == ‘__main__‘:
123         main()

軟件調試 ict print __main__ 逆向慶典活動 exception requests 總頁數 1 # -*- coding:utf-8 -*- 2 import requests 3 from bs4 import BeautifulSou

使用Python爬取學校學生資訊！（簡單爬蟲）

很久木有來寫博文啦，發現學校的教務系統很多童鞋都木有修改初始密碼，於是博主就想寫試用python寫一個爬蟲小指令碼，將木有修改初始密碼的童鞋資料扒下來，然後嘿嘿嘿~~~通知他們修改！鑑於寫博文時未通知這些受害童鞋們，因此隱去關鍵資訊。首先為初始化方法__

一個爬取法律網站的爬蟲

重連 light str 避免 log nic urllib python 文件的因為各種原因，需要建立一個法律大全的庫，方便做匹配等。重新拿起了python，發現忘的差不多了。網上找了一下，這是一個大佬做的一個最簡單的爬蟲，http://www.cnblogs.com

網易雲音樂評論爬蟲（三）:爬取歌曲的全部評論

用過網易雲音樂聽歌的朋友都知道，網易雲音樂每首歌曲後面都有很多評論，熱門歌曲的評論更是接近百萬或者是超過百萬條．現在我就來分享一下如何爬取網易雲音樂歌曲的全部評論，由於網易雲音樂的評論都做了混淆加密處理，因此我們需要深入瞭解它的加密過程之後才能爬取到網易雲音樂歌曲的全部評論．一，首

使用scrapy框架爬取貓眼電影全部的頁碼並寫入資料庫

使用scrapy框架爬取貓眼電影爬取全部的頁數 import scrapy,re from jobmaoyan.items import JobmaoyanItem class MaoyanSpider(scrapy.Spider): name = '

python爬取歌曲的全部評論

作者：Jason zhou Python愛好者社群專欄作者部落格地址：http://www.zhouzying.cn/author/jason-zhou 用過網易雲音樂聽歌的朋友都知道，網易雲音樂每首歌曲後面都有很多評論，熱門歌曲的評論更是接近百萬或者是超過百萬條．現在我就來分享一

快過年了,Python大神給免費分享一個爬取12306火車票例子（附原始碼）

。。。上面是以前寫的文章的資源，在以前的文章中有對應的資源，有興趣的可以去檢視。作為一種便捷地收集網上資訊並從中抽取出可用資訊的方式，網路爬蟲技術變得越來越有用。使用Python這樣的簡單程式語言，你可以使用少量程式設計技能就可以爬取複雜的網站。如果手機上顯示程式碼錯亂，請分

解析js程式碼實現爬取頁面所有的ip地址[面試題]

該網頁只有在重新整理時, 才能顯示後面的頁面, 且頁面會開啟新的頁面, 跳轉時需要的cookies, 由第一個頁面的cookies動態生成. 下面是具體程式碼: import requests import re import lxml.html class ExamSpider

python網路爬蟲學習(二)一個爬取百度貼吧的爬蟲程式

今天進一步學習了python網路爬蟲的知識，學會了寫一個簡單的爬蟲程式，用於爬取百度貼吧的網頁並儲存為HTML檔案。下面對我在實現這個功能時的程式碼以及所遇到的問題的記錄總結和反思。首先分析實現這個功能的具體思路: 通過對貼吧URL的觀察，可以看出貼吧中的

爬蟲練習之迴圈爬取網頁中全部連結(requsets同步)

驗證輸入的url是否可正常連線,無法連線提示使用者再次輸入,正常連線則返回url本身 def url_get(): url = input("請輸入要爬取的首頁url:") try

java程式設計師菜鳥進階（八）分享一個爬取B2B網站資訊的程式

前段時間，女朋友如願以償的找到了銷售的工作，第一天正式上班還挺高興，第二天就開始愁眉苦臉了。就是因為他這銷售實在是太麻煩，以後每天要到一些B2B網站去找一些客戶資訊，每天要找幾百條，剛開始我還安慰的說，沒事，以後我幫你找，我接手這工作第一天還很老實，第一天用了不到一個小時的時間幫忙找了八十條，但到

[Python爬蟲]爬蟲例項:爬取PEXELS圖片---修改為多程序爬蟲

第二次修改的地址---->爬蟲例項:爬取PEXELS圖片—解決非同步載入問題在前面的修改中,我們通過使用逆向工程成功解決了非同步載入的問題.但同時還有一個問題:效率問題,受限於網速,假如使用單程序下載圖片時下載的速度沒有佔滿,而使用多個程序時下載速度能夠佔滿的話,那麼多程序爬蟲在

超簡易Scrapy爬取知乎問題，標籤的爬蟲

上課的作業，備份一下，以免不時之需。知乎的問題的網頁都是 https://www.zhihu.com/question/ 帶8位神祕數字，我們只需要依次遍歷就解決問題啦，遇到404的情況就直接跳過。用scrapy框架快速開發。獲取知乎問題標題的程式碼 ti

python爬蟲-使用多程序爬取美圖-人工智慧語言（高效爬蟲）

import os from multiprocessing.pool import Pool from urllib.parse import urlencode from hashlib import md5 import requests def loaDpage(fullurl):

三個Python爬蟲版本，帶你以各種方式爬取校花網，輕鬆入門爬蟲

爬蟲是什麼？進群進群：943752371可以獲取Python各類入門學習資料！這是我的微信公眾號【Python程式設計之家】各位大佬用空可以關注下，每天更新Python學習方法，感謝！如果我們把網際網路比作一張大的蜘蛛網，資料便是存放

【Python3爬蟲】爬取美女圖新姿勢--Redis分散式爬蟲初體驗

一、寫在前面　　之前寫的爬蟲都是單機爬蟲，還沒有嘗試過分散式爬蟲，這次就是一個分散式爬蟲的初體驗。所謂分散式爬蟲，就是要用多臺電腦同時爬取資料，相比於單機爬蟲，分散式爬蟲的爬取速度更快，也能更好地應對IP的檢測。本文介紹的是利用Redis資料庫實現的分散式爬蟲，Redis是一種常用的菲關係型資料庫，常用資料

Python練習三:爬蟲練習,從一個提供免費代理的網站中爬取IP地址資訊

西刺代理,http://www.xicidaili.com/,提供免費代理的IP,是爬蟲程式的目標網站. 開始寫程式 import urllib.requestimport re def open_url(url): 　　req = urllib.request.Request(url) 　　req

爬取有驗證碼的網站，（爬之前最好看一下君子協定）robots.txt,以人人網為例，每爬100條資料需要驗證一次（需要自己購買一個驗證碼破解會員，不是很貴，我這裡選擇的是超級鷹），簡版

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/15 14:03 # @Author : zhangz # @File : day4_yanzhengma.py # @Software: Py

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

python 爬取qidian某一頁全部小說

decode return data- dib read etc break beautiful range 1 import re 2 import urllib.request 3 from bs4 import BeautifulSou

一個爬取52破解的全部帖子地址的簡單爬蟲

相關推薦