1. 程式人生 > 程式設計 >python獲取整個網頁原始碼的方法

python獲取整個網頁原始碼的方法

1、Python中獲取整個頁面的程式碼:

importrequests
res=requests.get('https://blog.csdn.net/yirexiao/article/details/79092355')
res.encoding='utf-8'
print(res.text)

2、執行結果

p1.jpg

例項擴充套件:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
 websiteurl=url
 t=time.time()
 n=0
 html=urllib2.urlopen(websiteurl).read()
 soup=BeautifulSoup(html)
 pageurls=[]
 Upageurls={}
 pageurls=soup.find_all("a",href=True)
 for links in pageurls:
  if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
   Upageurls[links.get("href")]=0
 for links in Upageurls.keys():
  try:
   urllib2.urlopen(links).getcode()
  except:
   print "connect failed"
  else:
   t2=time.time()
   Upageurls[links]=urllib2.urlopen(links).getcode()
   print n,print links,print Upageurls[links]
   t1=time.time()
   print t1-t2
  n+=1
 print ("total is "+repr(n)+" links")
 print time.time()-t
scanpage(http://news.163.com/)

到此這篇關於python獲取整個網頁原始碼的方法的文章就介紹到這了,更多相關python如何獲取整個頁面內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!