04、博客文章
阿新 • • 發佈:2019-04-11
update 人人 pid 要求 爬取 publish request .get for 題目要求:你需要爬取的是博客人人都是蜘蛛俠,首頁的四篇文章信息,並且打印提取到的信息。
提取每篇文章的:文章標題、發布時間、文章鏈接
網頁URL:https://spidermen.cn/
1 #4、博客文章 2 # 題目要求:你需要爬取的是博客人人都是蜘蛛俠,首頁的四篇文章信息,並且打印提取到的信息。 3 # 提取每篇文章的:文章標題、發布時間、文章鏈接 4 # 網頁URL:https://spidermen.cn/ 5 6 import requests 7 from bs4 import BeautifulSoup8 res = requests.get(‘https://spidermen.cn/‘) 9 html = res.text 10 soup = BeautifulSoup(html,‘html.parser‘) 11 items = soup.find_all(‘header‘,class_=‘entry-header‘) 12 for item in items: 13 print(item.find(‘h2‘).text,end=‘\t‘) 14 print(item.find(‘time‘,class_=‘entry-date published‘)[‘datetime‘],end=‘\t‘) 15 print(item.find(‘a‘)[‘href‘],end=‘\n‘) 16 17 18 ‘‘‘ 19 執行結果如下: 20 未來已來(四)——Python學習進階圖譜 2018-12-18T11:17:37+00:00 https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_04/ 21 未來已來(三)——同九義何汝秀 2018-12-18T11:12:02+00:00 https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_03/22 未來已來(二)——擁抱AI 2018-12-18T10:50:33+00:00 https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_02/ 23 未來已來(一)——技術變革 2018-12-18T10:23:16+00:00 https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_01/ 24 ‘‘‘ 25 26 27 ‘‘‘ 28 老師代碼 29 30 import requests 31 from bs4 import BeautifulSoup 32 33 url_destnation = ‘https://spidermen.cn/‘; 34 res_destnation = requests.get (url_destnation) 35 # 打印響應碼 36 print(res_destnation.status_code) 37 38 bs_articles = BeautifulSoup(res_destnation.text,‘html.parser‘) 39 # 首先找到每篇文章所在的相同的元素 40 list_articles = bs_articles.find_all(‘header‘, class_ = "entry-header") 41 for tag_article in list_articles: # 遍歷列表 42 tag_title = tag_article.find(‘h2‘,class_ = "entry-title") # 找文章標題 43 tag_url = tag_article.find(‘a‘,rel = "bookmark") # 找文章鏈接 44 tag_date = tag_article.find(‘time‘,class_="entry-date published") # 找文章發布時間 45 print(tag_title.text,‘發布於:‘,tag_date.text) # 打印文章標題與發布時間 46 print(tag_url[‘href‘]) # 換行打印文章鏈接,需要使用屬性名提取屬性值 47 ‘‘‘
items中每個Tag的內容如下
1 <header class="entry-header"> 2 <div class="entry-meta"> 3 <span class="screen-reader-text">發布於</span> 4 <a href="https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_04/" rel="bookmark"> 5 <time class="entry-date published" datetime="2018-12-18T11:17:37+00:00">2018-12-18</time> 6 <time class="updated" datetime="2018-12-18T11:25:15+00:00">2018-12-18</time> 7 </a> 8 </div> 9 <!-- .entry-meta 10 --> 11 <h2 class="entry-title"><a href="https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_04/" 12 rel="bookmark">未來已來(四)——Python學習進階圖譜</a></h2> 13 </header>
04、博客文章