02、書店尋寶(一)
阿新 • • 發佈:2019-04-11
spa 分類 style parse rom htm item 位置 all 你需要爬取的是網上書店Books to Scrape中所有書的分類類型,並且將它們打印出來。
它的位置就在網頁的左側,如:Travel,Mystery,Historical Fiction…等。
網頁URL:http://books.toscrape.com/
1 #2、書店尋寶(一) 2 # 你需要爬取的是網上書店Books to Scrape中所有書的分類類型,並且將它們打印出來。 3 # 它的位置就在網頁的左側,如:Travel,Mystery,Historical Fiction…等。 4# 網頁URL:http://books.toscrape.com/ 5 6 import requests 7 from bs4 import BeautifulSoup 8 res = requests.get(‘http://books.toscrape.com/‘) 9 html = res.text 10 soup = BeautifulSoup(html,‘html.parser‘) 11 items = soup.find(‘ul‘,class_=‘nav nav-list‘).find(‘li‘).find_all(‘li‘) 12 13 for item initems: 14 print(item.find(‘a‘).text.strip()) 15 print(item.find(‘a‘).text.replace(‘\n‘,‘‘).replace(‘ ‘,‘‘)) 16 17 ‘‘‘ 18 執行結果如下: 19 Travel 20 Mystery 21 HistoricalFiction 22 SequentialArt 23 Classics 24 Philosophy 25 ‘‘‘
items中每個Tag的內容如下
1 <li> 2 <a href="catalogue/category/books/crime_51/index.html"> 3 4 Crime 5 6 </a> 7 </li>
02、書店尋寶(一)