pyhton爬蟲（8）——獲取網易新聞內容

阿新 • • 發佈：2019-01-26

本文主要目的是獲取網易新聞標題和正文內容。實現程式碼如下所示：

# -*- coding: utf-8 -*-
"""
Created on Mon Jul 17 15:46:30 2017

@author: Administrator
"""
from bs4 import BeautifulSoup
import urllib.request
import http.cookiejar

#url = 'http://news.163.com/17/0717/10/CPHORRIE0001899O.html'
url = 'http://news.163.com/17/0717/16/CPIES9NG000187V9.html'

'''
1.將網易新聞頁面以html的形式儲存到本地
''' 


#以字典的形式設定headers

headers = {"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
           "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
           "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0",
           "Connection": "keep-alive",
           "referer" 
: "http://www.163.com/"}

#設定cookie
cjar = http.cookiejar.CookieJar()
proxy = urllib.request.ProxyHandler({'http':"127.0.0.1:8888"})
opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler,urllib.request.HTTPCookieProcessor(cjar))

#建立空列表，為了以指定格式儲存頭資訊
headall = []
#通過for迴圈遍字典，構造出指定格式的Headers資訊 

for key,value in headers.items():
    item = (key,value)
    headall.append(item)

#將指定格式的headers資訊新增好
opener.addheaders = headall

#將opener安裝為全域性
urllib.request.install_opener(opener)
data = urllib.request.urlopen(url).read()
fhandle = open("D:/python/data/163/1.html","wb")
fhandle.write(data)
fhandle.close()

'''
2.提取網易新聞標題和正文內容資訊
'''

html1 = urllib.request.urlopen(url).read().decode('gbk')
html1 = str(html1)

soup1 = BeautifulSoup(html1,'lxml')
#提取新聞標題
result1 = soup1.find_all("h1")
title = result1[0].string
print("新聞標題為:{}".format(title))

soup2 = BeautifulSoup(html1,'lxml')
#提取正文所在區塊
result2 = soup1.find_all(attrs={"class":"post_text"})
result2 = str(result2)
#print(result2)
soup3 = BeautifulSoup(html1,'lxml')
#提取正文文字內容
result3= soup1.find_all("p")

content = result3[5:8]
print("新聞正文內容為:")
for i in content:
    print(i.string)

實現結果如下圖所示：

這裡寫圖片描述

本文只實現了網易新聞內容的簡單提取，但正文資訊提取時還需要手動設定區間範圍，不夠靈活，還有待進一步完善。

pyhton爬蟲（8）——獲取網易新聞內容

本文主要目的是獲取網易新聞標題和正文內容。實現程式碼如下所示： # -*- coding: utf-8 -*- """ Created on Mon Jul 17 15:46:30 2017 @author: Administrator """ from b

手把手教你寫網路爬蟲（1）：網易雲音樂歌單

Selenium：是一個強大的網路資料採集工具，其最初是為網站自動化測試而開發的。近幾年，它還被廣泛用於獲取精確的網站快照，因為它們可以直接執行在瀏覽器上。Selenium 庫是一個在WebDriver 上呼叫的API。WebDriver 有點兒像可以載入網站的瀏覽器，但是它也可以像BeautifulSoup

pyhton微博爬蟲（3）——獲取微博評論資料

本文的主要目標是獲取微博評論資料，具體包括微博評論連結、總評論數、使用者ID、使用者暱稱、評論時間、評論內容、使用者詳情連結等。實現程式碼如下所示： # -*- coding: utf-8 -*- """ Created on Tue Aug 8 16:

pyhton微博爬蟲（2）——獲取微博使用者關注列表

本文的主要目標是獲取微博使用者關注列表以及關注列表中各微博使用者的ID、暱稱、詳情連結、粉絲數、關注數等關鍵資訊。實現程式碼如下所示： # -*- coding: utf-8 -*- """ Created on Thu Aug 3 20:59:53

手把手教你寫網路爬蟲（8）：徹底解決亂碼問題

字元編解碼是爬蟲裡必學的一項知識，在我們的爬蟲生涯中早晚會爬到亂碼的網頁，與其遇到時驚慌失措，不如早學早好，徹底避免亂碼問題。字元編碼簡介什麼是字符集在介紹字元編碼之前，我們先了解下什麼是字符集。字元(Character)是各種文字和符號的總稱，包括各國家文字、標點

python爬蟲（20）獲取酷我音樂排行榜榜單作品

獲取酷我音樂榜單歌曲共分為三步第一步，在榜單主頁，獲取各個榜單的名字以及bangid 從這裡可以看到有三類榜單，全球榜，分類榜還有特色榜，每一個分類榜單再包含幾個榜單然後我們就可以使用F12工具檢視一下網頁元素我們需要獲得的元素是榜單名字，以及b

pyhton爬蟲（10）——通過亞馬遜商品評論時間分析商品銷量分佈情況

本文以亞馬遜rope bag商品為例，共採集到1989條商品評論時間資料，並選取15年1月——17年7月的1809條資料來繪製分月銷量圖。採集資料的python程式碼如下所示： # -*- coding: utf-8 -*- """ Created o

Pomelo（一）：網易開源基於 Node.js 的遊戲服務端框架

　　Pomelo 是基於 Node.js 的高效能、分散式遊戲伺服器框架。它包括基礎的開發框架和相關的擴充套件元件（庫和工具包），可以幫助你省去遊戲開發枯燥中的重複勞動和底層邏輯的開發。Pomelo 不但適用於遊戲伺服器開發，也可用於開發高實時 Web 應用，它的分散式架構可以使 Pomelo 比普通

pyhton爬蟲（9）——使用XPath提取網頁資訊

1. XPath基礎 1.1 什麼是XPath？ XPath 是一門在 XML 文件中查詢資訊(節點)的語言。XPath 可用來在 XML 文件中對元素和屬性進行遍歷。 1.2 節點節點是XPath提取XML文件資訊的最小單位，一共有7種：（1）元

小白學 Python 爬蟲（8）：網頁基礎

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

（轉）獲取HTML頁面內容後格式化顯示的辦法

獲取html頁面內容的方法有很多了，一般都是連線上以後取得頁面的內容，然後進行分析。一般用JDK裡面提供的 URL和URLConnection 類，就可以實現；當然，也可以用其他工具來實現，比如 httpunit(用這個有時候會有問題，如果頁面裡面有反盜鏈的設定或者其他一些有問題的程式碼，很可能就連線不上

在ASP.NET Core中用HttpClient（一）——獲取資料和內容

在本文中，我們將學習如何在ASP.NET Core中整合和使用HttpClient。在學習不同HttpClient功能的同時使用Web API的資源。如何從Web API獲取資料，以及如何直接使用HttpRequestMessage類來實現這些功能。在以後的文章中，我們將學習如何傳送POST、PUT和DELE

Python 3爬蟲網易雲（九）—— 獲取一個歌手的熱門50首歌詞

上一篇已經介紹瞭如何獲取一首歌的歌詞，今天那就介紹一下如何通過一個歌手的id獲取他的熱門50首的歌詞吧。 1.找入口要爬取一位歌手的歌曲，首先在網易雲中要獲得歌曲的id，在這推薦用火狐瀏覽器，其中的firebug外掛對網頁的解析很有幫助。這裡以爬取陳奕

網易2017春招筆試真題編程題集合（8）——奇怪的表達式求值

next ann new switch 運算 ase 自己 lin pri 常規的表達式求值，我們都會根據計算的優先級來計算。比如*/的優先級就高於+-。但是小易所生活的世界的表達式規則很簡單，從左往右依次計算即可，而且小易所在的世界沒有除法，意味著表達式中沒有/，只有(+

網易雲音樂評論爬蟲（2）：歌曲的全部評論

ima cbc 原理分析 nbsp oss 處理 oop win 接下來用過網易雲音樂聽歌的朋友都知道，網易雲音樂每首歌曲後面都有很多評論，熱門歌曲的評論更是接近百萬或者是超過百萬條．現在我就來分享一下如何爬取網易雲音樂歌曲的全部評論，由於網易雲音樂的評論都做了混淆加密處

網易雲音樂評論爬蟲（三）:爬取歌曲的全部評論

用過網易雲音樂聽歌的朋友都知道，網易雲音樂每首歌曲後面都有很多評論，熱門歌曲的評論更是接近百萬或者是超過百萬條．現在我就來分享一下如何爬取網易雲音樂歌曲的全部評論，由於網易雲音樂的評論都做了混淆加密處理，因此我們需要深入瞭解它的加密過程之後才能爬取到網易雲音樂歌曲的全部評論．一，首

爬取網易雲音樂“三部曲”（二）：獲取網易雲音樂歌手歌詞！

上一篇文章爬取了歌手的姓名和歌手的 id ，這篇文章根據上篇爬取的歌手 id 來直接下載對應歌手的歌詞。這些我其實可以寫成一個大專案，把這個大專案拆成小專案一來方便大家的理解，二來小專案都會了的話，拼在一起就是一個完整的專案了。上篇文章沒學會的也不要緊，私信小編可以獲取上次的爬取結果 c

Python3.7 爬蟲（三）使用 Urllib2 與 BeautifulSoup4 爬取網易雲音樂歌單

廢話在前面的的部落格中我們已經能夠使用 python3 配合自帶的庫或者第三方庫抓取以及解析網頁，我們今天來試試抓取網易雲音樂的歌單資訊分析網頁我們現在來分析網頁點選右側介面中的 Network 進入網路請求分析介面，如下：

python爬蟲（三）爬取網易雲音樂歌曲列表

1.開啟網易雲音樂列表，按F12，選擇Doc模式，方便檢視。2.檢視網頁的請求方式--get請求3.檢視header4. 在Preview中搜索任意一首歌曲，比如：無由可以看到，歌曲列表在‘ul’標籤中，那麼我們可以通過Be阿UtigulSoup去搜索明晰了結構，就可以寫程式

基於Node.js+MySQL開發的開源微信小程序B2C商城（頁面高仿網易嚴選）

收貨地址 lec load alt conf print 商品列表 pac data 高仿網易嚴選的微信小程序商城（微信小程序客戶端）界面高仿網易嚴選商城(主要是2016年wap版) 測試數據采集自網易嚴選商城功能和數據庫參考ecshop 服務端api基於Ｎode.j

pyhton爬蟲（8）——獲取網易新聞內容

相關推薦