Python3爬蟲實踐--網易科技滾動新聞爬取

阿新 • • 發佈：2019-03-13

背景需求

完成作業的同時練習爬蟲，利用Xpath匹配出需要爬取的內容；

需要爬取的新聞介面

需要爬取的資訊

實現程式碼

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2019/3/13 13:08
# @Author  : cunyu
# @Site    : cunyu1943.github.io
# @File    : NetaseNewsSpider.py
# @Software: PyCharm

import requests
from lxml import etree
import xlwt


headers = {
	"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
}

# 根據url獲取剛網頁中的新聞詳情頁的網址列表
def getNewsDetailUrlList(url):
	"""
	:param url: 每頁的URL
	:return newDetailList:每頁包含的新聞詳情URL
	"""
	response = requests.get(url, headers=headers)
	html = response.content.decode('gbk')
	selector = etree.HTML(html)
	newsDetailList = selector.xpath('//ul[@id="news-flow-content"]//li//div[@class="titleBar clearfix"]//h3//a/@href')
	return newsDetailList


# 獲取新聞標題
def getNewsTitle(detailUrl):
	"""
	:param detailUrl:新聞詳情url
	:return newsTitle:新聞標題
	"""
	response = requests.get(detailUrl, headers=headers)
	html = response.content.decode('gbk')
	selector = etree.HTML(html)
	newsTitle = selector.xpath('//div[@class="post_content_main"]//h1/text()')
	return newsTitle


# 獲取新聞詳情內容
def getNewsContent(detailUrl):
	"""
	:param detailUrl: 新聞詳情url
	:return newsContent: 新聞內容詳情
	"""
	response = requests.get(detailUrl, headers=headers)
	html = response.content.decode('gbk')
	selector = etree.HTML(html)
	newsContent = selector.xpath('//div[@class="post_text"]//p/text()')
	return newsContent

# 將新聞標題和內容寫入檔案
	TODO

# 獲取翻頁網址列表
def getUrlList(baseUrl, num):
	"""
	:param baseUrl:基礎網址
	:param num: 翻到第幾頁
	:return urlList: 翻頁網址列表
	"""
	urlList = []
	urlList.append(baseUrl)
	for i in range(2, num+1):
		urlList.append(baseUrl + "_" + str(i).zfill(2))
	return urlList

if __name__ == '__main__':
	baseUrl = "http://tech.163.com/special/gd2016"
	num = int(input('輸入你要爬取的頁數: '))
	urlList = getUrlList(baseUrl, num)

	print(urlList)
	detailUrl = []
	for url in urlList:
		for i in getNewsDetailUrlList(url):
			detailUrl.append(i)
	print(detailUrl)


	print(getNewsTitle(detailUrl[0]))
	print(getNewsContent(detailUrl[0]))

	# 將爬取的文字存入文字檔案

	# with open('news.txt', 'w', encoding='utf-8') as f:
	# 	for i in detailUrl:
	# 		f.write(''.join(getNewsTitle(i)))
	# 		f.write('\n')
	# 		f.write(''.join(getNewsContent(i)))
	# 		f.write('\n')
	# print('檔案寫入成功')

	# 將爬取得文字存入excel檔案

	# 建立一個Excel檔案
	workbook = xlwt.Workbook(encoding='utf-8')

	news_sheet = workbook.add_sheet('news')

	news_sheet.write(0, 0, 'Title')
	news_sheet.write(0, 1, 'Content')
	for i in range(len(detailUrl)):
		# print(detailUrl[i])
		news_sheet.write(i + 1, 0, getNewsTitle(detailUrl[i]))
		news_sheet.write(i + 1, 1, getNewsContent(detailUrl[i]))

	# 將寫入操作儲存到指定Excel檔案中
	workbook.save('網易新聞.xls')
	print('檔案寫入成功')

結果

程式碼執行結果
儲存的檔案

總結

總體來說比較簡單，程式碼也存在需要改進的地方，後續會改進更新，有其他想法的也

Python3爬蟲實踐--網易科技滾動新聞爬取

開發十年，就只剩下這套架構體系了！ >>>

【Python3爬蟲】網易雲音樂歌單下載

所有我們 discover outer list with open 分析 roc spa 一、目標：　　下載網易雲音樂熱門歌單二、用到的模塊：　　requests，multiprocessing，re。三、步驟：　　（1）頁面分析：首先打開網易雲音樂，

爬蟲04-網易科技新聞

""" __title__ = '' __author__ = 'Thompson' __mtime__ = '2018/7/26' # code is far away from bugs with the god animal protecting I love animals. The

【Python3爬蟲】網易雲音樂爬蟲

此次的目標是爬取網易雲音樂上指定歌曲所有評論並生成詞雲具體步驟：一：實現JS加密找到這個ajax介面沒什麼難度，問題在於傳遞的資料，是通過js加密得到的，因此需要檢視js程式碼。通過斷掉除錯可以找到資料是由core_8556f33641851a422ec534e33e6fa5a4.js?8556

【Python3爬蟲】使用Fidder實現APP爬取

telerik tail 實現鏈接端口號 dpi () vco 軟件之前爬取都是網頁上的數據，今天要來說一下怎麽借助Fidder來爬取手機APP上的數據。一、環境配置 1、Fidder的安裝和配置沒有安裝Fidder軟件的可以進入這個網址下載，然後就是傻瓜式的

python3[爬蟲實戰] 使用selenium，xpath爬取京東手機（上）

當然了，這個任務也是從QQ群裡面接過來的，主要是想提升自己的技術，一接過來是很開心的，但是，接完之後，寫了又寫，昨晚寫了3小時，前提晚上寫了2小時，搞的有些晚了，搞來搞去就卡在一個地方了，希望懂的大神們多幫忙指點一下，使用selenium ，可能感覺用

python3網絡爬蟲（2.1）：爬取堆糖美女

pre 線程 span 需要 pic ring clas lin chrome 額，明明記得昨晚存了草稿箱，一覺醒來沒了，那就簡寫點（其實是具體怎麽解釋我也不太懂/xk，純屬個人理解，有錯誤還望指正）環境：　　版本：python3 　　IDE：pycharm201

最簡單的網絡圖片的爬取 --Pyhon網絡爬蟲與信息獲取

文件 spa lose man spl roo () pen image 1、本次要爬取的圖片url http://www.nxl123.cn/static/imgs/php.jpg 2、代碼部分 import requestsimport osurl = "ht

HTML自定義滾動條（仿網易郵箱滾動條）轉載

基本上 fma 內容 scrollbar color http code %20 water 它是使用CSS中的偽元素來實現的，主要由以下三個來完成： 1. -webkit-scrollbar：定義滾動條的樣式，如長寬。 2. -webkit-scrollbar-thumb

python之爬蟲的入門05------實戰：爬取貝殼網（用re匹配需要的資料）

# 第二頁：https://hz.zu.ke.com/zufang/pg2 # 第一頁：https://hz.zu.ke.com/zufang/pg1 import urllib.request import random import re def user_ip(): ''

Python爬蟲入門教程 4-100 美空網未登入圖片爬取

簡介上一篇寫的時間有點長了，接下來繼續把美空網的爬蟲寫完，這套教程中編寫的爬蟲在實際的工作中可能並不能給你增加多少有價值的技術點，因為它只是一套入門的教程，老鳥你自動繞過就可以了，或者帶帶我也行。爬蟲分析首先，我們已經爬取到了N多的使用者個人主頁，我通過連結拼接獲取到了 www.moko.cc/

python爬蟲之雲片網國內簡訊介面爬取

安裝requests，lxml，openpyxl，pandas四個包。 requests爬取 lxml解析 panda轉換並儲存 openpyxl是讀寫excel檔案所用到的包程式碼奉上： import pandas as pandas import requests from lxm

HTML自定義滾動條（仿網易郵箱滾動條）

自定義滾動條在web前端非常火爆的今天，好的介面可以給人們很好的體驗。瀏覽器的滾動條總是千篇一律，那麼滾動條是否可以自定義呢？網上好多自定義滾動條通過CSS樣式來設定的，但是這種做法只有IE支援，那麼谷歌瀏覽器是否也可以自定義滾動條呢？前一段時間瀏覽網易郵箱的時候發現它上面的滾

知網摘要作者資訊爬取和搜狗微信、搜狗新聞的爬蟲

個人專案，只支援python3. 需要說明的是，本文中介紹的都是小規模資料的爬蟲（資料量<1G），大規模爬取需要會更復雜，本文不涉及這一塊。另外，程式碼細節就不過多說了，只將一個大概思路以及趟過的

Python3網路爬蟲：Scrapy入門實戰之爬取動態網頁圖片

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二 Scrapy相關方法介紹 1 搭建Scrapy專案 2 shell分析三網頁分析

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的內容。

Python爬蟲入門教程 10-100 圖蟲網多線程爬取

全局變量 app str tlist img exception 父類 json urn 寫在前面經歷了一頓劈裏啪啦的操作之後，終於我把博客寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模塊，有人問scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢

Python爬蟲教程：圖蟲網多執行緒爬取

我們這次也玩點以前沒寫過的，使用python中的queue，也就是佇列下面是我從別人那順來的一些解釋，基本爬蟲初期也就用到這麼多 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 1. 初始化： classQueue.Queue(maxsize)FIFO

python 爬蟲下載網易歌單歌曲

python 爬蟲下載網易歌單歌曲可以根據歌單 id 來下載歌單中的所有音樂，付費音樂除外可以自己輸入歌單 id 來進行單個歌單下載，也可以結合上一篇文章爬取網易雲音樂所有歌單資訊先取到所有的歌單資訊，在進行所有歌單中的歌曲下載爬

Python爬蟲練手小專案：爬取窮遊網酒店資訊

Python爬蟲練手小專案：爬取窮遊網酒店資訊 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 前言對於初學者而言，案例主要的是為了讓大家練手，明白其中如何這樣寫的思路，而不是拿著程式碼執行就完事了。基本環境配置系統

Python3爬蟲實踐--網易科技滾動新聞爬取

背景需求

需要爬取的新聞介面

需要爬取的資訊

實現程式碼

結果

總結

相關推薦