【作業】爬蟲所有校園新聞

阿新 • • 發佈：2017-10-12

時間類其中網址 model Coding ebs [0 earch span

1、完成所有校園新聞的爬蟲

（1）獲取單條新聞的#標題#鏈接#時間#來源#內容 #點擊次數，並包裝成一個函數。

（2）獲取一個新聞列表頁的所有新聞的上述詳情，並包裝成一個函數。

（3）獲取所有新聞列表頁的網址，調用上述函數。

（4）完成所有校園新聞的爬取工作。

 1 #廣州商學院新聞爬蟲
 2 import requests
 3 import re
 4 from bs4 import BeautifulSoup
 5 from datetime import datetime
 6 
 7 webs = "http://news.gzcc.cn/html/xiaoyuanxinwen/"
 8 res = requests.get(webs)
 
 9 res.encoding = ‘utf-8‘  #編碼轉換，避免中文亂碼輸出
10 soup = BeautifulSoup(res.text,"html.parser")  #html.parser是指定解析器
11 
12 #函數功能：獲取網頁的頁數
13 def getpage():
14     lists = int(soup.select(‘.a1‘)[0].text.rstrip("條")) #獲取新聞的總條數
15     page = lists//10+1  #計算獲取新聞的頁數，每頁新聞有10條記錄
16     return page
17 
18 #函數功能：輸出新聞的詳細內容 

19 def getdetail(url_detail):
20     resd =requests.get(url_detail)
21     resd.encoding = ‘utf-8‘
22     soupd = BeautifulSoup(resd.text,‘html.parser‘)
23     return (soupd.select(‘.show-content‘)[0].text)
24 
25 #函數功能：輸出新聞的時間，類型為datetime
26 def gettime(url_time):
27     resd = requests.get(url_time)
 
28     resd.encoding = ‘utf-8‘
29     soupd = BeautifulSoup(resd.text,‘html.parser‘)
30     tx1 = soupd.select(‘.show-info‘)[0].text
31     tx2 = "{0:.24}".format(tx1[5:24])
32     time1 = datetime.strptime(tx2,‘%Y-%m-%d %H:%M:%S‘) #把字符串類型轉換成時間類型
33     return time1
34 
35 #函數功能：輸出新聞的點擊次數，類型為int
36 def getclick(url_click):
37     id = re.search(‘_(.*).html‘,url_click).group(1).split("/")[1]
38     #用正則表達式進行搜索匹配，並返回第一次匹配成功的結果元組，最後用/將元組分開進行取值
39     url_num = (‘http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80‘.format(id))
40     #將獲取到的網頁id值填入該頁面
41     click = int(requests.get(url_num).text.split(‘.‘)[-1].lstrip(".html(‘").rstrip("‘);"))
42     #獲取頁面內容後用點號進行元組內容分隔，然後去掉前後的一些匹配內容後取得點擊數的值
43     return click
44 
45 #函數功能：輸出新聞的相關信息
46 def shownews(url):
47     res = requests.get(url)
48     res.encoding = ‘utf-8‘
49     soup = BeautifulSoup(res.text,‘html.parser‘)    
50     for news in soup.select(‘li‘):
51         if len(news.select(‘.news-list-title‘))>0:
52         #如果存在新聞列表標題的話（有內容則會大於0）
53             title = news.select(‘.news-list-title‘)[0].contents[0]
54             #輸出標題的內容
55             sorce = news.select(‘.news-list-info‘)[0].contents[1].text
56             #用列表列出子標簽後取出第二個元素的內容（來源）
57             newsurl = news.select(‘a‘)[0][‘href‘]
58             #輸出a標簽中的href內容（即網址）                                        
59             time=news.select(‘.news-list-info‘)[0].span.text
60             #用列表列出子標簽後取出第一個元素的內容（時間）                    
61             detail = getdetail(newsurl)
62             #輸出詳細內容            
63             clicknum = getclick(newsurl)
64             #輸出點擊次數           
65             print(title,‘\n‘,‘發布時間：‘,time,‘來源：‘,sorce,‘點擊次數：‘,clicknum,‘\n‘,‘網站鏈接：‘,newsurl,‘\n‘,detail)
66             #輸出新聞標題、時間、來源、點擊次數、鏈接和內容
67             
68 shownews(webs)    #輸出新聞的第一頁
69 for i in range(2,getpage()+1):    #循環輸出往後的頁
70     url_nextnew = (‘http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html‘.format(i))
71     shownews(url_nextnew)

（由於內容過多，只展示前兩頁的標題等內容列表和其中一個新聞的完整信息）

技術分享

2、完成自己所選其他主題相應數據的爬取工作。

【作業】爬蟲所有校園新聞

時間類其中網址 model Coding ebs [0 earch span 1、完成所有校園新聞的爬蟲（1）獲取單條新聞的#標題#鏈接#時間#來源#內容 #點擊次數，並包裝成一個函數。（2）獲取一個新聞列表頁的所有新聞的上述詳情，並包裝成一個函數。（3）獲取所有

【網易】【作業】程序設計入門—C語言翁愷第二周

rate span asio tin bar ase read con hab #include<stdio.h> int main() { int a=0,b=0; scanf("%d",&a); if(a>=800)

【Python】爬蟲與反爬蟲大戰

公司學校爬取 nbsp 識別防止 toc 壓力自動爬蟲與發爬蟲的廝殺，一方為了拿到數據，一方為了防止爬蟲拿到數據，誰是最後的贏家？重新理解爬蟲中的一些概念爬蟲:自動獲取網站數據的程序反爬蟲：使用技術手段防止爬蟲程序爬取數據誤傷：反爬蟲技術將普通用戶識別為爬蟲，

【網易】【作業】程序設計入門—C語言翁愷第五周

完數字符啊啊啊垃圾 sys class -c system logs #include<stdio.h> int sushume(x) { int i=2,ret=0; for(i=2;x%i!=0;i++){;} //pri

【作業】條件、循環、函數定義、字符串操作練習

同心圓 print com alt while imp val orm format 一、註意標準庫的兩種導入與使用方式，建議大家采用<庫名>.<函數名>的方式。二、對前面的代碼進行優化，用for,while,if,def實現： 1、用循環畫五角星

【Python】爬蟲-Scrapy

組件廣泛 quest edi 支持聯網 sched 取出 strong 【Scrapy】　　Python開發的一個快速,高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。　　Scrapy用途廣泛，可以用於數據挖掘、監測和自動化測試。　

【作業】暴走可視化_簡單多媒體2.0

方法 cfile XA 本地緩存 -m mem string ref 是否預覽　　　GitHub多媒體播放器2.0 　　最終效果：　　　　初始界面：　　　　　　　　PlayOnline：（網頁錯誤時提示url無效）　　　　　　　　Download：（有下載完成

【作業】用棧模擬dfs

模擬 clu AD string crt code warnings style cin 題意：一個迷宮，起點到終點的路徑，不用遞歸。題解： #define _CRT_SECURE_NO_WARNINGS #include<stdio.h> #include

Python編程：從入門到實踐——【作業】——第十一章（測試代碼）

stc 增加收集得到 width .com ast 接受 ted 第十一章 11-1 城市和國家：編寫一個函數，它接受兩個形參：一個城市名和一個國家名。這個函數返回一個格式為City, Country 的字符串，如Santiago, Chile 。將這個函

【Python】爬蟲-1

css encode HA res htm 引用 pre 響應 con #練習1：獲取搜狐網頁上所有的URL並且把與籃球有關的內容篩選出來 #算法： #1、獲取搜狐網站所有內容 #2、判斷哪些是鏈接，獲取URL格式有效的鏈接 #3、獲取每個有效URL網頁的內容 #4、判斷

Python編程：從入門到實踐——【作業】——第十四章（記分）

wid ont elif pac rom ext splay 添加能夠第十四章 14-1 按P開始新遊戲：鑒於遊戲《外星人入侵》使用鍵盤來控制飛船，最好讓玩家也能夠通過按鍵來開始遊戲。請添加讓玩家在按P時開始遊戲的代碼。也許這樣做會有所幫助：將check_

【作業】神奇的代碼，包裝類Integre，100==100，129！=129

man gets virtual 緩存 ima time esp ret numbers 1 public class StrangeIntegerBehavior 2 { 3 public static void main(String[] args)

【作業】神奇的程式碼，包裝類Integre，100==100，129！=129

1 public class StrangeIntegerBehavior 2 { 3 public static void main(String[] args) 4 { 5 Integer i1=100; 6 Integer j1=10

【轉】爬蟲的一般方法、非同步、併發與框架scrapy的效率比較 Python爬蟲的N種姿勢

該文非原創文字，文字轉載至 jclian91 連結：https://www.cnblogs.com/jclian91/p/9799697.html Python爬蟲的N種姿勢

【pykafka】爬蟲篇：python使用python連線kafka介紹（四）

本人菜雞，最近還更新python的爬蟲系列，有什麼錯誤，還望大家批評指出！該系列暫時總共有4篇文章，連線如下：【python】爬蟲篇：python連線postgresql（一）：https://blog.csdn.net/lsr40/article/details/83311860

【python】爬蟲篇：python使用psycopg2批量插入資料（三）

本人菜雞，有什麼錯誤，還望大家批評指出，最近在更新python的爬蟲系列，○( ＾皿＾)っHiahiahia… 該系列暫時總共有3篇文章，連線如下【python】爬蟲篇：python連線postgresql（一）：https://blog.csdn.net/lsr40/article/de

【python】爬蟲篇：python對於html頁面的解析（二）

我，菜雞，有什麼錯誤，還望大家批評指出！！前言：根據自己寫的上一篇文章，我繼續更第二部分的內容，詳情請點選如下連結【python】爬蟲篇：python連線postgresql（一）：https://blog.csdn.net/lsr40/article/details/833118

【python】爬蟲篇：python連線postgresql（一）

本文記錄一下最近在做的事情，會把思考過程和解決問題的方案寫出來。當然，由於本人技術有限，所以可能並不是最好的方案，還請大家見諒！（黑貓白貓只要抓到老鼠，不就是好喵？~）前言：事情是這樣的，有一些文章，我要根據文章內容做分類，具體怎麼分我會單獨開一篇文章來講這件事情，這篇文章的重點不是分類

【1】爬蟲概述

1. 目錄清單爬蟲簡介通用爬蟲和聚焦爬蟲網路請求那些事兒網路資料抓包分析 2. 章節內容 2.1.爬蟲簡介在各行各業如火如荼快速發展的今天，市場是決定一家公司是否可持續發展最重要的一個衡量指標，市場的定位和發展核心是對行業資料的分析，對於資料的分析必須進行大量資料的統計

【作業】演算法第4章作業

1. 你對貪心演算法的理解：我認為貪心演算法正如其名，在對問題求解時，每一步都只考慮到當前情況下的最好選擇，而非從整體上最優考慮。 2. 請說明汽車加油問題的貪心選擇性質：由於需要加油的次數最少，需要汽車每加一次油就跑最遠的路，如果剩下的油量已經不足以到達下個站點再選擇加油。 3.&nb

【作業】爬蟲所有校園新聞

相關推薦