數據化結構與保存

阿新 • • 發佈：2018-04-12

點擊 AR title ews page fin lis ttr brush

import requests
from  bs4 import  BeautifulSoup
from datetime import datetime
import re
import pandas

#獲取點擊次數
def getClickCount(newsUrl):
    newsId = re.findall(‘\_(.*).html‘, newsUrl)[0].split(‘/‘)[1]
    clickUrl = ‘http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80‘.format(newsId)
    clickStr = requests.get(clickUrl).text
    count = int(re.search("hits‘\).html\(‘(.*)‘\);",clickStr).group(1))
    return count

# def writeNewsContent(content):
#     f = open(‘getNewsDetail.txt‘,‘a‘,encoding=‘utf-8‘)
#     f.write(content)
#     f.close()


# 獲取新聞詳情
def getNewDetail(url):
    resd = requests.get(url)
    resd.encoding = ‘utf-8‘
    soupd = BeautifulSoup(resd.text, ‘html.parser‘)

    news = {}
    news[‘title‘] = soupd.select(‘.show-title‘)[0].text
    info = soupd.select(‘.show-info‘)[0].text

    news[‘dt‘] = datetime.strptime(info.lstrip(‘發布時間:‘)[0:19], ‘%Y-%m-%d %H:%M:%S‘)

    if info.find(‘來源：‘) > 0:
        news[‘source‘] = info[info.find(‘來源：‘):].split()[0].lstrip(‘來源：‘)
    else:
        news[‘source‘] = ‘none‘
    # if info.find(‘作者：‘) > 0:
    #     author = info[info.find(‘作者：‘):].split()[0].lstrip(‘作者：‘)
    # else:
    #     author = ‘none‘
    news[‘clickCount‘] = getClickCount(url)
    return news

def getListPage(listPageUrl):
    res = requests.get(listPageUrl)
    res.encoding = ‘utf-8‘
    soup = BeautifulSoup(res.text, ‘html.parser‘)
    newsList = []
    for news in soup.select(‘li‘):
        if len(news.select(‘.news-list-title‘)) > 0:
            # 獲取新聞模塊鏈接
            a = news.a.attrs[‘href‘]
            # 調用函數獲取新聞正文
            newsList.append(getNewDetail(a))
    return newsList




# 首頁列表新聞
newsTotal = []
firstPageUrl = ‘http://news.gzcc.cn/html/xiaoyuanxinwen/‘
newsTotal.extend(getListPage(firstPageUrl))


#計算總頁數
def getPageNum():
    resn = requests.get(‘http://news.gzcc.cn/html/xiaoyuanxinwen/‘)
    resn.encoding = ‘utf-8‘
    soupn = BeautifulSoup(resn.text, ‘html.parser‘)
    n = int(soupn.select(‘.a1‘)[0].text.rstrip(‘條‘))
    return (n // 10 + 1)

n = getPageNum()
for i in range(n,n+1):
    pageUrl = ‘http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html‘.format(i)
    newsTotal.extend(getListPage(pageUrl))
    # print(newsTotal)

df = pandas.DataFrame(newsTotal)
df.to_excel(‘gzccnews.xlsx‘)

#提取包含點擊次數、標題、來源的前6行數據
print(df.head(6))
#提取‘學校綜合辦’發布的，‘點擊次數’超過3000的新聞。
print(df[(df[‘clickCount‘]>3000)&(df[‘source‘]==‘學校綜合辦‘)])
#提取‘國際學院‘和‘學生工作處‘發布的全部新聞。
sour = [‘國際學院‘,‘學生工作處‘]
print(df[df[‘source‘].isin(sour)])

數據化結構與保存

點擊 AR title ews page fin lis ttr brush import requests from bs4 import BeautifulSoup from datetime import datetime import re import pa

信息技術手冊可視化進度報告基於BeautifulSoup框架的python3爬取數據並連接保存到MySQL數據庫

解釋 return oot 進度 mysql recursive div == lec 老師給我們提供了一個word文檔，裏面是一份信息行業熱詞解釋手冊，要求我們把裏面的文字存進數據庫裏面，然後在前臺展示出來。首先面臨的問題是怎麽把數據導進MySQL數據庫，大家都有自己

查詢一個月最後一天的總用戶數，數據庫中沒有保存最好一天的數據，就查詢本月數據庫已存有的最後一天的數據

數據庫 ont har rom to_char popu lec 最大 track select total_user from a_user_no where date_time=(select max(date_time) from a_user_no whe

第九篇數據表設計和保存item到json文件

初始 self pycha cti ensure comment 項目 div init 上節說到Pipeline會攔截item，根據設置的優先級，item會依次經過這些Pipeline，所以可以通過Pipeline來保存文件到json、數據庫等等。下面是自定義json

【幹貨】Linux內存數據的獲取與轉存直搗密碼

數據結構就是工具 ima mem 註意錯誤所有密碼知識源：Unit 2: Linux/Unix Acquisition 2.1 Linux/Unix Acquistion Memory Acquisition 中的實驗demo部分小白註意，這是網絡安全RIT

數據結構化與保存

數據結構點擊 head model odin pan exc return source 1.結構化：單條新聞的詳情字典：news 一個列表頁所有單條新聞匯總列表：newsls.append(news) 所有列表頁的所有新聞匯總列表：newstotal.extend(

Spark學習筆記4：數據讀取與保存

讀取數據 chapter byte hadoop tar .lib 文件中 api sequence Spark對很多種文件格式的讀取和保存方式都很簡單。Spark會根據文件擴展名選擇對應的處理方式。 Spark支持的一些常見文件格式如下：　1、文本文件　　　使用文件

非結構化數據與結構化數據提取----XPath與lxml類庫

html ext sce .html 文件系統結構化數據繼續 http encoding 什麽是XML XML 指可擴展標記語言（EXtensible Markup Language） XML 是一種標記語言，很類似 HTML XML 的設計宗旨是傳輸數據，而非顯示數

Docker最全教程——數據庫容器化之持久保存數據（十一）

sql 增加通過 cli sel inf 遠程支持 aaa 原文:Docker最全教程——數據庫容器化之持久保存數據（十一）上一節我們講述了SQL Server容器化實踐（註意，SQL Server現在也支持跨平臺），本節將講述如何持久保存數據，並且接下來將逐步講解其他

cache數據庫之表的存儲結構

pretty wid data location 圖片 rip art tracking 通過 1.我們已經建了一個person類，接下來就是表的存儲結構 2.打開Inspector,先輸入rowid名字為p_RowID,選class->Stor

Hive數據類型與文件存儲格式

文件格式 alt dfs apple union pos tro map 內部 Hive數據類型基礎數據類型： TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIM

python實現數據爬取-清洗-持久化存儲-數據平臺可視化

爬蟲 python 數據分析數據清理數據挖掘基於python對淘寶模特個人信息進行篩選爬取，數據清洗，持久化寫入mysql數據庫.使用django對數據庫中的數據信息篩選並生成可視化報表進行分析。數據爬取，篩選，存庫：# -*- coding:utf-8 -*- import

NoSQL數據庫：Redis內存使用優化與存儲

一行名稱大小所有 key 多少計算包括最終 Redis常用數據類型　　Redis最為常用的數據類型主要有以下五種：　　●String 　　●Hash 　　●List 　　●Set 　　●Sorted set 　　在具體描述這幾種數據類型之前，我們先通過一張圖

我的第一個python web開發框架（4）——數據庫結構設計與創建

數據結構描述分析器設置一個由於 logs 記錄開發框架　　小白做好前端html設計後，馬上開始進入數據庫結構設計步驟。　　　　在開始之前，小白回憶了一下老大在公司裏培訓時講過的數據庫設計解說：　　對於初學者來說，很多拿到原型時不知道怎麽設計數據表結

ASP.NET沒有魔法——ASP.NET MVC 與數據庫之EF實體類與數據庫結構

類之間的關系 context 模型 rst 例子 style 方法 eid 一個　　大家都知道在關系型數據庫中每張表的每個字段都會有自己的屬性，如：數據類型、長度、是否為空、主外鍵、索引以及表與表之間的關系。但對於C#編寫的類來說，它的屬性只有一個數據類型和類與類之間的關

Python的數據類型與數據結構

out 一是增加是否 bar 元素如果 python代碼 .so 對Python的數據類型與數據結構進行的復習，基本的數據類型與數據結構都已經概況出了。大家可以參考學習。如有有錯誤的地方，希望留言告訴我。數據類型 Python 數據主要分為：整數型；數字的整數

Part5 數據的共享與保護 5.6多文件結構和預編譯命令

靜態數據成員其它 pac object c void 使用內聯組合 getx C++程序的一般組織結構：　　1 一個工程可以劃分為多個源文件：　　　　類聲明文件（.h文件）　　　　類實現文件（.cpp文件）　　　　類的使用文件（main()所在的.cpp

數據算法與結構

oot 冒泡使用 ali 位置 runtime 上界其它分析算法 http://dongxicheng.org/structure/structure-algorithm-summary/ https://www.cnblogs.com/zhuzhenwei918/p

表單中用戶輸入"&lt"等轉義字符，保存後數據庫是原文保存的，但是查看的時候顯示的是"<"，如何是的<字符在網頁原樣顯示出來。

php tex gpo image 輸入 text 字符 replace bsp 其實方法也很簡單，替換&為&就行了~ 演示如下 <?php $content="<!DOCTYPE html> <html&g

SQL 數據庫結構化查詢語言

sql 數據庫對象控制語句許可結構數據完整性 ora sqlserve C# 1、數據庫常見數據庫 MySQL：開源免費的數據庫，小型的數據庫。 Oracle：收費的大型數據庫，Oracle 公司的產品 DB2：IBM 公司收費的數據庫，常應用在銀行系統中

數據化結構與保存

相關推薦