爬取基礎2

阿新 • • 發佈：2018-04-11

pre ptime detail odi etime 發布 int image 時間格式

1.取出一個新聞列表頁的全部新聞包裝成函數。

2.獲取總的新聞篇數，算出新聞總頁數。

3.獲取全部新聞列表頁的全部新聞詳情。

import requests
from bs4 import BeautifulSoup
from datetime import datetime
import re


# 獲取新聞點擊次數
def getNewsId(url):
    newsId = re.findall(r‘\_(.*).html‘, url)[0][-4:]
    clickUrl = ‘http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80‘.format(newsId)
    clickRes = requests.get(clickUrl)
    # 利用正則表達式獲取新聞點擊次數
    clickCount = int(re.search("hits‘\).html\(‘(.*)‘\);", clickRes.text).group(1))
    return clickCount


# 獲取新聞細節
def getNewsDetail(newsUrl):
    resd = requests.get(newsUrl)
    resd.encoding = ‘utf-8‘
    soupd = BeautifulSoup(resd.text, ‘html.parser‘)

    content = soupd.select(‘#content‘)[0].text
    info = soupd.select(‘.show-info‘)[0].text
    # 調用getNewsId()獲取點擊次數
    count = getNewsId(newsUrl)
    # 識別時間格式
    date = re.search(‘(\d{4}.\d{2}.\d{2}\s\d{2}.\d{2}.\d{2})‘, info).group(1)
    # 識別一個至三個數據
    if(info.find(‘作者：‘)>0):
        author = re.search(‘作者：((.{2,4}\s|.{2,4}、){1,3})‘, info).group(1)
    if(info.find(‘審核：‘)>0):
        check = re.search(‘審核：((.{2,4}\s){1,3})‘, info).group(1)
    if(info.find(‘來源：‘)>0):
        sources = re.search(‘來源：(.*)\s*攝|點‘, info).group(1)
    # 用datetime將時間字符串轉換為datetime類型
    dateTime = datetime.strptime(date, ‘%Y-%m-%d %H:%M:%S‘)
    # 利用format對字符串進行操作
    print(‘發布時間：{0}\n作者：{1}\n審核：{2}\n來源：{3}\n點擊次數：{4}‘.format(dateTime, author, check, sources, count))
    print(content)

# 獲取列表頁新聞
def getListPage(listUrl):
    res = requests.get(listUrl)
    res.encoding = ‘utf-8‘
    soup = BeautifulSoup(res.text, ‘html.parser‘)

    for new in soup.select(‘li‘):
        if len(new.select(‘.news-list-title‘)) > 0:
            title = new.select(‘.news-list-title‘)[0].text
            description = new.select(‘.news-list-description‘)[0].text
            newsUrl = new.select(‘a‘)[0][‘href‘]

            print(‘標題:{0}\n內容:{1}\n鏈接:{2}‘.format(title, description, newsUrl))
            # 調用getNewsDetail()獲取新聞詳情
            getNewsDetail(newsUrl)
            break

# 獲取新聞總頁數
def getListTotalNumber(firstUrl):
    res = requests.get(firstUrl)
    res.encoding = ‘utf-8‘
    soup = BeautifulSoup(res.text, ‘html.parser‘)
    listCount = int(soup.select(‘.a1‘)[0].text.rstrip(‘條‘)) // 10 + 1
    return listCount

firstUrl = ‘http://news.gzcc.cn/html/xiaoyuanxinwen/‘
getListPage(firstUrl)
# 獲取新聞總頁數
n=getListTotalNumber(firstUrl)

for i in range(2,n):
    listUrl= ‘http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html‘.format(i)
    getListPage(listUrl)

　　技術分享圖片

4.找一個自己感興趣的主題，進行數據爬取，並進行分詞分析。不能與其它同學雷同。

import requests
from bs4 import BeautifulSoup

# 獲取新聞細節
def getNewsDetail(newsUrl):
    resd = requests.get(newsUrl)
    resd.encoding = ‘utf-8‘
    soupd = BeautifulSoup(resd.text, ‘html.parser‘)
    content = soupd.select(‘.cont‘)[0].text.rsplit("復仇者聯盟2：奧創紀元下載地址:http://www.80smp4.net/mp4_3gp/26733/")[0]
    print(‘內容:{}‘.format(content))

# 獲取列表頁新聞
def getListPage(listUrl):
    res = requests.get(listUrl)
    res.encoding = ‘utf-8‘
    soup = BeautifulSoup(res.text, ‘html.parser‘)

    for new in soup.select(‘div‘):
        if len(new.select(‘.ph_u‘)) > 0:
            description = new.select(‘.title‘)[0].text.split()[0]
            newsUrl = new.select(‘a‘)[0][‘href‘]
            # print(‘標題:{0}\n內容:{1}\n鏈接:{2}‘.format(title, description, newsUrl))
            # 調用getNewsDetail()獲取新聞詳情
            print(‘片名:{0}\n連接:{1}‘.format(description,newsUrl))
            getNewsDetail(newsUrl)
            break

firstUrl = ‘http://www.80smp4.net/movie/‘
getListPage(firstUrl)

　　技術分享圖片

爬取基礎2

pre ptime detail odi etime 發布 int image 時間格式 1.取出一個新聞列表頁的全部新聞包裝成函數。 2.獲取總的新聞篇數，算出新聞總頁數。 3.獲取全部新聞列表頁的全部新聞詳情。 import requests from bs4

爬取基礎步驟（基礎篇）

接下來我以‘糗事百科’為例進行爬取。思路：一.建立一個類（命名方式最好是駝峰式） class QiuShiBaiKe　二.建立函式（用英語加下劃線的方式） 1.初始化必要引數，完成必要設定 def __init__(self,qiushibaike_name):

python爬蟲-基礎入門-爬取整個網站《2》

python爬蟲-基礎入門-爬取整個網站《2》描述：　　開場白已在《python爬蟲-基礎入門-爬取整個網站《1》》中描述過了，這裡不在描述，只附上 python3 的程式碼。 python3 指令碼程式碼： 1 #-*- coding: utf-8 -

爬蟲基礎-2-爬取招聘資訊

小生部落格：http://xsboke.blog.51cto.com -------謝謝您的參考，如有疑問，歡迎交流注意:BOSS應該是做了防爬蟲的功能，好像是如果頻繁訪問,就需要輸入一下驗證碼.為了節省時間，當前只爬取了熱門城市的python相關職位資訊

使用BeautifulSoup爬取“0daydown”站點的信息（2）——字符編碼問題解決

snippet sni 結束編碼錯誤 charset utf 教程作者 request 上篇中的程序實現了抓取0daydown最新的10頁信息。輸出是直接輸出到控制臺裏面。再次改進代碼時我準備把它們寫入到一個TXT文檔中。這是問題就出來了。最初我的代碼例如以

第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號

文章 odin data 模塊 webapi 頭信息 hone 微信 android 第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號封裝模塊 #!/usr/bin/env python # -*- coding: utf-8 -*- impo

零基礎掌握百度地圖興趣點獲取POI爬蟲（python語言爬取）（基礎篇）

region map 基礎輸入 filter put mark page -h 實現目的：爬取昆明市範圍內的全部中學數據，包括名稱、坐標。先進入基礎篇，本篇主要講原理方面，並實現步驟分解，為python代碼編寫打基礎。因為是0基礎開始，所以講得會比較詳細。如實現目的

python3網絡爬蟲（2.1）：爬取堆糖美女

pre 線程 span 需要 pic ring clas lin chrome 額，明明記得昨晚存了草稿箱，一覺醒來沒了，那就簡寫點（其實是具體怎麽解釋我也不太懂/xk，純屬個人理解，有錯誤還望指正）環境：　　版本：python3 　　IDE：pycharm201

爬蟲系列（2）-----python爬取CSDN博客首頁所有文章

成功 -name 保存 eas attr eve lan url att 對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天在整理代碼時，整理了一下之前自己學習爬蟲的一些代碼，今天上第2個簡單的例子，python爬取CSDN博客首頁所有

urllib基礎-利用網站結構爬取網頁-百度搜索

ont 獲取網頁不能 style 其中 baidu TP bsp 拼接　　有的時候爬取網頁，可以利用網站額結構特點爬取網頁　　在百度搜索框中輸入搜索內容，單擊搜索，瀏覽器會發送一個帶有參數的url請求。嘗試刪除其中的一些參數，只剩下wd這個參數。發現wd是搜索內容。這

Python基礎練習（二）筆趣看《伏天氏》全文章節爬取

平臺空行 ges 會有好的 clas 追加 ref 版本大家如果覺得有幫助的話，可以關註我的知乎https://www.zhihu.com/people/hdmi-blog/posts，裏面有寫了一些我學習爬蟲的練習~ 今天我們想要爬取的是筆趣看小說網上的網絡小說，並

爬蟲小項目！適合有基礎的！爬取葡萄酒評分！哪個階段和那種酒呢

紀錄片 pid atp 轉換 com 大小分享圖片評分屬於葡萄酒，可能對於小編來講不算陌生，但是也算陌生！畢竟這種酒還是離不開聚會啥的！葡萄酒的等級也是不一樣的！那種階段的人適合喝那種階段的酒，這個是有講究的！所以今天我們來走進葡萄酒的市場吧！接下來是爬取的數據是

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

python爬蟲-基礎入門-爬取整個網站《1》

python爬蟲-基礎入門-爬取整個網站《1》描述：　　使用環境：python2.7.15 ，開發工具：pycharm，現爬取一個網站頁面（http://www.baidu.com）所有資料。 python程式碼如下： 1 # -*- coding: utf-8 -*- 2 3 i

python爬蟲-基礎入門-爬取整個網站《3》

python爬蟲-基礎入門-爬取整個網站《3》描述：　　前兩章粗略的講述了python2、python3爬取整個網站，這章節簡單的記錄一下python2、python3的區別 python2.x 使用類庫：　　>> urllib 庫　　>> urlli

Python爬蟲實戰專案1 | 基礎爬蟲的實現（爬取100條百度百科詞條）

【基礎爬蟲篇】本篇講解一個比較簡單的Python爬蟲。這個爬蟲雖然簡單，但五臟俱全，大爬蟲有的模組這個基礎爬蟲都有，只不過大爬蟲做的更全面、多樣。 1.實現的功能：這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識：(1).Python語法；(2).Be

[Python] [爬蟲] 2.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——驗證模組

目錄 1.Intro 2.Source 1.Intro 檔名：authentication.py 模組名：驗證模組引用庫： urllib2 requests pymongo socket

python 爬取新浪網站 NBA球員最近2個賽季庫裡前20場資料

1. 分析新浪網站中球員資料的獲取方式(F12 開發者模式，除錯網頁)：一般網站儲存資料的方式分為2種：1. 靜態網頁儲存；2. 動態請求；對於靜態網頁儲存來說，就是開啟瀏覽器中檢視原始碼，就可以從原始碼中獲取所需要的資料；對於動態請求來說，採用F12的開發者模式中，才能從伺服器的

python爬蟲實踐——零基礎快速入門（二）爬取豆瓣電影

爬蟲又稱為網頁蜘蛛，是一種程式或指令碼。但重點在於，它能夠按照一定的規則，自動獲取網頁資訊。爬蟲的基本原理——通用框架 1.挑選種子URL； 2.講這些URL放入帶抓取的URL列隊； 3.取出帶抓取的URL，下載並存儲進已下載網頁庫中。此外，講這些URL放入帶抓取UR

python3 15行程式碼爬取煎蛋網大圖(原圖)--基礎逆向破解js-------------------玉米都督

如果您覺得我的文章對您有用,請您給我一個關注,您的每一個關注都是對我極大的支援,我也會極大的提高產出效率,To_share_code 做爬蟲基本功就是逆向js, ps: 其實沒必要關心js函式的內部細節，只要找到函式的輸入輸出點就可以了。萬變不離其宗，只要在輸入、輸出的地方下斷點，

爬取基礎2

相關推薦