爬取校園新聞首頁的新聞

阿新 • • 發佈：2018-04-02

att text mage port htm pos sele time 爬取

import requests
from bs4 import BeautifulSoup

url = ‘http://news.gzcc.cn/html/xiaoyuanxinwen/‘
res = requests.get(url)
res.encoding = ‘utf-8‘
soup = BeautifulSoup(res.text, ‘html.parser‘)
for news in soup.select(‘li‘):
    if len(news.select(‘.news-list-title‘)) > 0:
        title = news.select(‘.news-list-title 
‘)[0].text
        time = news.select(‘.news-list-info‘)[0].contents[0].text
        a = news.select(‘a‘)[0].attrs[‘href‘]
        print(a,title,time)
        break
res1 = requests.get(a)
res1.encoding = ‘utf-8‘
soup1 = BeautifulSoup(res1.text, ‘html.parser‘)
sp1 = soup1.select(‘#content‘)[0].text
info = soup1.select(‘ 
.show-info‘)[0].text
print(info)
dt = info.lstrip(‘發布時間：‘)[1:20]
print(dt)
ly = info.find(‘來源：‘)
if ly>0:
    s = info[info.find(‘來源：‘):].split()[0].lstrip(‘來源：‘)
print(s)
ly = info.find(‘攝影：‘)
if ly>0:
    s = info[info.find(‘攝影：‘):].split()[0].lstrip(‘攝影：‘)
print(s)

from datetime import datetime
str  
= dt
da = datetime.strptime(str,‘%Y-%m-%d %H:%M:%S‘)
now = datetime.now()
type(now)
print(now.strftime(‘%Y-%m-%d %H:%M:%S‘))

技術分享圖片

爬取校園新聞首頁的新聞

Golang核心程式設計(9)-使用net/http及goquery庫爬取CSDN首頁文章

文章目錄一、goquery庫的安裝二、goquery的使用三、爬取CSDN首頁文章 3.1、需求分析 3.2、分析當前頁面的html文件四、爬蟲完整程式

Python爬蟲爬取CSDND首頁的所有的文章

# -*- encoding: utf-8 -*- import re import urllib.request def function(): """Python爬蟲爬取CSDND首頁的所有的文章""" html="https://blog.csdn.n

Python3 爬蟲（三） -- 爬取豆瓣首頁圖片

序前面已經完成了簡單網頁以及偽裝瀏覽器的學習。下面，實現對豆瓣首頁所有圖片爬取程式，把圖片儲存到本地一個路徑下。首先，豆瓣首頁部分圖片展示這只是擷取的一部分。下面給出，整個爬蟲程式。爬蟲程式

[8]個人學習python：爬取豆瓣首頁所有圖片

程式碼如下：# -*- coding: utf-8 -* import urllib.request,socket,re,sys,os savepath=r'C:\\Users\\Administrator\\PycharmProjects\\untitled\\venv1\

python爬取豆瓣首頁熱門欄目詳細流程

記錄一下爬取豆瓣熱門專欄的經過，通過這篇文章，你能學會requests，HTMLParser，json的基本使用，以及爬取網頁內容的基本思路。使用模組　　1，獲取豆瓣首頁程式碼：首先我們需要訪問豆瓣頁面，獲取首頁的原始碼。這裡推薦使用第三方庫：requests，相比python內建的 urllib 模

爬取校園新聞首頁的新聞

att text mage port htm pos sele time 爬取 import requests from bs4 import BeautifulSoup url = ‘http://news.gzcc.cn/html/xiaoyuanxinwen/‘

爬取校園新聞首頁的新聞的詳情，使用正則表達式，函數抽離

嘗試 htm des script its etc 新聞 ttr sid 1. 用requests庫和BeautifulSoup庫，爬取校園新聞首頁新聞的標題、鏈接、正文、show-info。 2. 分析info字符串，獲取每篇新聞的發布時間，作者，來源，攝影等信息。 3.

爬取校園新聞列表

list 網頁 for 一個 get orm re.search 來源 desc 獲取單條新聞的#標題#鏈接#時間#來源#內容 #點擊次數，並包裝成一個函數。獲取一個新聞列表頁的所有新聞的上述詳情，並包裝成一個函數。獲取所有新聞列表頁的網址，調用上述函數。完成所有校

Python For 和 While 迴圈爬取不確定頁數的網頁！

第二種是不直觀顯示網頁總頁數，需要在後臺才可以檢視到，比如之前爬過的虎嗅網，文章見：私信菜鳥 007 獲取神祕大禮包！第三種是今天要說的，不知道具體有多少頁的網頁，比如豌豆莢：對於，前兩

爬取動態分頁數據案例

標題頁碼 [] use 當前 sap list style 內容需求：爬取東方財富證券http://kuaixun.eastmoney.com/ssgs.html的財經新聞數據1.爬取頁面中的標題和對應的內容：【標題】內容2.進行分頁操作，爬取當前頁面所有頁碼對應的

java爬取百度首頁源代碼

clas read 意思出現異常 nts java.net new 有意思 all 爬蟲感覺挺有意思的，寫一個最簡單的抓取百度首頁html代碼的程序。雖然簡單了一點，後期會加深的。 1 package test; 2 3 import java.io.B

python實現爬取30頁百度校園女神圖片！

dpi 分享圖片 ges pat path lis 校園 one sha 1、以下是源代碼import requestsimport osdef getManyPages(keyword,pages): params=[] for i in range(30,3

網站爬取-案例二：天貓爬取( 第一卷：首頁數據抓取)

img .com 我想提供商網站 col class scoller bubuko 說到網站數據的爬取，目前為止我見過最復雜的就是天貓了，現在我想對它進行整站的爬取我們先來看下天貓主頁的界面天貓頁面很明顯是動態頁面所以我們需要用selenium模塊首先

爬蟲系列（2）-----python爬取CSDN博客首頁所有文章

成功 -name 保存 eas attr eve lan url att 對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天在整理代碼時，整理了一下之前自己學習爬蟲的一些代碼，今天上第2個簡單的例子，python爬取CSDN博客首頁所有

【Python3 爬蟲】爬取博客園首頁所有文章

表達式技術標記 itl 1.0 headers wow64 ignore windows 首先，我們確定博客園首頁地址為：https://www.cnblogs.com/ 我們打開可以看到有各種各樣的文章在首頁，如下圖：我們以上圖標記的文章為例子吧！打開網頁源碼，搜

scrapy初探之爬取武sir首頁博客

scrapy一、爬蟲網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。二、scrapy框架 Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應

python爬取快手ios端首頁熱門視頻

ima main PE cati 找到 OS color AD span 最近快手這種小視頻app，特別的火，中午吃過午飯，閑來無聊，想搞下快手的短視頻，看能不能搞到。於是乎，打開了fiddler，開始準備抓

scrapy 試用爬取百度首頁

# -*- coding: utf-8 -*- import scrapy class BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['baidu.com'] start_urls = ['ht

PHP爬蟲-爬取百度貼吧首頁違規主題貼

因為是第一次寫，感覺有點冗餘。不過嘛，本文章主要面向不知道爬蟲為何物的小夥伴。o(∩_∩)o <?php $url='http://tieba.baidu.com/f?ie=utf-8&kw=php&fr=search'; // 地址 $html = file_ge

爬蟲爬取知乎登陸後首頁

package zhihu; import java.io.IOException; import java.util.HashMap; import java.util.Map; import org.jsoup.Connection; import org.

爬取校園新聞首頁的新聞

相關推薦