STITP專案記錄Period3

阿新 • • 發佈：2018-11-03

這段時間主要寫出了針對CNN News China的爬蟲，可以爬下這個網站關於中國報道的標題，時間，url，以及正文。

import requests
from requests.exceptions import RequestException
import re
import time
from bs4 import BeautifulSoup
import lxml
import json


def get_one_page(url):
	try:
		headers = {
			'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36' 

		}
		response = requests.get(url, headers=headers)
		if response.status_code == 200:
			return response.text
		print('url:' + url + '\nWarning : status_code is not 200!')
		return None
	except RequestException:
		print('url:' + url + '\nWarning : we get an exception!')
		print(str(RequestException.message) 
)
		return None


def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')


def get_content(url, title):
	if str(url)[0] != 'h':
		url = 'http://edition.cnn.com' + url
	html = get_one_page(url)
	soup = BeautifulSoup( 
html, 'html.parser')
	# print(soup.prettify())
	date = soup.find(name='p', attrs={'class':'update-time'}).get_text()
	containers = soup.find_all(attrs={'class':'zn-body__paragraph speakable'})
	content = ""
	for container in containers:
		content = content + container.get_text()
	print(url + ' done!')
	return date, content

def parse_section_1(section_1):
	div = section_1.find(attrs={'class':'zn__containers'})
	area_1 = div.find(attrs={'class':'column zn__column--idx-0'})
	area_2 = div.find(attrs={'class':'column zn__column--idx-1'})
	title = area_1.find(attrs={'class':'cd__headline-text'}).string
	url = area_1.find(name='a').attrs['href']
	date, content = get_content(url, title)
	opinion = {'type':'opoinion', 'title':title, 'url':url, 'date':date, 'content':content}
	write_to_file(opinion)
	for article in area_2.find_all(name='article'):
		url = article['data-vr-contentbox']
		title = article.find(attrs={'class':'cd__headline-text'}).string
		date, content = get_content(url, title)
		top_stories = {'type':'top stories', 'title':title, 'url':url, 'date':date, 'content':content}
		write_to_file(top_stories)
	# print('parse_section_1 done!')


def parse_section_2(section_2):
	div = section_2.find(attrs={'class':'zn__containers'})
	area_1 = div.find(attrs={'class':'column zn__column--idx-0'})
	area_2 = div.find(attrs={'class':'column zn__column--idx-1'})
	for article in area_1.find_all(name='article'):
		url = article['data-vr-contentbox']
		title = article.find(attrs={'class':'cd__headline-text'}).string
		date, content = get_content(url, title)
		news = {'type':'news and buzz', 'title':title, 'url':url, 'date':date, 'content':content}
		write_to_file(news)
	title = area_2.find(name='span', attrs={'class':'cd__headline-text'}).string
	url = area_2.find(name='a').attrs['href']
	date, content = get_content(url, title)
	in_depth = {'type':'in depth', 'title':title, 'url':url, 'date':date, 'content':content}
	write_to_file(in_depth)
	# print('parse_section_2 done!')

def main():
	url = 'https://edition.cnn.com/china'
	html = get_one_page(url)
	soup = BeautifulSoup(html, 'html.parser')
	# print(soup.prettify())
	sections = soup.find_all(name='section')
	parse_section_1(sections[0])
	parse_section_2(sections[1])


if __name__ == '__main__':
	main()

可惜的是，這份程式碼依然存在一些問題，就是不能爬取下單篇報道的所有正文。
只怪它的html程式碼太過複雜。。。
不水了，繼續改。

STITP專案記錄Period3

這段時間主要寫出了針對CNN News China的爬蟲，可以爬下這個網站關於中國報道的標題，時間，url，以及正文。 import requests from requests.exceptions import RequestException import re import ti

STITP專案記錄Period2

這個星期二去見了導師，詳細瞭解了一下專案的一些細節。今天主要完成爬蟲的編寫。前段時間學過一段時間爬蟲，今天要重新去翻看這本崔慶才的《Python3 網路爬蟲開發實戰》。專案首先要求我們爬取國外主流新聞網站關於中國的報道。下面是我整理出的國外主流新聞網站。

品優購專案記錄：day18

2018年08月01日 23:03:25 GodBbb 閱讀數：349更多個人分類：個人成長實戰專案品優購微信支付今日目標：（1）掌握二維碼生成外掛 qrious 的使用（2）理解微信支付開發的整體思路（3）呼叫微信支付介面（統一下單）生成支付二維碼（4）

品優購專案記錄：day19

2018年08月19日 12:00:36 GodBbb 閱讀數：176更多個人分類：個人成長實戰專案品優購今日目標：（1）理解秒殺實現思路（2）實現秒殺頻道首頁功能（3）實現秒殺商品詳細頁功能（4）實現秒殺下單功能（5）實現秒殺支付功能目錄

專案記錄日誌類

<?php class Logger { private static function createdir($dir){ //檢查目錄或檔案是否存在 if(file_exists($dir))return true; //把\替換為/ $dir = str_r

快速上手SpringBoot需要一些腳手架以及其他開源專案記錄

renren-fast 是一個輕量級的Spring Boot2.0快速開發平臺，其設計目標是開發迅速、學習簡單、輕量級、易擴充套件；使用Spring Boot、Shiro、MyBatis、Redis、Bootstrap、Vue2.x等框架，包含：管理員列表、角色管理、選單管理、定時任

專案記錄：MPEG-DASH整理3

專案記錄：MPEG-DASH整理3 該專案的目標是基於3DOF的視訊內容實現一個6DOF的播放器. 觀看者戴著VR頭顯,在位置發生運動之後,播放器能夠根據其位置的不同,下載不同位置的碼流,進行解碼渲染.簡單地實現6DOF. 伺服器端: 伺服

專案記錄：MPEG-DASH整理2

專案記錄：MPEG-DASH整理2 這一篇主要是介紹DASH封裝（如何生成DASH媒體內容）以及關於DASh實現的一些軟體與程式庫，重點會看 libdash DASH媒體內容的生成 DASH（Dynamic Adaptive Streaming

專案記錄（dubbox）

專案的第一天，瞭解了一下整體的框架邏輯。我們目前從事的專案為SOA service-Oriented Architecture【面向服務的系統構架】，主要思想為前後端分離。前端為html靜態頁面，controller控制層；後端為service服務層，資料訪問層

STITP專案技術路線解析

之前的專案申報書看著很暈，這裡我把裡面的乾料提出來，明確一下下個階段要做的事。基於觀點挖掘的中國國家形象分析研究研究目標本課題主要研究分析中國國家形象，利用自動化和智慧化的方法從大量的分散的資訊源中針對具體的分析目標進行主觀資訊抓取計算及分析，從而實現對中

STITP專案筆記1

之前的國慶假期什麼也沒幹，感覺這樣下去不行啊。覺得以前的專案申報書看的有點暈，所以這裡把裡面的乾料提出來。當然，這裡摘出來的都是我關注的部分。一些更具體的技術摘要我沒有基於觀點挖掘的中國國家形象分析研究研究目標主要研究分析中國國家形象，利用自動化和智慧化的方法

Docker中部署Django專案記錄

有很多構建方式,記錄下本次使用docker部署的過程,日後參考 1.構建docker環境安裝docker,略埠對映外部82到80 docker pull python run -itd -p 82:80 --name YYST 6bf7a4fa2d45 docker e

專案記錄: Exoplayer V2 dynamic-playlist使用

專案記錄: Exoplayer V2開發 dynamic-playlist使用與修改建立 ConcatenatingMediaSource 在 Exoplayer V2 中的 initializePlayer() : mediaSource = new

專案記錄: Dynamic playlists with ExoPlayer

專案記錄: Dynamic playlists with ExoPlayer 翻譯一下 Dynamic playlists with ExoPlayer 2017.08.25 介紹現在支援 Exoplayer media playlists . 使用者可以在播放器

專案記錄: Exoplayer備忘錄1

專案記錄: Exoplayer備忘錄1 一體式頭盔全景播放器開發是Unity-Android協作完成的. Android端採用的Google的Exoplayer作為框架. 重點通過學習了以下幾篇部落格,對Exoplayer有了一個初步的認識.做一下記錄 1.

[SpringBoot] - 上線一份專案記錄

首先在伺服器上執行war包. (新建專案) 其後,選擇資料庫,因為之前感覺mysql比較難安裝,這次就再試一次,之前的PostgreSQL沒有問題. 將原有檔案進行復制,排除導包錯誤. 首先測試郵件傳送是否有效. 將從weixin4j開源專案中學到的配置方法進行TOD

idea 建立 maven web專案記錄

1、建立maven 型別專案中途可能稍微卡頓下，請稍微耐心一會。結束，檔案結構如下 2、在main資料夾中新增java資料夾，用於儲存java程式碼 3、開啟projectstructure (1)、在project settings-modules 中，選擇

ssm專案記錄

SSM整合一：建立crm資料庫二：新增jar包三：配置檔案： 1：src下建立mybatis資料夾（可選），在其間建立sqlMapConfig.xml檔案 2：建立applicationContext-dao.xml 3：

專案記錄--光場資料解析

關於光場相機.lfr 檔案處理說明，以免忘記。由於lytro 公司不提供具體的光場相機原始檔解碼方法，所以在官網上很難找到相應的解碼LFR檔案的內容。但是還是有很多大牛樂於奉獻，不僅將程式碼開源，並且做成了好用的matlab 工具箱的形式，方便我們這些菜鳥進行研究。這裡

專案記錄31--unity 簡單分析LuaFramework_UGUI

抽空看看luaFramework_UGUI框架，對新人來說PurMVC確實是塊硬骨頭，對它的瞭解還是在一年前從coco轉到unity時候尋找一個合適unity框架，用了幾天硬啃才搞定，但是後來還是直接放棄直接使用，畢竟PurMvc屬於超強解耦，裡面的事件跳轉個人

STITP專案記錄Period3

相關推薦