收集資料

阿新 • • 發佈：2018-12-01

1、Web資料抓取

使用Beautiful Soup來提取每個HTML檔案。

建立一個空列表df_list，並附加字典。
通過rt_html資料夾中每個電影的Rotten Tomatoes HTML檔案迴圈播放。
開啟每個HTML檔案，並將其傳達到一個名為file的檔案控制代碼中。
使用pd.DataFrame()將df_list轉換為名為df的DataFrame.

from bs4 import BeautifulSoup
import os
import pandas as pd

df_list = []
folder_name = 
 'rt_html'
for movie_html in os.listdir(folder_name):
	with open(os.path.join(folder_name, movie_html)) as file:
		soup = BeautifulSoup(file, 'lxml')
		title = soup.find('title').contents[0][:-len(' - Rotten Tomatoes')]
		audience_score = soup.find('div', class_='audience-score master').find('span'). 
contents[0][:-1]
		num_audience_ratings = soup.find('div', class_='audience-info hidden-xs superPageFontColor')
		num_audience_ratings = num_audience_ratings.find_all('div')[1].contents[2].strip().replace(',', '')
		df_list.append({'title': title,
						'audience_score': int(audience_score),
						'number_of_audience_ratings' 
: int(num_audience_ratings)})
df = pd.DataFrame(df_list, columns=['title', 'audience_score', 'number_of_audience_ratings'])

2、從網際網路下載檔案

import requests
import os

folder_name = 'XXX'              #儲存檔案的資料夾名稱
if not os.path.exists(folder_name):
	os.makedirs(folder_name)

url = '…'
response = requests.get(url)

with open(os.path.join(folder_name, url.split('/')[-1], mode='wb') as file:
	file.write(response.content)

3、使用glob開啟文字檔案

import glob
import pandas as pd

df_list = []
for ebert_review in glob.glob('ebert_reviews/*.txt'):
	with open(ebert_review, encoding='utf-8') as file:
		title = file.readline()[:-1]           #影評的第1行為標題（去掉最後的換行符）
		review_url = file.readline()[:-1]        #影評的第2行為影評連結（去掉最後的換行符）
		review_text = file.read()          #影評的第3行以後為影評內容
		df_list.append({'title': title,
						'review_url': review_url,
						'review_text': review_text})

df = pd.DataFrame(df_list, columns = ['title', 'review_url', 'review_text'])

4、查詢API（wptools庫）

對於MediaWiki，Python中最新和可讀的庫是wptools。下面是wptools使用ET 維基百科頁面的示例：

如果要獲取一個 $\color{red}{page}$ 物件：

page = wptools.page(‘E.T._the_Extra_Terrestrial’)

要獲取所有的資料，用.get()方法：

page = wptools.page(‘E.T._the_Extra_Terrestrial’).get()

或已經將頁面物件賦值給 $\color{red}{page}$ 了，再獲取其資料：

page.get()

訪問 $\color{red}{page}$ 的屬性，用.data()方法。例如要獲取頁面上的影象資料列表:

page.data[‘image’]

5、JSON技能

訪問JSON檔案就像訪問Python語言下的字典和列表一樣，因為JSON物件被解釋為字典，而JSON陣列被解釋為列表。

（1）JSON陣列

要訪問圖片特性（它是一個JSON陣列）的第一個圖片：

page.data[‘image’][0]

（2）JSON物件

訪問infobox特性（它是個JSON物件）中的director鍵：

page.data[‘infobox’][‘director’]

6、用資料庫和SQL收集資料

連線python中的資料庫。使用SQLAIchemy連線到SQLite資料庫。
將pandas DataFrame裡的資料儲存至所連線的資料庫中。使用pandas的.to_sql方法儲存資料。
將所連線的資料庫裡的資料匯入至pandas DataFrame中。使用pandas的read_sql方法。

關聯資料庫和pandas

import pandas as pd

df = pd.read_csv('bestofrt_master.csv')
df.head(3)

（1）關聯資料庫

from sqlalchemy import create_engine
#建立SQLAlchemy引擎和空白bestofrt資料庫
engine = create_engine('sqlite://bestofrt.db')

（2）將pandas DataFrame儲存在資料庫中

將資料儲存在清理後的資料庫主要資料集（）中。

#將清理後的主DataFrame('df')儲存在表格中，命名為主bestofrt.db
df.to_sql('master', engine, index=False)

（3）把資料庫讀回一個pandas DataFrame

將資料庫中的全新資料讀回一個pandas DataFrame。

df_gather = pd.read_sql('SELECT * FROM master', engine)
df_gather.head(3)

【收集資料】OpenGL學習

cor mic spa post 學習 sch code 開源 HR 1、課本配套網站，有Sample Code和書中的圖片等 http://math.ucsd.edu/~sbuss/MathCG/ 2、Visual C++的幫助系統可查閱基本OpenGL函數(不包括G

收集資料

1、Web資料抓取使用Beautiful Soup來提取每個HTML檔案。建立一個空列表df_list，並附加字典。通過rt_html資料夾中每個電影的Rotten Tomatoes HTML檔案迴圈播放。開啟每個HTML檔案，並將其傳達到一個名為file

vue指令v-model(雙向資料繫結)自動收集資料

前言：表單提交資料在網站頁面中是十分常見的，而這個表單資料的獲取在原生寫法甚至於JQ都是比較麻煩的（首先需要獲取DOM，然後獲取值）。但是，在vue的專案環境下，表單資料的收集又該怎麼辦呢？（這種自己寫input元素的方法在實際專案中是不常用的哈，因為一般我們都會用一個UI庫，方便而快捷！

【樂調查】大資料時代的市場調研樣本收集——資料驅動洞察

社交電商平臺化趨勢中，消費者關於產品或品牌的想法、態度、購物行為在網路上留下了大量足跡，社媒與電商上的資訊集中呈現了現代人的生活及思想形態。我們發現,在以使用者為中心的產品運營中，這些資訊甚至正在影響商品的生產環節和爆款策劃。企業越來越重視消費者資訊的挖掘和

《Java8實戰》-第六章讀書筆記（用流收集資料-01）

用流收集資料我們在前一章中學到，流可以用類似於資料庫的操作幫助你處理集合。你可以把Java 8的流看作花哨又懶惰的資料集迭代器。它們支援兩種型別的操作：中間操作（如 filter 或 map ）和終端操作（如 count 、 findFirst 、 forEach

Java 8 學習筆記6——用流收集資料

流可以用類似於資料庫的操作幫助你處理集合。你可以把Java 8的流看作花哨又懶惰的資料集迭代器。它們支援兩種型別的操作：中間操作（如filter或map）和終端操作（如count、findFirst、forEach和reduce）。中間操作可以連結起來，將一個流轉換為另一個流。這些操作不會消

速銳得耗資千萬投入智慧駕駛V8收集資料載體斬大單

2016年底，速銳得已經成為汽車行業CAN匯流排資料應用的領導者，該團核心人員隊獨具慧眼盯上了智慧駕駛這產業的資料採集，耗資千萬，歷時2年推出智慧駕駛V8汽車資料收集載體，斬獲阿里、滴滴巨頭訂單，應用於智慧駕駛眾包地圖駕駛行為資料採集，建立自動駕駛資料模型。當下，老司

第9篇用流收集資料----- 歸約和彙總

/** * 為了說明從Collectors工廠類中能創建出多少種收集器例項，我們重用一下前面的例 * 子：包含一張佳餚列表的選單！ * 就像你剛剛看到的，在需要將流專案重組成集合時，一般會使用收集器（Stream方法collect * 的引數）。再寬泛一點來說，但凡要

第10篇 java 8----用流收集資料 -----連線字串

/** * 連線字串 */ public class Demo02 { public static void main(String[] args) { List<Dish> menues = Arrays.asList(new Dis

第11篇 java 8----用流收集資料 -----分組

** * 一個常見的資料庫操作是根據一個或多個屬性對集合中的專案進行分組。就像前面講到按貨 * 幣對交易進行分組的例子一樣，如果用指令式風格來實現的話，這個操作可能會很麻煩、囉嗦而 * 且容易出錯。但是，如果用Java 8所推崇的函式式風格來重寫的話，就很容易轉化為一個

Python Scrapy多層爬取收集資料

最近用Scrapy做爬蟲的時候碰到資料分佈在多個頁面，要發去多次請求才能收集到足夠的資訊，例如列表只有簡單的幾個資訊，更多的資訊在內頁。檢視官方文件沒找到相關的案例或說明，這個有點坑。最後自己查了寫資料，研究後一下，終於整出來了。 yield scrapy.Request(item

微服務springcloud—使用訊息中介軟體收集資料

前文是用HTTP直接收集跟蹤資料的，本節來討論如何使用訊息中介軟體收集追蹤資料。相比HTTP的方式來說，使用訊息中介軟體有以下優點：微服務與Zipkin Server解耦，微服務無需知道Zipkin Server的網路地址。一些場景下，ZipkinServ

使用訊息中介軟體（RabbitMQ）來收集資料

一新建專案microservice-consumer-movie-ribbon-hystrix-turbine-mq二為專案新增依賴 <dependency> <

3分鐘學會用超級表格釋出線上表單收集資料

釋出表單超級表格微視訊關鍵詞：釋出表單收集資料無需二次彙總「超級表格微視訊」第三期提升效率、增強免疫力，盡在超級表格微視訊！請關注每週的公眾號更新，3分鐘讓您玩轉超級表格！如何釋出表單搜尋方法一◆ ◆ ◆1、首先新建一張空表格點選首頁的「新建」按鈕→空表格。2、

超實用！小程式也可以收集資料了

在工作和上學的小夥伴，應該都遇到過需要做“調查問卷”的情況：策劃聚會活動前做調查，創業的小夥伴調查使用者需求等等。但是要想自己做一份“調查問卷”還是比較複雜的，不過今天要推薦的這款小程式，能讓我們最方便快捷的完成一份實用的“調查問卷”。我們需要使用的是一款叫“趣問卷”

使用excel收集資料心得一

之前參與了一個農業資訊管理的開發專案，我負責資料的收集與入庫。收集資料的方式是通過excel填報，（事先設計好格式），單獨開發了一個數據匯入小軟體。大家應該都知道，程式在讀取資料時都是按照你事先給定的命令來執行，一旦事先設計好的excel格式或填表的規

Java 8-Stream API-用流收集資料

用指令使風格對交易按照年份分組 @Test public void test9() { //建立根據年份分組的Map Map<Integer,List<Transaction>> t

10種令人驚訝的方式你的日常生活中正在收集資料的大資料野獸

無處可逃大資料是你日常生活中，不管你喜歡與否的重要組成部分 - 甚至是意識到這一點。當你去看醫生，去到你的手機上工作或獲得方向，有一個很好的機會，有軟體在那裡悄悄地收集和分析這些資訊。並根據不同的情況，這可能是一個好事還是壞事。下面是如何通過技術查閱你的生活，梳理

使用Flume收集資料

安裝並配置Flume 下載解壓flume NG二進位制檔案apache-flume-1.6.0-bin.tar.gz $ tar -xzf /opt/apache-flume-1.6.0-bin.tar.gz 建立符號連結，指向Flume安裝路徑 $ ln -s /opt/

收集資料

1、Web資料抓取

使用Beautiful Soup來提取每個HTML檔案。

2、從網際網路下載檔案

3、使用glob開啟文字檔案

4、查詢API（wptools庫）

對於MediaWiki，Python中最新和可讀的庫是wptools。下面是wptools使用ET 維基百科頁面的示例：

5、JSON技能

訪問JSON檔案就像訪問Python語言下的字典和列表一樣，因為JSON物件被解釋為字典，而JSON陣列被解釋為列表。

（1）JSON陣列

（2）JSON物件

6、用資料庫和SQL收集資料

關聯資料庫和pandas

（1）關聯資料庫

（2）將pandas DataFrame儲存在資料庫中

（3）把資料庫讀回一個pandas DataFrame

相關推薦