[Note] 實用資料分析Chap.1

阿新 • • 發佈：2018-12-15

Chap1.緒論

資料分析橫跨了：電腦科學、人工智慧、機器學習、統計學、數學以及專業領域知識等多個領域。

1.1 電腦科學

程式設計、資料庫管理、網路管理、高效能運算

1.2 人工智慧

模擬智慧行為的演算法。實施需要推理、相似性搜尋或者無監督分類的智慧活動。

1.3 機器學習

沒有明確程式設計的情況下，賦予計算機進行學習的能力。

（有監督學習、無監督學習、強化學習）

1.4 統計學

模擬、貝葉斯方法、預測、迴歸、線性分析、分類。

1.5 數學

線性代數、數值法、條件概念演算法。

1.6 專業領域知識

1.7 資料、資訊和知識

1.7.1 內部聯絡

資料data（facts）---->資訊information（organized facts）---->知識knowledge（apply our experience to data & information）

e.g.

data:（直接調查）多少顧客購買、滿意程度

information:（專案報告）基於競爭者的產品，得到價格與顧客滿意度的關係

knowlegdge:（改進方案）產品的製造成本、運輸成本、品質

1.7.2 資料的本質

分型別：定類的、定序的

數值型：離散的、連續的

1.8 資料分析過程

問題--->資料準備（獲取、清洗、標準化、轉化）--->資料探索（統計、視覺化）--->預測建模--->成果視覺化

1.8.1 問題

推理性、預測性、描述性、探索性、因果、相關性

1.8.2 資料準備

可能出現的資料問題：無效資料、資料分歧、超過範圍的資料、缺失資料

好的資料的特徵：完整性、一致性、無歧義、可計量、正確性、標準化、無冗餘

1.8.3 資料探索

採用圖形或者統計的形式來考查資料，找到資料中存在的模型、關聯或關係。視覺化的方法可以提供資料預覽，從而找到可能有意義的模式。（D3.js）

1.8.4 預測建模

預測建模：一種統計手法，通過分析現有資訊以及歷史的資料預測未來的行為。是一種資料分析的過程，創造或者選擇一種統計模型，目的是為了更好地預測可能的輸出。

模型	演算法
分類的結果（分類）	樸素貝葉斯分類法
分類的結果（分類）	自然語言工具包 + 樸素貝葉斯分類法
數值型結果（迴歸）	隨機遊走
	支援向量機
	基於距離的方法+K最鄰近值
	細胞自動機
描述性建模（聚類）	快速動態事件規整（Fast Dynamic Time Warping, FDTW）+ 距離度量
描述性建模（聚類）	force 佈局和 Fruchterman-Reingold 佈局

需要對模型進行評估從而實現對特定問題的解答最優化。較優的預測結果會有一種模型符合潛在的假設。

如何判斷預測模型是否準確？證明有價值的資訊被正確表達？（確保不過分優化、不過分擬合）

· 交叉驗證：將資料劃分為樣本量相等的子集，測試預測建模的結果進而評估模型的實際表現。執行交叉驗證進而判斷各模型的健壯性，同時評估多個模型的結果以確認最優模型。

· 保持樣本：大資料集隨機分為訓練集、驗證集、測試集。

1.8.5 結果視覺化

三維圖、散點圖矩陣…（模型假設、特徵空間維度、資料）

D3.js、Python 裡的 matplotlib 工具

1.9 定量與定性資料分析

· 定量資料：結構化資料、統計分析、客觀的結論

· 定性資料：非結構化資料、概括、主觀的結論

（1）資料沒有邏輯順序，只能分類

（2）資料有邏輯順序，不同值之間差別不連續

（3）資料連續並有邏輯順序。不同值之間存在標準化的差異，不包括零值

（4）資料連續並有邏輯順序，包含零值

1.10 資料視覺化的重要性

對資料中暗含的新模式或關係進行揭露。

探索性資料分析的目標：發現數據錯誤、檢驗假設、找到潛在的模式、適合模型的初步選擇、決定變數間的相互關係

1.11 大資料

資料量龐大：（並聯分散式架構雲端計算平臺提供處理資料的方式）

資料形式：結構化、非結構化、多結構化

速度：需要實施快速分析

最常見的架構是 MapReduce ，通過分散式叢集來對大資料集進行同步的程式設計模式。Apache Hadoop 是 MapReduce 架構中最常用的實施方式。

另外有 NoSQL 和大規模平行處理資料儲存（Massively Parallel Processing, MPP）

如何處理 PB 級的資料？資料模糊性？

“更好的演算法、更多的資料、更好的資料”

1.12 自我量化

感測器和攝像頭、社交網路分析

[Note] 實用資料分析Chap.1

Chap1.緒論資料分析橫跨了：電腦科學、人工智慧、機器學習、統計學、數學以及專業領域知識等多個領域。 1.1 電腦科學程式設計、資料庫管理、網路管理、高效能運算 1.2 人工智慧模擬智慧行為的演算法。實施需要推理、相似性搜尋或者無監督分類的智慧活動。 1.

python資料分析例項(1)

1.獲取資料: 想要獲得道指30只成分股的最新股價 import requests import re import pandas as pd def retrieve_dji_list(): try: r = requests.get('https://mon

大資料分析筆記——1

大資料計算架構 1、資料儲存系統資料儲存系統包括資料採集層（系統日誌、網路爬蟲、無線感測器網路、物聯網，以及各種資料來源），資料清洗、抽取與建模（將各種型別的結構化、非結構化、異構資料轉化為標準儲存格式資料，並定義資料屬性及值域），資料儲存架構（集中式

小白學 Python 資料分析（1）：資料分析基礎

各位同學好，小編接下來為大家分享一些有關 Python 資料分析方面的內容，希望大家能夠喜歡。人工植入廣告： PS：小編最近兩天偷了點懶，好久沒有發原創了，最近是在 CSDN 開通了一個付費專欄，用來發布去年寫的沒有出版的書稿，感興趣的同學可以去看下（已經上傳了一部分，第一章設定為了試讀章節），主要是

ArcGIS 網絡分析[8.1] 資料1 使用AO打開或創建網絡數據集之【打開】

find 重要 database red color play ace ext set 為了創建或打開一個網絡數據集，你必須使用NetworkDatasetFDExtension對象（文件地理數據庫中的數據集）或NetworkDatasetWorkspaceExtensi

資料分析學習筆記(1):工作環境以及建模理論基礎

一、環境部署　　1.python包管理：　　　　(1)安裝：pip install xxx,conda install xxx 　　　　(2)解除安裝：pip uninstall xxx,　　conda uninstall xxx 　　　　(3)升級：pip install -upgrade xx

資料探勘之售房資料分析1

最近再做一批關於售房的資料，感覺自己陷入一個死衚衕裡：該批資料是儲存再postgresql裡面，是從某售房網站上爬下來的，以資料庫中的一列欄位作為儲存資料，該列欄位是以json的資料形式儲存的，這裡跟我打開了一個新大門，資料庫能儲存json資料格式的資料，而且postgresql還有一套專門的

菜鷄日記——《Python資料分析與挖掘實戰》實驗6-1 拉格朗日插值法

實驗6-1 用拉格朗日插值法題目描述：用拉格朗日插值法對missing_data.xls中表格的空值進行填補。 # p1, lab6 # Fill all of the null values with Lagrange's interpolation # Data file name i

資料結構與演算法分析-第1章

.title { text-align: center; margin-bottom: .2em } .subtitle { text-align: center; font-size: medium; font-weight: bold; margin-top: 0 } .todo { font-famil

Python資料分析 | (1)Python語法基礎

本篇部落格所有示例使用Jupyter NoteBook演示。 Python資料分析系列筆記基於:利用Python進行資料分析(第2版) 下載密碼:pelb 目錄 Python語法基礎 1.語言的語義 2.函式和物件方法呼叫 3.變數和引數傳遞

1.2 Why Python for Data Analysis（為什麼使用Python做資料分析）

1.2 Why Python for Data Analysis?（為什麼使用Python做資料分析）這節我就不進行過多介紹了，Python近幾年的發展勢頭是有目共睹的，尤其是在科學計算，資料處理，AI方面，否則大家也不會來看這本書了。使用Python的一些優點 Python是一門膠

從0到1搭建基於Kafka、Flume和Hive的海量資料分析系統(一)資料收集應用

大資料時代，一大技術特徵是對海量資料採集、儲存和分析的多元件解決方案。而其中對來自於感測器、APP的SDK和各類網際網路應用的原生日誌資料的採集儲存則是基本中的基本。本系列文章將從0到1，概述一下搭建基於Kafka、Flume、Zookeeper、HDFS、Hive的海量資料分析系統的框架、核心應用和關鍵模組

資料分析（使用matplotlib,seaborn,ploty進行視覺化)——1

柱狀圖使用matplotlib畫圖 import matplotlib.pyplot as plt import seaborn as sns import pandas as pd import numpy as np # 匯入資料 df = pd.read_csv(

筆記1:利用python進行資料分析

#筆記1:利用python進行資料分析 numpy模組，各種函式等等因為不想使用編碼軟體，所以直接文字編輯器，cmd執行結果；提一個小技巧：cmd中複製資訊操作，右擊–》標記–》選擇需要複製的資訊(一般為白色背景)–》在複製區外右擊，之後在需要的地方-》ctrl+v 就可以了；直

【ArcGIS|空間分析|網路分析】1 建立網路資料集

連通性、屬性參考ArcGIS幫助文件文章目錄準備建立網路資料集 1、網路資料集的名稱 2、網路資料集的版本 3、網路資料集的源 4、網路中構建轉彎模型 5、通性模型 6、高程欄位

Python 資料分析與展示筆記1 -- Numpy 基礎

Python 資料分析與展示筆記1 – NumPy 基礎 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記課程連結： Python 資料分析與展示參考文件： NumPy 官方文件（英文） NumPy 官方文件（中文） PIL

spark快速大資料分析學習筆記（1）

本文是《spark快速大資料分析學習》第三章學習筆記，文中大量摘抄書中原本，僅為個人學習筆記。 RDD基礎： RDD是一個不可變的分散式物件集合。每個RDD都被分為多個分割槽，這個分割槽執行在叢集的不同節點上。RDD可以包含Python、Java、Scala中任意型別的物件。建立RDD的方式：

資料探索（1）資料質量分析

資料質量分析資料質量分析的主要任務是檢查原始資料中是否存在髒資料，髒資料一般是指不符合要求，以及不能直接進行相應分析的資料。在常見的資料探勘工作中，髒資料包括如下內容：缺失值異常值不一致的值重複的值以及包含特殊符號的資料缺失值分析

【NCNN原始碼分析】1.基本資料型別

對於NCNN而言，核心在於網路的前向推理過程（Inference），其主要資料型別為mat，該資料型別以類的形式定義在src/mat.h中，其中包含了mat的建構函式、解構函式、常見的運算過程。 #if

Python資料分析學習筆記（1）numpy模組基礎入門

numpy模組可以進行高效的資料處理，並提供了陣列的支援，很多模組都依賴他，比如pandas、scipy、matplotlib等，因此這個模組是基礎。（1）匯入： import numpy （2）建立一維和二維陣列： #建立一維陣列 x=numpy.

[Note] 實用資料分析Chap.1

Chap1.緒論

1.1 電腦科學

1.2 人工智慧

1.3 機器學習

1.4 統計學

1.5 數學

1.6 專業領域知識

1.7 資料、資訊和知識

1.7.1 內部聯絡

1.7.2 資料的本質

1.8 資料分析過程

1.8.1 問題

1.8.2 資料準備

1.8.3 資料探索

1.8.4 預測建模

1.8.5 結果視覺化

1.9 定量與定性資料分析

1.10 資料視覺化的重要性

1.11 大資料

1.12 自我量化

相關推薦