1. 程式人生 > >NLP&資料探勘基礎知識

NLP&資料探勘基礎知識

Basis(基礎):

  • SSE(Sum of Squared Error, 平方誤差和)
  • SAE(Sum of Absolute Error, 絕對誤差和)
  • SRE(Sum of Relative Error, 相對誤差和)
  • MSE(Mean Squared Error, 均方誤差)
  • RMSE(Root Mean Squared Error, 均方根誤差)
  • RRSE(Root Relative Squared Error, 相對平方根誤差)
  • MAE(Mean Absolute Error, 平均絕對誤差)
  • RAE(Root Absolute Error, 平均絕對誤差平方根)
  • MRSE(Mean Relative Square Error, 相對平均誤差)
  • RRSE(Root Relative Squared Error, 相對平方根誤差)
  • Expectation(期望)&Variance(方差)
  • Standard Deviation(標準差,也稱Root Mean Squared Error, 均方根誤差)
  • CP(Conditional Probability, 條件概率)
  • JP(Joint Probability, 聯合概率)
  • MP(Marginal Probability, 邊緣概率)
  • Bayesian Formula(貝葉斯公式)
  • CC(Correlation Coefficient, 相關係數)
  • Quantile (分位數)
  • Covariance(協方差矩陣)
  • GD(Gradient Descent, 梯度下降)
  • SGD(Stochastic Gradient Descent, 隨機梯度下降)
  • LMS(Least Mean Squared, 最小均方)
  • LSM(Least Square Methods, 最小二乘法)
  • NE(Normal Equation, 正規方程)
  • MLE(Maximum Likelihood Estimation, 極大似然估計)
  • QP(Quadratic Programming, 二次規劃)
  • L1 /L2 Regularization(L1/L2正則, 以及更多的, 現在比較火的L2.5正則等)
  • Eigenvalue(特徵值)
  • Eigenvector(特徵向量)

Common Distribution(常見分佈):

Discrete Distribution(離散型分佈):

  • Bernoulli Distribution/Binomial Distribution(貝努利分佈/二項分佈)
  • Negative Binomial Distribution(負二項分佈)
  • Multinomial Distribution(多項分佈)
  • Geometric Distribution(幾何分佈)
  • Hypergeometric Distribution(超幾何分佈)
  • Poisson Distribution (泊松分佈)

Continuous Distribution (連續型分佈):

  • Uniform Distribution(均勻分佈)
  • Normal Distribution/Gaussian Distribution(正態分佈/高斯分佈)
  • Exponential Distribution(指數分佈)
  • Lognormal Distribution(對數正態分佈)
  • Gamma Distribution(Gamma分佈)
  • Beta Distribution(Beta分佈)
  • Dirichlet Distribution(狄利克雷分佈)
  • Rayleigh Distribution(瑞利分佈)
  • Cauchy Distribution(柯西分佈)
  • Weibull Distribution (韋伯分佈)

Three Sampling Distribution(三大抽樣分佈):

  • Chi-square Distribution(卡方分佈)
  • t-distribution(t-分佈)
  • F-distribution(F-分佈)

Data Pre-processing(資料預處理):

  • Missing Value Imputation(缺失值填充)
  • Discretization(離散化)
  • Mapping(對映)
  • Normalization(歸一化/標準化)

Sampling(取樣):

  • Simple Random Sampling(簡單隨機取樣)
  • Offline Sampling(離線等可能K取樣)
  • Online Sampling(線上等可能K取樣)
  • Ratio-based Sampling(等比例隨機取樣)
  • Acceptance-rejection Sampling(接受-拒絕取樣)
  • Importance Sampling(重要性取樣)
  • MCMC(Markov Chain MonteCarlo 馬爾科夫蒙特卡羅取樣演算法:Metropolis-Hasting& Gibbs)

Clustering(聚類):

  • K-MeansK-Mediods
  • 二分K-Means
  • FK-Means
  • Canopy
  • Spectral-KMeans(譜聚類)
  • GMM-EM(混合高斯模型-期望最大化演算法解決)
  • K-Pototypes
  • CLARANS(基於劃分)
  • BIRCH(基於層次)
  • CURE(基於層次)
  • STING(基於網格)
  • CLIQUE(基於密度和基於網格)
  • 2014年Science上的密度聚類演算法等

Clustering Effectiveness Evaluation(聚類效果評估):

  • Purity(純度)
  • RI(Rand Index, 芮氏指標)
  • ARI(Adjusted Rand Index, 調整的芮氏指標)
  • NMI(Normalized Mutual Information, 規範化互資訊)
  • F-meaure(F測量)

Classification&Regression(分類&迴歸):

  • LR(Linear Regression, 線性迴歸)
  • LR(Logistic Regression, 邏輯迴歸)
  • SR(Softmax Regression, 多分類邏輯迴歸)
  • GLM(Generalized Linear Model, 廣義線性模型)
  • RR(Ridge Regression, 嶺迴歸/L2正則最小二乘迴歸),LASSO(Least Absolute Shrinkage and Selectionator Operator , L1正則最小二乘迴歸)
  • DT(Decision Tree決策樹)
  • RF(Random Forest, 隨機森林)
  • GBDT(Gradient Boosting Decision Tree, 梯度下降決策樹)
  • CART(Classification And Regression Tree 分類迴歸樹)
  • KNN(K-Nearest Neighbor, K近鄰)
  • SVM(Support Vector Machine, 支援向量機, 包括SVC(分類)&SVR(迴歸))
  • CBA(Classification based on Association Rule, 基於關聯規則的分類)
  • KF(Kernel Function, 核函式) 

    • Polynomial Kernel Function(多項式核函式)
    • Guassian Kernel Function(高斯核函式)
    • Radial Basis Function(RBF徑向基函式)
    • String Kernel Function 字串核函式
  • NB(Naive Bayesian,樸素貝葉斯)
  • BN(Bayesian Network/Bayesian Belief Network/Belief Network 貝葉斯網路/貝葉斯信度網路/信念網路)
  • LDA(Linear Discriminant Analysis/Fisher Linear Discriminant 線性判別分析/Fisher線性判別)
  • EL(Ensemble Learning, 整合學習) 

    • Boosting
    • Bagging
    • Stacking
    • AdaBoost(Adaptive Boosting 自適應增強)
  • MEM(Maximum Entropy Model, 最大熵模型)

Classification EffectivenessEvaluation(分類效果評估):

  • Confusion Matrix(混淆矩陣)
  • Precision(精確度)
  • Recall(召回率)
  • Accuracy(準確率)
  • F-score(F得分)
  • ROC Curve(ROC曲線)
  • AUC(AUC面積)
  • Lift Curve(Lift曲線)
  • KS Curve(KS曲線)

PGM(Probabilistic Graphical Models, 概率圖模型):

  • BN(BayesianNetwork/Bayesian Belief Network/ Belief Network , 貝葉斯網路/貝葉斯信度網路/信念網路)
  • MC(Markov Chain, 馬爾科夫鏈)
  • MEM(Maximum Entropy Model, 最大熵模型)
  • HMM(Hidden Markov Model, 馬爾科夫模型)
  • MEMM(Maximum Entropy Markov Model, 最大熵馬爾科夫模型)
  • CRF(Conditional Random Field,條件隨機場)
  • MRF(Markov Random Field, 馬爾科夫隨機場)
  • Viterbi(維特比演算法)

NN(Neural Network, 神經網路)

  • ANN(Artificial Neural Network, 人工神經網路)
  • SNN(Static Neural Network, 靜態神經網路)
  • BP(Error Back Propagation, 誤差反向傳播)
  • HN(Hopfield Network)
  • DNN(Dynamic Neural Network, 動態神經網路)
  • RNN(Recurrent Neural Network, 迴圈神經網路)
  • SRN(Simple Recurrent Network, 簡單的迴圈神經網路)
  • ESN(Echo State Network, 回聲狀態網路)
  • LSTM(Long Short Term Memory, 長短記憶神經網路)
  • CW-RNN(Clockwork-Recurrent Neural Network, 時鐘驅動迴圈神經網路, 2014ICML)等.

Deep Learning(深度學習):

  • Auto-encoder(自動編碼器)
  • SAE(Stacked Auto-encoders堆疊自動編碼器) 

    • Sparse Auto-encoders(稀疏自動編碼器)
    • Denoising Auto-encoders(去噪自動編碼器)
    • Contractive Auto-encoders(收縮自動編碼器)
  • RBM(Restricted Boltzmann Machine, 受限玻爾茲曼機)
  • DBN(Deep Belief Network, 深度信念網路)
  • CNN(Convolutional Neural Network, 卷積神經網路)
  • Word2Vec(詞向量學習模型)

Dimensionality Reduction(降維):

  • LDA(Linear Discriminant Analysis/Fisher Linear Discriminant, 線性判別分析/Fish線性判別)
  • PCA(Principal Component Analysis, 主成分分析)
  • ICA(Independent Component Analysis, 獨立成分分析)
  • SVD(Singular Value Decomposition 奇異值分解)
  • FA(Factor Analysis 因子分析法)

Text Mining(文字挖掘):

  • VSM(Vector Space Model, 向量空間模型)
  • Word2Vec(詞向量學習模型)
  • TF(Term Frequency, 詞頻)
  • TF-IDF(TermFrequency-Inverse Document Frequency, 詞頻-逆向文件頻率)
  • MI(Mutual Information, 互資訊)
  • ECE(Expected Cross Entropy, 期望交叉熵)
  • QEMI(二次資訊熵)
  • IG(Information Gain, 資訊增益)
  • IGR(Information Gain Ratio, 資訊增益率)
  • Gini(基尼係數)
  • x2 Statistic(x2統計量)
  • TEW(Text Evidence Weight, 文字證據權)
  • OR(Odds Ratio, 優勢率)
  • N-Gram Model
  • LSA(Latent Semantic Analysis, 潛在語義分析)
  • PLSA(Probabilistic Latent Semantic Analysis, 基於概率的潛在語義分析)
  • LDA(Latent Dirichlet Allocation, 潛在狄利克雷模型)
  • SLM(Statistical Language Model, 統計語言模型)
  • NPLM(Neural Probabilistic Language Model, 神經概率語言模型)
  • CBOW(Continuous Bag of Words Model, 連續詞袋模型)
  • Skip-gram(Skip-gram Model)

Association Mining(關聯挖掘):

  • Apriori演算法
  • FP-growth(Frequency Pattern Tree Growth, 頻繁模式樹生長演算法)
  • MSApriori(Multi Support-based Apriori, 基於多支援度的Apriori演算法)
  • GSpan(Graph-based Substructure Pattern Mining, 頻繁子圖挖掘)

Sequential Patterns Analysis(序列模式分析)

  • AprioriAll
  • Spade
  • GSP(Generalized Sequential Patterns, 廣義序列模式)
  • PrefixSpan

Forecast(預測)

  • LR(Linear Regression, 線性迴歸)
  • SVR(Support Vector Regression, 支援向量機迴歸)
  • ARIMA(Autoregressive Integrated Moving Average Model, 自迴歸積分滑動平均模型)
  • GM(Gray Model, 灰色模型)
  • BPNN(BP Neural Network, 反向傳播神經網路)
  • SRN(Simple Recurrent Network, 簡單迴圈神經網路)
  • LSTM(Long Short Term Memory, 長短記憶神經網路)
  • CW-RNN(Clockwork Recurrent Neural Network, 時鐘驅動迴圈神經網路)
  • ……

Linked Analysis(連結分析)

  • HITS(Hyperlink-Induced Topic Search, 基於超連結的主題檢索演算法)
  • PageRank(網頁排名)

Recommendation Engine(推薦引擎):

  • SVD
  • Slope One
  • DBR(Demographic-based Recommendation, 基於人口統計學的推薦)
  • CBR(Context-based Recommendation, 基於內容的推薦)
  • CF(Collaborative Filtering, 協同過濾)
  • UCF(User-based Collaborative Filtering Recommendation, 基於使用者的協同過濾推薦)
  • ICF(Item-based Collaborative Filtering Recommendation, 基於專案的協同過濾推薦)

Similarity Measure&Distance Measure(相似性與距離度量):

  • EuclideanDistance(歐式距離)
  • Chebyshev Distance(切比雪夫距離)
  • Minkowski Distance(閔可夫斯基距離)
  • Standardized EuclideanDistance(標準化歐氏距離)
  • Mahalanobis Distance(馬氏距離)
  • Cos(Cosine, 餘弦)
  • Hamming Distance/Edit Distance(漢明距離/編輯距離)
  • Jaccard Distance(傑卡德距離)
  • Correlation Coefficient Distance(相關係數距離)
  • Information Entropy(資訊熵)
  • KL(Kullback-Leibler Divergence, KL散度/Relative Entropy, 相對熵)

Optimization(最優化):

Non-constrained Optimization(無約束優化):

  • Cyclic Variable Methods(變數輪換法)
  • Variable Simplex Methods(可變單純形法)
  • Newton Methods(牛頓法)
  • Quasi-Newton Methods(擬牛頓法)
  • Conjugate Gradient Methods(共軛梯度法)。

Constrained Optimization(有約束優化):

  • Approximation Programming Methods(近似規劃法)
  • Penalty Function Methods(罰函式法)
  • Multiplier Methods(乘子法)。
  • Heuristic Algorithm(啟發式演算法)
  • SA(Simulated Annealing, 模擬退火演算法)
  • GA(Genetic Algorithm, 遺傳演算法)
  • ACO(Ant Colony Optimization, 蟻群演算法)

Feature Selection(特徵選擇):

  • Mutual Information(互資訊)
  • Document Frequence(文件頻率)
  • Information Gain(資訊增益)
  • Chi-squared Test(卡方檢驗)
  • Gini(基尼係數)

Outlier Detection(異常點檢測):

  • Statistic-based(基於統計)
  • Density-based(基於密度)
  • Clustering-based(基於聚類)。

Learning to Rank(基於學習的排序):

  • Pointwise 

    • McRank
  • Pairwise 

    • RankingSVM
    • RankNet
    • Frank
    • RankBoost;
  • Listwise 

    • AdaRank
    • SoftRank
    • LamdaMART

Tool(工具):

    • MPI
    • Hadoop生態圈
    • Spark
    • IGraph
    • BSP
    • Weka
    • Mahout
    • Scikit-learn
    • PyBrain
    • Theano 

相關推薦

NLP&資料基礎知識

Basis(基礎): SSE(Sum of Squared Error, 平方誤差和) SAE(Sum of Absolute Error, 絕對誤差和) SRE(Sum of Relative Error, 相對誤差和) MSE(Mean Squared Error, 均方誤差) RMSE(R

資料基礎知識-矩陣(分解)

1. 矩陣知識: //特徵值,行列式,秩,對稱矩陣,單位矩陣,正定半正定,雅可比等等!! 正交矩陣: 如果:AA'=E(E為單位矩陣,A'表示“矩陣A的轉置矩陣”。)或A′A=E,則n階實矩陣A稱為正交矩陣, 若A為正交陣,則滿足以下條件: 1) AT是正交矩陣 2)(

資料基本知識

背景 資料探勘解決的商業問題 客戶流失分析 交叉銷售 欺詐檢測 風險管理 客戶細分 廣告定位 銷售預測 資料探勘的任務 分類 基於一個可預測屬性把事例分成多個類別。有目標的資料探勘演算法稱為有監督

資料基礎之統計學的分佈函式

本部落格根據非常好的excel資料而編寫,使用python語言操作,預計使用一週的時間更新完成。需要《非常好的excel資料》word文件,歡迎發郵件給[email protected],免費發放。 1、幾種常見的統計函式 2、分佈函式 ① ② ,求P{X=5

資料基礎-2.中文分詞

一、中文分詞基礎 • 切開的開始位置對應位是1,否則對應位是0,來表示“有/意見/分歧”的bit內容是:11010,通過識別1後面幾個0,就可以知道有幾個字切在一塊。 • 還可以用一個分詞節點序列來表示切分方案,例如“有/意見/分歧”的分詞節點序列是{0,1,3,5}

資料基礎之統計學的假設檢驗實驗

本部落格根據非常好的excel資料而編寫,使用python語言操作,預計使用一週的時間更新完成。需要《非常好的excel資料》word文件,歡迎發郵件給[email protected],免費發放。這篇部落格對應《非常好的excel資料》裡的第3章節。 1.假設檢驗實驗 1

資料基礎導論學習筆記(五)

第五章 分類 其他分類 貝葉斯分類器 貝葉斯定理:把類的先驗知識和從資料中收集的新證據相結合的統計原理。 公式: P(Y|X)=P(X|Y)*P(Y)/P(X) X是屬性集,Y是類變數 把X和Y看成隨機變數,用P(Y|X)以概率的方式捕捉二者之間的關係,這個條件

《Python資料分析與挖掘實戰》筆記(一):資料基礎

一、資料探勘的基本任務 利用分類與預測、聚類分析、關聯規則、時序模式、偏差檢測、智慧推薦等方法,幫助企業提取資料中蘊含的商業價值,提升企業的競爭力。 二、資料探勘建模過程 定義挖掘目標:任務目標和完

資料基礎-1.文字相似度

一、文字相似度 相似度度量指的是計算個體間相似程度,一般使用距離來度量,相似度值越小,距離越大,相似度值越大,距離越小。在說明文字相似度概念和計算方式之前,先回顧下餘弦相似度。 1.餘弦相似度 衡量文字相似度最常用的方法是使用餘弦相似度。  – 空間中,兩個向量夾角的

python 資料基礎 入門

  一. 基於Python的資料探勘 基本架構   1. matplotlib, 圖形化 2. pandas,資料探勘的關鍵, 提供各種挖掘分析的演算法 3. numpy, 提供基本的統計    scipy, 提供各種數學公式 4. python common lib,py

【摘錄】大資料知識發現的應用領域

應用 資料探勘技術可以為決策、過程控制、資訊管理和查詢處理等任務提供服務,一個有趣的應用範例是“尿布與啤酒”的故事。為了分析哪些商品顧客最有可能一起購買,一家名叫 WalMart的公司利用自動資料探勘工具,對資料庫中的大量資料進行分析後,意外發現,跟尿布一起購買最多的商品

資料工程師知識集錦

資料探勘的技術過程: 資料清理(消除噪音或不一致資料) 資料整合(多種資料來源可以組合在一起) 資料選擇(從資料庫中提取與分析任務相關的資料) 資料變換(資料變換或統一成適合挖掘的形式;如,通過彙總或聚集操作) 資料探勘(基本步驟,使用智慧方法提

Python資料課程 六.Numpy、Pandas和Matplotlib包基礎知識

        前面幾篇文章採用的案例的方法進行介紹的,這篇文章主要介紹Python常用的擴充套件包,同時結合資料探勘相關知識介紹該包具體的用法,主要介紹Numpy、Pandas和Matplotlib三個包。目錄:         一.Python常用擴充套件包  

資料必備基礎知識

資料探勘,從字面上理解,就是在資料中找到有用的東西,哪些東西有用就要看具體的業務目標了。最簡單的就是統計應用了,比如電商資料,如淘寶統計過哪個省購買泳衣最多、哪個省的女生胸罩最大等,進一步,可以基於使用者的瀏覽、點選、收藏、購買等行為推斷使用者的年齡、性別、購買能力、愛好等能表示一個人的畫像,就相當於用這

【Python資料課程】六.Numpy、Pandas和Matplotlib包基礎知識

        前面幾篇文章採用的案例的方法進行介紹的,這篇文章主要介紹Python常用的擴充套件包,同時結合資料探勘相關知識介紹該包具體的用法,主要介紹Numpy、Pandas和Matplotlib三

寫給演算法/資料面試小白的指南--計算機基礎知識

首先,關於計算機基礎知識,無非是考一些我們曾經學過的概念知識: 例如: 1.執行緒與程序的概念及區別 2.java的垃圾回收處理機制 3.hash表的原理 4.JVM的原理 下面來具體介紹一下具

【 專欄 】- 知識圖譜、web資料NLP

作者:楊秀璋 學歷:本科-北京理工大學            碩士-北京理工大學 現任教於貴財財經大學資訊學院 http://www.eastmountyxz.com 簡介:自幼受貴州大山的薰陶,養成了誠實質樸的性格。經過寒窗苦讀,考入BIT,為完成自己的教師夢,放棄IT、航天等工

資料乾貨總結(一)--NLP基礎

本文共計1463字,預計閱讀時長八分鐘 NLP-基礎和中文分詞 一、本質 NLP (Natural Language Processing)自然語言處理是一門研究計算機處理人類語言的技術 二、NLP用來解決什麼問題 語音合成(Speech synth

基礎學習大資料的33個知識點整理

摘要: 下面是一些關於大資料探勘的知識點,今天和大家一起來學習一下。1. 資料、資訊和知識是廣義資料表現的不同形式。2. 主要知識模式型別有:廣義知識,關聯知識,類知識,預測型知識,特異型知識3. web挖掘研究的主要流派有:Web結構挖掘、Web使用挖掘、Web內容挖掘4. 一般地說,KD

資料方面的研究必須用的那些知識!!!

關於資料探勘方面的研究,我原來也走過一些彎路。其實從資料探勘的起源可以發現,它並不是一門嶄新的科學,而是綜合了統計分析、機器學習、人工智慧、資料庫等諸多方面的研究成果而成,同時與專家系統、知識管理等研究方向不同的是,資料探勘更側重於應用的層面。   因此來說,資料探勘融合了相