資料探勘必備基礎知識

阿新 • • 發佈：2019-01-05

資料探勘，從字面上理解，就是在資料中找到有用的東西，哪些東西有用就要看具體的業務目標了。最簡單的就是統計應用了，比如電商資料，如淘寶統計過哪個省購買泳衣最多、哪個省的女生胸罩最大等，進一步，可以基於使用者的瀏覽、點選、收藏、購買等行為推斷使用者的年齡、性別、購買能力、愛好等能表示一個人的畫像，就相當於用這些挖掘出來的屬性來刻畫一個人，這些還是最簡單的東西，更深層次的比如預測（股票預測），但是比較難。

　　說到資料探勘。往往與機器學習離不開。比如分類、聚類、關聯規則挖掘、個性化推薦、預測、神經網路、深度學習等。很多年前說人工智慧AI（比如產生式系統、專家系統等，好像現在提得比較少了），90年代AI到了瓶頸階段，機器學習是一個突破口，現在機器學習又遇到了瓶頸階段，深度學習又是一個突破口（其實神經網路出來了很久，但是為什麼中間一段時間沉寂了，在70年代左右出現了低潮（根據評論修改），我歸結是兩點，第一神經網路就像一個黑夾子一樣，很多東西不透明，模型的解釋性不強，以及當時沒辦法處理非線性分類問題（後面多層感知器便可以對非線性問題進行擬合，如解決XOR問題），引數過多，訓練複雜，容易出錯，容易過擬合，無法保證全域性最優，加上很多問題無法用數學方法證明（個人理解）等等，科學家和工程師還是有區別的，科學家都想把一個問題歸結為數學問題，然後證明出來，他們就會認為是有意義的，數學上證明其有效往往比做千百個實驗說明其有效要好些吧，工程師往往更在乎效果與結果），直到後來出現了BP演算法。第二，得益於現在的大規模計算工具，能夠處理PB級別的資料了。總之現在人工智慧還遠沒達到人類的水平，最後結果會怎樣，這個暫時不設想。

　　目前正處於大資料時代，很多企業擁有巨大的資料，比如阿里擁有消費資料、百度擁有搜尋資料，騰訊擁有社交資料，消費資料與搜尋資料都可以直接變現形成商業模式，而社交資料暫時還無法直接變現，至少企鵝現在還在探尋中，舉個例子，你的朋友圈，qq空間到處是廣告，你是不是很討厭，差評，呵呵。資料有了，還有個重要的方面，處理資料的能力，也就是資料處理工具，能夠處理這麼大的資料量，二者不可或缺，缺一談什麼大資料都是耍流氓。

　　對於資料探勘工程師：

　　首先你數學知識肯定要紮實吧，統計與概率論是最基本（也有人說現在的機器學習是統計學習，確實有道理）、微分與積分肯定要知道、數學公式要看的懂吧，進階階段最優化，隨機過程等。建議去看看機器學習十大演算法與一些深度學習的東西，多看大牛的部落格。

　　對於語言，搞科研知道matlab就永不怕了，但是對於工程師嘛，肯定要知道寫程式碼吧，不懂寫程式碼的工程師都是扯淡，不要寫程式碼的資料探勘與機器學習，那是研究員，懂得一門高階語言與一門指令碼語言就差不多了（如JAVA或C++，Python或R，個人推薦Java與Python，因為像Hadoop、Spark、Hive、MPI之類的都對Java提供了很方便的介面，Python寫指令碼很爽），還需要懂得Linux、Shell、SQL，這都是個人意見，至少在阿里，用java+sql+python+shell，阿里有個很牛逼的東西叫做ODPS，現在叫MaxCoupute，可以去阿里雲官網查查相關資料。

　　對於你所說的excel、SAS、SPSS，資料分析人員專用，因為工程師嘛，程式語言還是必須的。對於是否需要學習hadoop、hive之類的，個人意見是隻要知道用，然後怎麼用，怎麼在上面實現一些演算法，怎麼去優化自己寫的程式就差不多了，它們只是工具，而且更新得很快，就說hadoop吧，我還沒完全搞明白，就逐漸被spark取代了，記住，這些只是工具而已。推薦個加深你資料探勘功力的東西weka（單機版的）與mahout（分散式的，有基於hadoop與spark），都是開源的。

　　對於工作是否需要設計新演算法，我覺得在企業還是沒有要求這麼高，除非你覺得自己很牛逼，想向google看齊，但是設計一個好的演算法並能解決實際問題的演算法，不是一朝一夕的，個人觀點，很多演算法可以想出來，最大的問題就是怎樣去證明其正確，其有效。想到企業中去，多看看google與ms工程性的文章，想研究就多看看學術大牛的文章，比如ICML，IJCAI，KDD，NIPS，CVPR等。大部分工作是，將已有的機器學習與資料探勘演算法應用到具體的實踐中，根據業務場景與資料特點對演算法進行改造或者調整等。

　　最後舉個例子，你在淘寶上買一件衣服，系統怎樣向你推薦你感興趣的並且和這件衣服搭配的褲子或者飾品，這就是資料探勘工程師的一方面工作。

　　對於資料探勘與機器學習，也不是小小的幾百字能說清楚的，所以再補充一些想從事機器學習與資料探勘的需要學習的知識點：

常用的資料探勘&機器學習知識(點)

　　Basis(基礎)：

　　MSE(MeanSquare Error 均方誤差)，LMS(Least MeanSquare 最小均方)，LSM(Least Square Methods 最小二乘法)，MLE(Maximum LikelihoodEstimation最大似然估計)，QP(QuadraticProgramming 二次規劃)， CP(ConditionalProbability條件概率)，JP(Joint Probability 聯合概率)，MP(Marginal Probability邊緣概率)，Bayesian Formula(貝葉斯公式)，L1 /L2Regularization(L1/L2正則，以及更多的，現在比較火的L2.5正則等)，GD(Gradient Descent 梯度下降)，SGD(Stochastic GradientDescent 隨機梯度下降)，Eigenvalue(特徵值)，Eigenvector(特徵向量)，QR-decomposition(QR分解)，Quantile (分位數)，Covariance(協方差矩陣)。

　　Common Distribution(常見分佈)：

　　Discrete Distribution(離散型分佈)：Bernoulli Distribution/Binomial(貝努利分步/二項分佈)，Negative BinomialDistribution(負二項分佈)，Multinomial Distribution(多式分佈)，Geometric Distribution(幾何分佈)，Hypergeometric Distribution(超幾何分佈)，Poisson Distribution (泊松分佈)

　　ContinuousDistribution (連續型分佈)：Uniform Distribution(均勻分佈)，Normal Distribution/GaussianDistribution(正態分佈/高斯分佈)，Exponential Distribution(指數分佈)，Lognormal Distribution(對數正態分佈)，Gamma Distribution(Gamma分佈)，Beta Distribution(Beta分佈)，Dirichlet Distribution(狄利克雷分佈)，Rayleigh Distribution(瑞利分佈)，Cauchy Distribution(柯西分佈)，Weibull Distribution (韋伯分佈)

　　Three Sampling Distribution(三大抽樣分佈)：Chi-square Distribution(卡方分佈)，t-distribution(t-distribution)，F-distribution(F-分佈)

　　Data Pre-processing(資料預處理)：

　　MissingValue Imputation(缺失值填充)，Discretization(離散化)，Mapping(對映)，Normalization(歸一化/標準化)。

　　Sampling(取樣)：

　　SimpleRandom Sampling(簡單隨機取樣)，Offline Sampling(離線等可能K取樣)，Online Sampling(線上等可能K取樣)，Ratio-based Sampling(等比例隨機取樣)，Acceptance-rejection Sampling(接受-拒絕取樣)，Importance Sampling(重要性取樣)，MCMC(Markov Chain MonteCarlo 馬爾科夫蒙特卡羅取樣演算法：Metropolis-Hasting& Gibbs)。

　　Clustering(聚類)：

　　K-Means，K-Mediods，二分K-Means，FK-Means，Canopy，Spectral-KMeans(譜聚類)，GMM-EM(混合高斯模型-期望最大化演算法解決)，K-Pototypes，CLARANS(基於劃分)，BIRCH(基於層次)，CURE(基於層次)，DBSCAN(基於密度)，CLIQUE(基於密度和基於網格)，2014年Science上的密度聚類演算法等

　　Clustering EffectivenessEvaluation(聚類效果評估)：

　　Purity(純度)，RI(Rand Index，芮氏指標)，ARI(Adjusted Rand Index，調整的芮氏指標)，NMI(NormalizedMutual Information，規範化互資訊)，F-meaure(F測量)等。

　　Classification&Regression(分類&迴歸)：

　　LR(LinearRegression 線性迴歸)，LR(Logistic Regression邏輯迴歸)，SR(SoftmaxRegression 多分類邏輯迴歸)，GLM(Generalized LinearModel 廣義線性模型)，RR(Ridge Regression 嶺迴歸/L2正則最小二乘迴歸)，LASSO(Least AbsoluteShrinkage and Selectionator Operator L1正則最小二乘迴歸)， RF(隨機森林)，DT(Decision Tree決策樹)，GBDT(Gradient BoostingDecision Tree 梯度下降決策樹)，CART(Classification AndRegression Tree 分類迴歸樹)，KNN(K-Nearest Neighbor K近鄰)，SVM(Support Vector Machine，支援向量機，包括SVC（分類）&SVR（迴歸）)，KF(Kernel Function 核函式Polynomial KernelFunction 多項式核函式、Guassian Kernel Function 高斯核函式/Radial Basis Function RBF徑向基函式、String Kernel Function 字串核函式)、 NB(Naive Bayes 樸素貝葉斯)，BN(BayesianNetwork/Bayesian Belief Network/Belief Network 貝葉斯網路/貝葉斯信度網路/信念網路)，LDA(Linear DiscriminantAnalysis/Fisher Linear Discriminant 線性判別分析/Fisher線性判別)，EL(Ensemble Learning整合學習Boosting，Bagging，Stacking)，AdaBoost(AdaptiveBoosting 自適應增強)，MEM(Maximum Entropy Model最大熵模型)

　　Classification EffectivenessEvaluation(分類效果評估)：

　　ConfusionMatrix(混淆矩陣)，Precision(精確度)，Recall(召回率)，Accuracy(準確率)，F-score(F得分)，ROC Curve(ROC曲線)，AUC(AUC面積)，Lift Curve(Lift曲線) ，KS Curve(KS曲線)。

　　PGM(ProbabilisticGraphical Models概率圖模型)：

　　BN(BayesianNetwork/Bayesian Belief Network/ Belief Network 貝葉斯網路/貝葉斯信度網路/信念網路)，MC(Markov Chain 馬爾科夫鏈)，HMM(Hidden MarkovModel 馬爾科夫模型)，MEMM(Maximum EntropyMarkov Model 最大熵馬爾科夫模型)，CRF(Conditional RandomField 條件隨機場)，MRF(Markov RandomField 馬爾科夫隨機場)。

　　NN(Neural Network神經網路)：

　　ANN(ArtificialNeural Network 人工神經網路)，BP(Error Back Propagation 誤差反向傳播)，HN（Hopfield Network），

　　RNN(Recurrent Neural Network，迴圈神經網路），SRN（Simple Recurrent Network，簡單的迴圈神經網路），ESN（Echo State Network，回聲狀態網路），LSTM（Long Short Term Memory 長短記憶神經網路），CW-RNN（Clockwork

　　Recurrent Neural Network，時鐘驅動迴圈神經網路，2014ICML）等。

　　Deep Learning(深度學習)：

　　Auto-encoder(自動編碼器)，SAE(Stacked Auto-encoders堆疊自動編碼器：Sparse Auto-encoders稀疏自動編碼器、Denoising Auto-encoders去噪自動編碼器、ContractiveAuto-encoders 收縮自動編碼器)，RBM(Restricted BoltzmannMachine 受限玻爾茲曼機)，DBN(Deep BeliefNetwork 深度信念網路)，CNN(Convolutional NeuralNetwork 卷積神經網路)，Word2Vec(詞向量學習模型)。

　　Dimensionality Reduction(降維)：

　　LDA(LinearDiscriminant Analysis/Fisher Linear Discriminant 線性判別分析/Fish線性判別)，PCA(Principal ComponentAnalysis 主成分分析)，ICA(Independent ComponentAnalysis 獨立成分分析)，SVD(Singular ValueDecomposition 奇異值分解)，FA(Factor Analysis 因子分析法)。

　　Text Mining(文字挖掘)：

　　VSM(Vector SpaceModel向量空間模型)，Word2Vec(詞向量學習模型)，TF(Term Frequency詞頻)，TF-IDF(TermFrequency-Inverse Document Frequency 詞頻-逆向文件頻率)，MI(Mutual Information 互資訊)，ECE(Expected CrossEntropy 期望交叉熵)，QEMI(二次資訊熵)，IG(Information Gain 資訊增益)，IGR(InformationGain Ratio 資訊增益率)，Gini(基尼係數)，x2 Statistic(x2統計量)，TEW(Text EvidenceWeight文字證據權)，OR(OddsRatio 優勢率)，N-Gram Model，LSA(LatentSemantic Analysis 潛在語義分析)，PLSA(ProbabilisticLatent Semantic Analysis 基於概率的潛在語義分析)，LDA(Latent DirichletAllocation 潛在狄利克雷模型)，SLM(StatisticalLanguage Model，統計語言模型)，NPLM(NeuralProbabilistic Language Model，神經概率語言模型)，CBOW(Continuous Bag of Words Model，連續詞袋模型)，Skip-gram(Skip-gramModel)等。

　　Association Mining(關聯挖掘)：

　　Apriori，FP-growth(FrequencyPattern Tree Growth 頻繁模式樹生長演算法)，AprioriAll，Spade。

　　Recommendation Engine(推薦引擎)：

　　DBR(Demographic-basedRecommendation 基於人口統計學的推薦)，CBR(Context-based Recommendation 基於內容的推薦)，CF(Collaborative Filtering協同過濾)，UCF(User-based CollaborativeFiltering Recommendation 基於使用者的協同過濾推薦)，ICF(Item-based CollaborativeFiltering Recommendation 基於專案的協同過濾推薦)。

　　SimilarityMeasure&Distance Measure(相似性與距離度量)：

　　EuclideanDistance(歐式距離)，Manhattan Distance(曼哈頓距離)，Chebyshev Distance(切比雪夫距離)，Minkowski Distance(閔可夫斯基距離)，Standardized EuclideanDistance(標準化歐氏距離)，Mahalanobis Distance(馬氏距離)，Cos(Cosine 餘弦)，Hamming Distance/EditDistance(漢明距離/編輯距離)，Jaccard Distance(傑卡德距離)，Correlation CoefficientDistance(相關係數距離)，Information Entropy(資訊熵)，KL(Kullback-LeiblerDivergence KL散度/Relative Entropy 相對熵)。

　　Optimization(最優化)：

　　Non-constrained Optimization(無約束優化)：Cyclic Variable Methods(變數輪換法)，Pattern Search Methods(模式搜尋法)，Variable Simplex Methods(可變單純形法)，Gradient Descent Methods(梯度下降法)，Newton Methods(牛頓法)，Quasi-Newton Methods(擬牛頓法)，Conjugate GradientMethods(共軛梯度法)。

　　ConstrainedOptimization(有約束優化)：Approximation ProgrammingMethods(近似規劃法)，Feasible DirectionMethods(可行方向法)，Penalty Function Methods(罰函式法)，Multiplier Methods(乘子法)。

　　HeuristicAlgorithm(啟發式演算法)，SA(Simulated Annealing，模擬退火演算法)，GA(genetic algorithm遺傳演算法)

　　Feature Selection(特徵選擇)：

　　MutualInformation(互資訊)，Document Frequence(文件頻率)，Information Gain(資訊增益)，Chi-squared Test(卡方檢驗)，Gini(基尼係數)。

　　Outlier Detection(異常點檢測)：

　　Statistic-based(基於統計)，Distance-based(基於距離)，Density-based(基於密度)，Clustering-based(基於聚類)。

　　Learning to Rank(基於學習的排序)：

　　Pointwise：McRank；

　　Pairwise：RankingSVM，RankNet，Frank，RankBoost；

　　Listwise：AdaRank，SoftRank，LamdaMART；

　　Tool(工具)：

　　MPI，Hadoop生態圈，Spark，BSP，Weka，Mahout，Scikit-learn，PyBrain…

　　以及一些具體的業務場景與case等。

轉自：http://mt.sohu.com/20160810/n463598381.shtml

資料探勘必備基礎知識

資料探勘必備基礎知識

Python資料探勘的基礎理解

大資料學習——資料探勘理論基礎

資料分析與資料探勘 - 02基礎操練

Python資料探勘課程六.Numpy、Pandas和Matplotlib包基礎知識

【Python資料探勘課程】六.Numpy、Pandas和Matplotlib包基礎知識

寫給演算法／資料探勘面試小白的指南--計算機基礎知識

資料探勘基礎知識-矩陣(分解)

NLP&資料探勘基礎知識

看懂資訊檢索和網路資料探勘領域論文的必備知識總結

零基礎學習大資料探勘的33個知識點整理

【資料結構必備基礎知識】之圖的基本概念詳解

資料探勘基本知識

資料探勘方面的研究必須用的那些知識！！！

資料探勘基礎之統計學的分佈函式

零基礎入門大資料探勘之spark中的幾種map

零基礎入門大資料探勘之spark的rdd

零基礎入門大資料探勘之reduce方法

資料探勘基礎-2.中文分詞

資料探勘（KDD）初學基礎概要

資料探勘必備基礎知識

相關推薦