大資料學習-Hadoop生態章---TF-IDF及其演算法

阿新 • • 發佈：2019-01-08

TF-IDF及其演算法

概念:

TF-IDF（term frequency–inverse document frequency）是一種用於資訊檢索與資訊探勘的常用加權技術。TF-IDF是一種統計方法，用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加，但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜尋引擎應用，作為檔案與使用者查詢之間相關程度的度量或評級。除了TF-IDF以外，因特網上的搜尋引擎還會使用基於連結分析的評級方法，以確定檔案在搜尋結果中出現的順序。

原理:

在一份給定的檔案裡，詞頻 (term frequency, TF) 指的是某一個給定的詞語在該檔案中出現的次數。這個數字通常會被歸一化（分子一般小於分母區別於IDF），以防止它偏向長的檔案。（同一個詞語在長檔案裡可能會比短檔案有更高的詞頻，而不管該詞語重要與否。）

逆向檔案頻率 (inverse document frequency, IDF) 是一個詞語普遍重要性的度量。某一特定詞語的IDF，可以由總檔案數目除以包含該詞語之檔案的數目，再將得到的商取對數得到。

某一特定檔案內的高詞語頻率，以及該詞語在整個檔案集合中的低檔案頻率，可以產生出高權重的TF-IDF。因此，TF-IDF傾向於過濾掉常見的詞語，保留重要的詞語。

TFIDF的主要思想是：如果某個詞或短語在一篇文章中出現的頻率TF高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類。TFIDF實際上是：TF * IDF，TF詞頻(Term Frequency)，IDF反文件頻率(Inverse Document Frequency)。TF表示詞條在文件d中出現的頻率（另一說：**TF詞頻(Term Frequency)**指的是某一個給定的詞語在該檔案中出現的次數）。IDF的主要思想是：如果包含詞條t的文件越少，也就是n越小，IDF越大，則說明詞條t具有很好的類別區分能力。如果某一類文件C中包含詞條t的文件數為m

，而其它類包含t的文件總數為k，顯然所有包含t的文件數n=m+k，當m大的時候，n也大，按照IDF公式得到的IDF的值會小，就說明該詞條t類別區分能力不強。（另一說：**IDF反文件頻率(Inverse Document Frequency)**是指包含詞條的文件越少，IDF越大，則說明詞條具有很好的類別區分能力。）但是實際上，如果一個詞條在一個類的文件中頻繁出現，則說明該詞條能夠很好代表這個類的文字的特徵，這樣的詞條應該給它們賦予較高的權重，並選來作為該類文字的特徵詞以區別與其它類文件。這就是IDF的不足之處.

在一份給定的檔案裡，**詞頻（term frequency，TF）**指的是某一個給定的詞語在該檔案中出現的頻率。這個數字是對詞數(term count)的歸一化，以防止它偏向長的檔案。（同一個詞語在長檔案裡可能會比短檔案有更高的詞數，而不管該詞語重要與否。）對於在某一特定檔案裡的詞語 t_{i} 來說，它的重要性可表示為：

以上式子中 n_{i,j} 是該詞在檔案d_{j}中的出現次數，而分母則是在檔案d_{j}中所有字詞的出現次數之和。

逆向檔案頻率（inverse document frequency，IDF）是一個詞語普遍重要性的度量。某一特定詞語的IDF，可以由總檔案數目除以包含該詞語之檔案的數目，再將得到的商取對數得到：

其中
|D|：語料庫中的檔案總數
|{ j: t_{i} \in d_{j}}| ：包含詞語 t_{i} 的檔案數目（即 n_{i,j} \neq 0的檔案數目）如果該詞語不在語料庫中，就會導致被除數為零，因此一般情況下使用1 + |{j : t_{i} \in d_{j}}|
然後

某一特定檔案內的高詞語頻率，以及該詞語在整個檔案集合中的低檔案頻率，可以產生出高權重的TF-IDF。因此，TF-IDF傾向於過濾掉常見的詞語，保留重要的詞語。

參考：參考資料

大資料學習-Hadoop生態章---TF-IDF及其演算法

TF-IDF及其演算法概念: TF-IDF（term frequency–inverse document frequency）是一種用於資訊檢索與資訊探勘的常用加權技術。TF-IDF是一種統計方法，用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的

大資料學習-Hadoop生態章---(一)HDFS

大資料學習-Hadoop生態章 (一) HDFS 1.1.Hadoop簡介 Hadoop是分散式的系統架構，是Apache基金會頂級金牌專案。 Hadoop實現了一個分散式檔案系統(Hadoop Distributed File System)，簡稱HDFS。 Had

大資料學習-Hadoop生態章---HDFS完全分散式(1.X版本)搭建及eclipse外掛整合

完全分散式搭建(1.x版) 一.環境的準備（詳情參考Linux章） Linux 環境 JDK 準備至少3臺機器（通過克隆虛擬機器；配置好網路JDK 時間 hosts，保證節點間能互ping通）時間同步 (ntpdate time.nist.gov)

一步一步學習大資料：Hadoop 生態系統與場景

Hadoop概要到底是業務推動了技術的發展，還是技術推動了業務的發展，這個話題放在什麼時候都會惹來一些爭議。隨著網際網路以及物聯網的蓬勃發展，我們進入了大資料時代。IDC預測，到2020年,全球會有44ZB的資料量。傳統儲存和技術架構無法滿足需求。在2013年出版

大資料技術Hadoop生態圈

檔案儲存：Hadoop HDFS、Tachyon、KFS、Carbon、Parquet 離線計算：Hadoop MapReduce、Spark 流式、實時計算：Storm、Spark Streaming、S4、Heron、Flink K-V、NOSQL資料

大資料學習Hadoop快速入門

1、Hadoop生態概況 Hadoop是一個由Apache基金會所開發的分散式系統整合架構，使用者可以在不瞭解分散式底層細節情況下，開發分散式程式，充分利用叢集的威力來進行高速運算與儲存，具有可靠、高效、可伸縮的特點。大資料學習群119599574 Hadoop的核心是Y

大資料學習——Hadoop第一天

1.1 什麼是HADOOP HADOOP是apache旗下的一套開源軟體平臺 HADOOP提供的功能：利用伺服器叢集，根據使用者的自定義業務邏輯，對海量資料進行分散式處理 HADOOP的核心元件有 HDFS（分散式檔案系統） YARN（運算資源排程系統） MAPR

大資料學習——hadoop叢集搭建2.X

1.準備Linux環境 1.0先將虛擬機器的網路模式選為NAT 1.1修改主機名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=itcast ### 1.2修改IP 兩種方式：第一種：通過Linux圖形介面進行修改（強烈推薦）進入Linux圖形

大資料學習——hadoop的RPC框架

專案結構服務端程式碼 test-hadoop-rpc pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xml

大資料之Hadoop生態系統概述

一、什麼是大資料首先，我們來了解一下，什麼是大資料？大資料（BigData）是指無法在一定時間內用常規軟體工具進行捕捉、管理和處理的資料集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率、多樣化的資訊資產。由IBM提出的大資料

TF-IDF及其演算法

概念 TF-IDF（term frequency–inverse document frequency）是一種用於資訊檢索與資訊探勘的常用加權技術。TF-IDF是一種統計方法，用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的重要性隨著它在

大資料學習之路91-Hadoop的高可用

我們之前一直沒有配置過hadoop的高可用，今天我們就來配置一下之前我們的namenode只要一掛，則整個hdfs叢集就完蛋。雖然我們可以通過重啟的方式來恢復，可是我們重啟好之前，我們的hdfs叢集就不能提供服務了。所以它存在單點故障問題。我們可以設定兩臺namenode ,一臺為a

大資料學習記錄（hadoop hive flume azkaban sqoop）

大資料學習記錄（hadoop hive flume azkaban sqoop） 1. hadoop對海量資料進行分散式處理 2. 核心元件：HDFS（分散式檔案系統）、YARN（運算資源排程系統）、MAPREDUCE（分散式運算程式設計框架） 3. HIVE：基於大資料技術（檔案系統+運算框架

大資料之Hadoop學習（環境配置）——Hadoop偽分散式叢集搭建

title: Hadoop偽分散式叢集搭建 date: 2018-11-14 15:17:20 tags: Hadoop categories: 大資料點選檢視我的部落格: Josonlee’s Blog 文章目錄前言準備偽分

學習筆記:從0開始學習大資料-5.hadoop hdfs檔案讀寫api操作

學習測試，網上下的程式碼，測試通過，助於理解讀寫程式流程 package com.linbin.testmaven; import java.net.URI; import java.text.SimpleDateFormat; import java.util.Date; import or

學習筆記:從0開始學習大資料-2.hadoop安裝

在膝上型電腦安裝學習環境，採用all in one的偽分散式，所有都在一臺電腦部署。 1.下載 hadoop wget http://archive-primary.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.16.0.tar.gz 2. 解壓&n

大資料學習初級入門教程（一） —— Hadoop 2.x 的安裝、啟動和測試

大資料最基礎的就是資料的儲存和計算，而 Hadoop 就是為儲存和計算而生，是最基礎的大資料處理工具。這篇簡單寫寫 Hadoop 2.x 的安裝，啟動和測試。一、準備環境大資料環境的部署，一般都是叢集，機器數量為奇數，這裡以 5 臺機器為例，作業系統為 CentOS 6.9_x64；

大資料之Hadoop學習——動手實戰學習MapReduce程式設計例項

文章目錄一、MapReduce程式設計例項 1.自定義物件序列化需求分析報錯：Exception in thread "main" java.lang.IllegalArgumentExcept

大資料之Hadoop學習《一》——認識HDFS

title: 大資料之Hadoop學習<一>————認識HDFS date: 2018-11-12 20:31:36 tags: Hadoop categories: 大資料 toc: true 點選檢視我的部落格：Josonlee’s Blog 文

大資料學習之Hadoop快速入門

1、Hadoop生態概況 Hadoop是一個由Apache基金會所開發的分散式系統整合架構，使用者可以在不瞭解分散式底層細節情況下，開發分散式程式，充分利用叢集的威力來進行高速運算與儲存，具有可靠、高效、可伸縮的特點。大資料學習資料分享群119599574 Hadoop

大資料學習-Hadoop生態章---TF-IDF及其演算法

TF-IDF及其演算法

概念:

原理:

相關推薦