1. 程式人生 > >資料探勘中基本概念--資料型別的屬性與度量

資料探勘中基本概念--資料型別的屬性與度量

當我們在學習資料探勘演算法或者機器學習演算法時,我們都會發現某些演算法只能應用於特定的資料型別,所以在學習資料探勘演算法或者機器學習演算法前我們需要對資料型別的屬性度量有一個很清晰的瞭解,如果在資料型別這一步就出現問題,不管演算法再怎麼優異肯定也是白搭!! 2.1.1  屬性與度量 本節我們考慮使用何種型別的屬性描述資料物件,來處理描述資料的問題。我們首先定義屬性,然後考慮屬性型別的含義,最後介紹經常遇到的屬性型別。 1. 什麼是屬性 我們先更詳細地定義屬性。 定義2.1  屬性(attribute)是物件的性質或特性,它因物件而異,或隨時間而變化。 例如,眼球顏色因人而異,而物體的溫度隨時間而變。注意:眼球顏色是一種符號屬性,具有少量可能的值{棕色,黑色,藍色,綠色,淡褐色,……},而溫度是數值屬性,可以取無窮多個值。 追根溯源,屬性並非數字或符號。然而,為了討論和精細地分析物件的特性,我們為它們賦予了數字或符號。為了用一種明確定義的方式做到這一點,我們需要測量標度。 定義2.2  測量標度(measurement scale)是將數值或符號值與物件的屬性相關聯的規則(函式)。 形式上,測量過程是使用測量標度將一個值與一個特定物件的特定屬性相關聯。這看上去有點抽象,但是任何時候,我們總在進行這樣的測量過程。例如,踏上浴室的磅秤稱體重;將人分為男女;清點會議室的椅子數目,確定是否能夠為所有與會者提供足夠的座位。在所有這些情況下,物件屬性的"物理值"都被對映到數值或符號值。 有了這些背景,現在我們可以討論屬性型別,這對於確定特定的資料分析技術是否適用於某種具體的屬性是一個重要的概念。 2. 屬性型別 從前面的討論顯而易見,屬性的性質不必與用來度量它的值的性質相同。換句話說,用來代表屬性的值可能具有不同於屬性本身的性質,並且反之亦然。我們用兩個例子解釋。 例2.3  僱員年齡和ID號  與僱員有關的兩個屬性是ID和年齡,這兩個屬性都可以用整數表示。然而,談論僱員的平均年齡是有意義的,但是談論僱員的平均ID卻毫無意義。的確,我們希望ID屬性所表達的唯一方面是它們互不相同。因而,對僱員ID的唯一合法操作就是判定它們是否相等。但在使用整數表示僱員ID時,並沒暗示有此限制。對於年齡屬性而言,用來表示年齡的整數的性質與該屬性的性質大同小異。儘管如此,這種對應仍不完備,例如,年齡有最大值,而整數沒有。 例2.4  線段長度  考慮圖2-1,它展示一些線段物件和如何用兩種不同的方法將這些物件的長度屬性對映到整數。從上到下,每條後繼線段都是通過最上面的線段自我新增而形成的。這樣,第二條線段是最上面的線段兩次相連而形成的,第三條線段是最上面的線段三次相連而形成的,依次類推。從物理意義上講,所有的線段都是第一條線段的倍數。這個事實由圖右邊的測量捕獲,但未被左邊的測量捕獲。更準確地說,左邊的測量標度僅僅捕獲長度屬性的序,而右邊的標度同時捕獲序和可加性的性質。因此,屬性可以用一種不描述屬性全部性質的方式測量。

  屬性的型別告訴我們,屬性的哪些性質反映在用於測量它的值中。知道屬性的型別是重要的,因為它告訴我們測量值的哪些性質與屬性的基本性質一致,從而使得我們可以避免諸如計算僱員的平均ID這樣的愚蠢行為。注意,通常將屬性的型別稱作測量標度的型別。 3. 屬性的不同型別 一種指定屬性型別的有用(和簡單)的辦法是,確定對應於屬性基本性質的數值的性質。例如,長度的屬性可以有數值的許多性質。按照長度比較物件,確定物件的排序,以及談論長度的差和比例都是有意義的。數值的如下性質(操作)常常用來描述屬性。 (1) 相異性  = 和  。 (2) 序  <、≤、>和≥。 (3) 加法   和  。 (4) 乘法   和  。 給定這些性質,我們可以定義四種屬性型別:標稱(nominal)、序數(ordinal)、區間(interval)和比率(ratio)。表2-2給出這些型別的定義,以及每種型別上有哪些合法的統計操作等資訊。每種屬性型別擁有其上方屬性型別上的所有性質和操作。因此,對於標稱、序數和區間屬性合法的任何性質或操作,對於比率屬性也合法。換句話說,屬性型別的定義是累積的。當然,對於某種屬性型別合適的操作,對其上方的屬性型別就不一定合適。 表2-2  不同的屬性型別

標稱和序數屬性統稱分類的(categorical)或定性的(qualitative)屬性。顧名思義,定性屬性(如僱員ID)不具有數的大部分性質。即便使用數(即整數)表示,也應當像對待符號一樣對待它們。其餘兩種型別的屬性,即區間和比率屬性,統稱定量的(quantitative)或數值的(numeric)屬性。定量屬性用數表示,並且具有數的大部分性質。注意:定量屬性可以是整數值或連續值。 屬性的型別也可以用不改變屬性意義的變換來描述。實際上,心理學家S. Smith Stevens最先用允許的變換(permissible transformation)定義了表2-2所示的屬性型別。例如,如果長度分別用米和英尺度量,其屬性的意義並未改變。 對特定的屬性型別有意義的統計操作是這樣一些操作,當使用保持屬性意義的變換對屬性進行變換時,它們產生的結果相同。例如,用米和英尺為單位進行度量時,同一組物件的平均長度數值是不同的,但是兩個平均值都代表相同的長度。表2-3給出表2-2中四種屬性型別的允許的(保持意義的)變換。 表2-3  定義屬性層次的變換

例2.5  溫度標度  溫度可以很好地解釋前面介紹的一些概念。首先,溫度可以是區間屬性或比率屬性,這取決於其測量標度。當溫度用絕對標度測量時,從物理意義上講,2°的溫度是1°的兩倍;當溫度用華氏或攝氏標度測量時則並非如此,因為這時1°溫度與2°溫度相差並不太多。問題是從物理意義上講,華氏和攝氏標度的零點是硬性規定的,因此,華氏或攝氏溫度的比率並無物理意義。 4. 用值的個數描述屬性 區分屬性的一種獨立方法是根據屬性可能取值的個數來判斷。 離散的(discrete)離散屬性具有有限個值或無限可數個值。這樣的屬性可以是分類的,如郵政編碼或ID號,也可以是數值的,如計數。通常,離散屬性用整數變量表示。二元屬性(binary attribute)是離散屬性的一種特殊情況,並只接受兩個值,如真/假、是/否、男/女或0/1。通常,二元屬性用布林變量表示,或者用只取兩個值0或1的整型變量表示。 連續的(continuous)連續屬性是取實數值的屬性。如溫度、高度或重量等屬性。通常,連續屬性用浮點變量表示。實踐中,實數值只能用有限的精度測量和表示。 從理論上講,任何測量標度型別(標稱的、序數的、區間的和比率的)都可以與基於屬性值個數的任意型別(二元的、離散的和連續的)組合。然而,有些組合並不常出現,或者沒有什麼意義。例如,很難想象一個實際資料集包含連續的二元屬性。通常,標稱和序數屬性是二元的或離散的,而區間和比率屬性是連續的。然而,計數屬性(count attribute)是離散的,也是比率屬性。 5. 非對稱的屬性 對於非對稱的屬性(asymmetric attribute),出現非零屬性值才是重要的。考慮這樣一個數據集,其中每個物件是一個學生,而每個屬性記錄學生是否選修大學的某個課程。對於某個學生,如果他選修了對應於某屬性的課程,該屬性取值1,否則取值0。由於學生只選修所有可選課程中的很小一部分,這種資料集的大部分值為0。因此,關注非零值將更有意義、更有效。否則,如果在學生們不選修的課程上作比較,則大部分學生都非常相似。只有非零值才重要的二元屬性是非對稱的二元屬性。這類屬性對於關聯分析特別重要。關聯分析在第6章討論。也可能有離散的或連續的非對稱特徵。例如,如果記錄每門課程的學分,則結果資料集將包含非對稱的離散屬性或連續屬性。  內容來源與參考:資料探勘導論2.1.1節內容。

---------------------

本文來自 葫蘆賽賽 的CSDN 部落格 ,全文地址請點選:https://blog.csdn.net/huruzun/article/details/41296241?utm_source=copy