1. 程式人生 > >科學研究設計四:測量

科學研究設計四:測量

說明

這是Bangor University 2007年School of Sport Health & Exercise Sciences的教學講義,大家可以在這裡檢視原課程的講義

課程目錄

為什麼要看這個?

這個在我看來,適合大學生或者剛入學的研究生學習,主要為了提高科學素養、培養科學研究的思維以及一些研究設計中要考慮的很多細節問題。雖然裡面沒有很多高超的方法,而且課程也是十年前的,但是裡面對於科學的理解以及思考問題的思維方式確實值得剛進入科研這條不歸路的人學習。

格式說明

  1. 標題格式都按照markdown排版的,但是標題之間的關係可能沒有排好,主要是參考了原課程網站的標題設計
  2. 書中一些專有名詞或者大牛們說的話都沒有翻譯,以防止因為我的問題導致誤解
  3. 名人名言和我自己的理解都是用引言格式標註的,不同的是,大牛們的話是英文,我自己的理解是中文
  4. 因為課程中有問答環節,問題我會用加粗來標識,問題的答案一般會用斜體來標識

最後一句話

因為本人英文水平有限,有些話翻譯得可能很彆扭,有能力的話建議大家去看原網址。

這裡寫圖片描述

Accurate reckoning: The entrance into the knowledge of all existing things and all obscure secrets. Ahmes, ancient Egyptian scribe, 1680-1620 BC.

如果這個科學公理是科學過程的中心,那麼測量也是一個核心的科學活動。 無論是測量原子的直徑,兩顆星之間的距離,運動員的有氧運動能力,還是某人的鍛鍊動機,科學家都參與了測量業務。 至少從實證主義的角度來說,測量是理解的基礎,如果測量要引導我們理解,就必須精確地進行。

再回想一下上一堂課。 我們討論的另一件事是理論發展和測試是如何科學的。 我們看了克林格(Kerlinger)(1986)對一個理論的定義:

A theory is a set of interrelated constructs (concepts), definitions, and propositions that present a systematic view of phenomena by specifying relations among variables, with the purpose of explaining and predicting the phenomena.

注意variables這個詞。 顯然,變數是不一樣的。 如果他們是不同的,他們必須在一些地方或者一些指標上有所不同。 所以如果我們對這些變化或者不同感興趣,我們必須測量它。 但是如果我們的措施各不相同,會發生什麼? 假設我想測量兩個固定點之間的距離,但是我的尺子是彈性的。 根據我施加多少力,距離看起來會有所不同,但實際上它保持不變。因此,我們的測量措施必須是一致的。

讓我們來看另一個測量場景,這對我們體育和鍛鍊科學家來說更有意義。 假設我想測量某人是多麼的胖。 最常用的肥胖指標之一是體重指數(BMI),即體重與身高的比值。 它是用一個人的體重除以他們身高的平方來計算的。 BMI因其計算簡單快捷而被廣泛使用,並且與身體脂肪高度相關。 短而胖的人比身材瘦高的人有更高的BMI。 但是那些脂肪少但肌肉豐富的健美運動員呢? 儘管瘦弱,他們的BMI也會很高。 所以BMI不一定是一個精確的體脂指標。

這些例子說明了測量中的兩個關鍵問題。我們的措施必須既一致又準確,或者更實際一致,儘可能準確。在技術術語中,這些問題被稱為測量的可靠性和有效性。在這裡,我們將更詳細地探討這些問題。首先,我們需要考慮各種不同型別的測量。

測量的級別 Levels of measurement

測量是給物件新增數字的過程。 有很多不同型別的物件可以被測量,並且不同型別的物件可以以不同的級別或數量相互關聯。 例如,假設我給每個班級的學生一個號碼,以1到100來表示他們。假設我也把我在學期末考試中的學生排名從1改為100.例如,數字10在這兩種情況下意味著完全不同的東西。 在第一種情況下,數字10只是識別學生,而在第二種情況下,數字10表示學生在考試中勝過90名同學。 這說明了測量水平或尺度的含義。 基本上有四個級別的測量,從最基本的到最精細的:名義(nominal),序數(ordinal),區間(interval)和比率(ratio)。

名義標度(Nominal Scales)只是簡單的使用數字來標記物件。上面通過給學生分配數字來識別學生的例子說明了這種測量。另一個例子是在性別上分配不同的數字,如1 =男性,2 =女性,或在實驗中給治療和對照組標記數字。我們應用名義變數通常被稱為分類變數,因為這些數字表示物件的不同類別。對於名義標度來說,重要的一點是分配的數字的相對值本身沒有意義,它們並不涉及數量:對女性給予2並不意味著它們比被分配1的男性好,聰明,快速或任何其他。事實上,名義標度根本就不是真正的數值,因為它們不是沿著連續的方向來衡量專案的。他們只是標籤。

在序數標度(Ordinal Scales)中,分配數字是為了表示物件沿著某個屬性呈連續的排序。因此,序數值是真實的尺度。排名從1到100的學生的考試成績就是一個序數的例子。在這裡,不同的數字確實顯示了被測量的物件的名次:排名第10當然比20更高。然而,注意到,與名義標度一樣,20並不意味著兩倍於10。比如,第10名學生在考試中取得了70分的成績,而第20名學生取得了65分的成績。此外,有序標度也沒有給出任何關於量表點之間相對差異的資訊:第10和第20之間的差異不同於20和30之間的差異。如果第10名學生得分為70,第20名得分為65,那麼這並不意味著第30名學生必須獲得60分。

區間標度(Interval Scales)為我們提供了關於標度點之間差異的真實資訊。它們的值不僅是連續的,而且間隔的單位差是不變的。攝氏溫標就是一個例子。溫度計中的汞以相等的間隔升高,因此10攝氏度與20攝氏度之間的差值與20攝氏度與30攝氏度之間的差值相同。然而,間隔標尺中的零點是任意的,並不意味著沒有數值。例如零攝氏度並不意味著沒有熱量,而是簡單地任意設定在水的冰點。因此,我們不能把間隔分數表示為一個比例:80攝氏度不是40攝氏度的兩倍。這可能有點難以理解,那麼考慮下面的例子。假設學生A在生理學考試中正確回答60個選擇題,而學生B正確回答30個,而學生C正確回答沒有答案。雖然我們可以說學生A的正確回答是B的兩倍,但是我們不能說學生A比生理學B更多地瞭解生理學。我們也不能說學生C對生理學一無所知。

比例標度(Ratio Scales)代表了最精細的測量水平。 用這樣的尺度,單位之間的差異不僅是恆定的,而且零點可以有意義地確定。 溫度的開氏溫標就是一個例子。 零度K意味著沒有分子的運動,因此沒有熱量。 更顯而易見的例子是長度和重量。 零釐米的長度意味著沒有長度!

離散變數與連續變數 Discrete versus continuous variables

另一個區分測量的度量區別在離散變數和連續變數之間。離散變數只能取整數(實際上,這不是嚴格正確,但通常是這樣,並且將作為一個工作定義)。諸如班級學生人數等變數是離散的。例如,你不能在一個班上有42.75名學生。連續變數是可以在給定範圍內取任何值,變數是連續的。例如身高,體重,最大攝氧量等都是連續變數。

可靠性 Reliability

如上所述,可靠性與一致性有關:測量儀器是否始終如一地給我們提供相同的結果?這裡的儀器不一定是指某種機械或電子測量裝置。儀器在這個意義上是指任何用來衡量物體某些性質的東西。因此,例如,設計用於衡量焦慮,態度,動機或性格等事物的問卷也是測量工具,在這種情況下,它們被設計用來衡量心理屬性,也是儀器。在行為觀察研究中,甚至可以把人們稱為工具。例如,兩個人可能會觀看一場足球比賽來記錄不公平的做法,犯規次數等。我們希望他們的錄音能保持一致(與裁判不同)!順便說一下,我們通常所說的問卷調查問卷根本不是問卷調查問卷,因為他們通常不提問題。相反,要求個人說明他們在多大程度上同意或不同意一套宣告。正確描述這種的詞是inventories,但“問卷”這個詞的使用非常廣泛,我們將在這裡堅持下去。許多型別的儀器也經常被稱為測試,但這並不一定意味著考試意義上的測試。最後,我們經常使用“尺度”這個術語。所有這些單詞基本上是可以互換的。

經典測試理論 Classical test theory

有許多可靠性理論,但最有影響力的是經典測試理論,最早由斯皮爾曼於1904年提出。根據這個理論,從一個儀器得到的分數由兩個部分組成,即真實分數和誤差分量。這個理論可以簡單地表示為:

O=T+e
也就是說,觀察得分(O)等於真實得分(T)加上一些誤差(e)。觀察得分是我們從我們的測量儀器獲得的。真實得分是被測量的實際得分。可以認為,如果我們的儀器是完美的,就可以得到分數。問題是沒有儀器是完美的,這是引入誤差的地方。

這是一個簡單的例子。假設您想要使用標記為1毫米間隔的標尺來測量紙上的線的長度。想象一下,將自己的頭部直接放在紙張的正上方,俯視線條的末端和標尺上的對應點。根據你的眼睛與尺子和線條的關係,你會高估或低估線條的長度。稍向右邊,你低估;稍微向左邊,你高估。你不可能把你的眼睛真正地垂直於線的末端。即使你這樣做了,你的讀數也要取決於你把標尺放線上的起始位置,以及你的眼睛能夠辨別標尺上的精細等級。假設線的末端似乎在140和141毫米之間,你叫140.5還是140.4或者140.6?那麼,即使有一個奇蹟,你不小心撞到了這條線的真正長度,你會再次在另一個場合碰到嗎?不太可能。

現在,假設你對此感到沮喪,你決定發明一種用於紙上測量線的電子眼。經過多年的研究和開發,花費數百萬英鎊,您最終生產的這種儀器能夠測量到百萬分之一微米的精度。你現在能得到真實的分數嗎?當然不是,因為你的電子眼只能精確到百萬分之一微米之內!

系統誤差和隨機誤差 Systematic and random error

有兩種型別的測量誤差,系統誤差和隨機誤差。系統誤差是永遠不會改變的錯誤。垂釣者以誇大他們捕獲的魚的大小而著稱。但是他們可能做得相當一致。如果魚長20釐米,他們會說是30。如果是30,他們會說是40,例如總是加10釐米。這是系統性的錯誤。它永遠不會改變和偏向真正的分數。另一個例子是總是快10分鐘的時鐘,或者總是低5mmHg的血壓計。如果我們意識到這些系統性錯誤,通常很容易解決。更重要的是,它們不影響可靠性,因為它們是可靠的錯誤!但是,它們確實會影響效度,我們稍後會談到。

隨機誤差是不可預測的,因此會影響可靠性。幸運的是,這種錯誤的隨機性給了我們一個處理它的方法。如果在某個屬性上兩次測量一個單獨的個體,雖然他們的真實分數根本不變,隨機誤差就表示兩次觀察到的分數是不同的。然而,由於錯誤是隨機分佈的,如果我們將來自感興趣的個體屬性的分數取平均,誤差將相互抵消,給出更接近真實分數的東西。不幸的是,我們通常不能從整個人群中獲得分數(所以我們需要取樣),所以我們不可能將所有正面和負面的錯誤相互抵消掉。

根據大資料的理論,在大資料時代,我們不需要取樣,能夠獲得全部資料,拿著是不是就意味著隨機誤差會被完全抵消掉呢?恐怕答案是否定的吧。

所以不管我們多努力,我們都不會完全消除我們測量的誤差。那麼我們要做的是通過開發更復雜的儀器來最小化誤差。與此同時,我們仍然有科學的工作去做,所以我們必須使用我們現有的任何工具。估計這些儀器的可靠程度,然後在我們的論文中報告這一點變得非常重要。幸運的是,我們可以做到這一點。可靠性評估主要有四種類型:重測信度(test-retest),評判間信度( inter-rater),內部一致性(internal consistency)和並行形式的可靠性(parallel forms reliability)。由於後者在運動和運動科學研究中很少遇到,所以我們只考慮前三項。這些評估可靠性的方法都是基於相關性分析的。

重測信度 Test-retest reliability

重測信度涉及測量場合的可靠性或穩定性。只要我們測量的屬性不變,儀器應該在不同的場合給我們相同的分數。評估重測信度的最廣泛使用的方法是在兩個不同的場合將得自一組個體的分數相關聯。完美的相關性(r = 1.0)表明該儀器在兩個時間內是完全一致的。當然,這是不太可能的。然而,重新測試相關性的適當大小是一個可移動的盛宴。這取決於被測量的財產可能在兩次測試之間的時間改變多少。對於一個相當固定的屬性(一個不應該改變的屬性),例如性格,你會期望在很長一段時間,甚至幾年之間有很強的相關性。如果你採取一些運動動機的話,應該在很短的時間內得到很強的相關性,但是在一段很長的時間內相關性就變得較弱,這是因為人們的鍛鍊原因在這個時間內改變了某些東西。

評判間信度 Inter-rater reliability

評判間信度 是指評判人在某些指標上的分數達成一致的程度。它通常用於行為觀察研究,當兩個或兩個以上的人評估研究參與者展示的一些行為。例如,你可以進行一項研究,檢查不同的教練在某種程度上表現出一定的教練行為,如讚美,糾正反饋,批評等等。為了衡量這些屬性,你會得到兩個或兩個以上的評委,根據預先確定的標準評分教練員的每一個行為,然後對這兩個評分進行平均。通常情況下,評委將接受培訓,以識別不同的行為,並在“真正的”學習之前在實驗工作中練習使用評分系統,以確保評分系統的可靠性。換句話說,你要確保兩位評委的一致。法官之間的一致性程度可以通過各種方式進行評估,但常用的方法是計演算法官得分之間的相關性。在這樣的研究中,至少有90%的相關性通常被認為是必要的,以表明可接受的評價者間信度。

內部一致性 Internal consistency

第三種類型的可靠性評估涉及儀器不同部分的可靠性。我的意思是說,我們可以用幾種不同的方式來衡量一個指標,然後把所得到的衡量結果合併為一個單一的分數。問卷是最明顯的例子。通常,調查問卷包括許多旨在衡量指標(例如焦慮,態度,性格等)的專案,然後對這些專案進行加和或平均以產生最後的分數。事實上,擁有多個屬性指標的行為提高了衡量標準的可靠性,只要它們都衡量相同的事情。作為一個例子,下面是一系列來自EMI-2 體重管理子尺度的專案:

weightscale這裡寫圖片描述

受試者對這四個專案的分數取平均值,以便為體重管理的原因提供一個總分。顯然,對於總體平均得分有意義,受訪者必須在每個專案上得到至少大致相同的得分。例如,在一個專案上得分5的人應該在所有其他專案上得分5左右。這種可靠性方面被稱為內部一致性(internal consistency)或同質性( homogeneity)。

評估內部一致性的傳統方法是檢查分半信度。你可以由一群人完成問卷,然後把一半專案的分數與另一半專案的分數相關聯。例如,對於上面的體重管理專案,您可以對每個受訪者的前兩項得分進行平均,對最後兩項進行相同的處理,然後將兩組得分關聯起來。高度的相關性表明兩套專案的一致性。問題在於有很多方法可以分割專案,取決於你如何分割專案,你可能會得到不同的結果,所以這種方法可以隱藏潛在的缺乏可靠性。

評估內部一致性的方法多種多樣,但是最廣泛使用的是Cronbach’s alpha可靠性係數。在數學上它是所有可能的分半可信度的平均值。幾乎在所有使用問卷調查的研究中,您都會看到。Cronbach’s alpha可以從0到1.0的範圍內,並且至少0.70的值通常被認為是可接受的。重要的是要注意,它只告訴我們一致的個人得分。它並沒有告訴我們,這些專案是否都在測量同樣的東西,正如人們經常描述的那樣。這是一個有效性問題,而不是可靠性問題。

測量的有效性 Validity of Measurement

衡量有效性是指儀器測量它應該測量的東西的程度。例如,假設你想開發一個新的現場測試來評估有氧健身。為了測試是有效的,它將評估有氧健身,而不是其他方面的健身,如力量或無氧動力。同樣,一個旨在衡量競爭焦慮的問卷應該衡量競爭焦慮,而不是覺醒或情緒狀態。

認識到儀器可靠但無效是最重要的。也就是說,它可以可靠地(一致地)衡量錯誤的東西。另一方面,根據定義,有效的儀器必須是可靠的。如果它正在測量應該測量的東西,它應該始終給出相同的分數。所以可靠性是有效性的必要條件,但不是充分條件。

區分測量有效性和研究的有效性也很重要。研究的有效性是指研究設計是否足以回答所要解決的問題。顯然,為了使研究有效,在其中使用的任何測量結果也必須是有效的。另一方面,採取有效措施並不能使研究有效。我們稍後將在討論研究的有效性。

衡量有效性評估有許多不同方面,事實上這些都是密切相關的。在這裡,我們將重點討論最常見的方面:內容有效性(content validity),標準效度(criterion-related validity),建構效度(construct validity)和因子有效性( factorial validity)。

內容有效性 Content validity

在一些工具型別裡,問卷是最明顯的,但不是唯一的例子,各個專案的分數被結合起來,為被測量的結構產生總分。 EMI-2的四個重量管理專案就是一個例子。內容效度是關於這組專案是否測試了應該測試的內容或者說所測試的內容是否反映了測試的要求,即測試的代表性和覆蓋面的程度。換句話說,儀器的各個部分應該充分利用結構的各個方面。例如,運動行為的社會認知理論的一個重要結構是關於人們對運動的可能結果的看法。這個結構是各種標籤的行為信念,結果期望,激勵等等,這取決於你所喜歡的理論。無論我們說什麼,對這個結構的任何衡量都應該包括對人們可能持有的行為結果的全面認識。這些可能包括健身,健康,社互動動,體重控制等等。

與內容有效性密切相關的另一個術語是表面效度。這只是關心是否來測量它是否應該測量的內容。表面和內容有效性的評估依賴於一個儀器的開發人員,他們對這個被設計用於測量的結構和/或已經建立了感興趣的領域的以前的研究有透徹的理解。通常情況下,樂器的開發者將向他們所在領域的專家小組提交新樂器,以獲得對其樂器內容有效性的獨立評估。通常要求專家指出他們認為應該取消哪些專案,因為這些專案不適用,併為進一步的專案提出建議。通常還要求他們對每個專案的適用性進行數字評估;然後可以保留一貫獲得高分的專案。

與標準相關的有效性與某個工具的分數與相關標準變數的分數相關的程度有關。評估這種情況的常見情況是新儀器的分數與舊儀器的分數相關度。例如,你可能會開發一種新的競爭焦慮量度,因為你覺得現有的量度不是很有效或可靠。所以你會讓運動員在適當的環境中完成這兩項措施,然後關聯兩個工具的得分。這個問題是雙重的。首先,相關性需要多大來表示有效性?對此沒有簡單的答案。這取決於情境,研究人員需要判斷一個特定的相關性是否足夠大。第二,如果舊儀器不是很有效(即舊儀器不是衡量新儀器的有效措施),而新儀器(工具或者方法)又是為什麼要相互關聯呢?所以這個方法比較弱,但總比沒有好。

一個更強有力的方法是將新工具與某些“黃金標準”標準聯絡起來。例如,通過呼吸氣體分析直接評估的VO2 max被認為是有氧能力的黃金標準量度。但是,測量費用昂貴且耗時。因此,研究人員已經開發了許多更簡單的現場測試來評估有氧能力,拉夫伯勒20米逐步穿梭執行是最廣泛接受的。通過檢查他們的得分與VO2最大分數的相關程度,這種測試已經根據直接VO2最大測試的黃金標準進行了驗證。不幸的是,我們通常沒有這樣的黃金標準措施來驗證我們的手段。

有兩種與標準相關的有效性。如果兩個工具的分數是在同一時間點或大約相同的時間點收集的,則稱為併發有效性。如果標準上的分數在某個時間晚於正在驗證的測試中的分數被收集,則被稱為預測有效性。後者的一個例子是,如果你開發了一個測試,旨在從未來的年齡選擇未來的精英運動員。你可以對一些年輕運動員進行測試,然後測量他們在運動(不知何故!)幾年後的成功,看看測試是否確實預測了成年後的表現。

建構效度 Construct validity

如果我用一把尺子來衡量在一張紙上畫出的一條線的長度,我就毫不客氣地宣佈我的措施是有效的(雖然也許不是可靠的,如上所述)。我可以直接觀察這條線,我知道那是我的尺子者所測量的。然而,我們常常想要測量的東西不是直接可觀的,而是一個假設的構想:我們用來理解發生的理論構造。心理學研究充滿了焦慮,動機,自信心等。一些顯然可以直接觀察到的東西也是事實上的結構。以身體健康為例。健身本身不能直接觀察,但是我們可以觀察身體功能的各個方面,其或多或少地反映身體的適應性,例如最大攝氧量,靜息心率,力量和柔韌性。

結構效度是指儀器準確測量這種結構的程度。結構有效性評估主要有三種類型:收斂和區分效度(convergent and discriminant validity),已知群體差異(known group differences)和因子有效性(factorial validity)的方法。

聚合和區分效度 Convergent and discriminant validity

任何變數都可以被認為嵌入在與宇宙中所有其他變數的關係網路中。其中一些關係是正面的,有些會是零,有些則是負面的。這種關係也會有所不同。收斂性和區分性有效性是關於檢查這個網路中兩個或多個工具之間的關係網路的選定部分,以便找到有效性的證據。收斂效度(如標準相關效度)是關於一個度量與相同或相似事物的其他度量之間的關係。這是關於兩個工具的分數如何匯合。區分有效性是指兩個或多個工具衡量不同事物的程度。例如,抑鬱症的衡量不應該衡量幸福,所以它應該區分這兩件事情。

在尋求聚合有效性的證據時,我們尋找一個工具和一個收斂標準之間的高度相關性。在尋求區分有效性的證據時,我們尋找工具與標準之間的低或零相關性。兩種工具之間強烈的負相關關係也可以作為聚合效度的證據:這就意味著,雖然一種工具是衡量一種資產的相對存在,但另一種工具是衡量其相對缺失。例如,考慮以下兩項:

這裡寫圖片描述

很顯然,這兩個專案都在測量類似的東西(信心),但是你會期望某個專案得分較高而另一個專案得分較低,反之亦然。因此他們之間的相關性是負的。

研究人員經常提供證據聚合或標準相關的有效性,但不太經常提出的區分效度的證據。這是不幸的,因為兩者都提供了更好的支援工具的有效性。

已知群體差異 Known group differences

已知的組間差異的方法相當簡單,涉及比較從已有研究中已知的組中獲得的得分,以及所測量的變數的差異。例如,大量研究表明,女性的體重管理鍛鍊動機往往比男性更強。因此,在EMI-2的體重管理分量表上,女性的得分顯著高於男性。

因子有效性 factorial validity

因子效度與測試的內部結構有關。這是最常用來檢查問卷的有效性。許多問卷都是多維的,即他們挖掘了被測量財產的許多不同但相關的維度。例如,上面提到的“運動動機調查表-2”包含14個維度,每個維度都有不同的運動動機(體重管理,壓力管理,力量和耐力等)。每個維度都有一些專案。另一個我相信你會遇到的例子是競技運動焦慮量表-2(CSAI-2),它有三個維度:認知焦慮,軀體焦慮和自信。

用於評估因子有效性的統計技術被稱為因子分析,這並不奇怪。接下來是對因子分析的一個非常基本的介紹,我試圖從概念的角度來展示技術,並避免它的數學(你會很高興聽到)。因子分析是用來確定組成多維儀器的專案如何與被測量的不同維度實際相關的先進和複雜的相關技術(或更確切地說是一組技術)。維度被稱為因子或潛在變數,問卷專案被稱為顯性或觀察變數。這些維度被稱為潛在維度,因為它們不是直接可見的。正如我們在前一節中討論的那樣,它們是假設的構造。比如說,我們不能直接觀察別人的自信心。但是,我們可以觀察到的是他們對一系列專案的迴應,從中我們可以推斷出他們的信心水平。

我們將以主觀運動經驗量表(SEES)為例來考察因素分析。這是由McAuley和Courneya(1994)設計的一個三因素問卷,用於測量運動誘發的感覺狀態,這三個因素是心理健康,心理困擾和疲勞。通常,我們將調查問卷的每個維度稱為分量表。 SEES中的每個分量表都有四個專案,要求被調查者以7分製表示他們在這個時間點所經歷的感受程度。因子分析並不侷限於問卷式資料的分析。例如,一些最早的運動和運動科學研究使用銀子分析技術來檢查體能的不同維度。

工具的因子結構可用圖形表示,用圓圈或橢圓表示因子,用正方形或橢圓表示觀察專案,從因子到專案的箭頭指示哪些專案屬於哪個因子,用曲線雙頭箭頭表示因素之間的相關性。以下是SEES的預期結構:

這裡寫圖片描述

這是SEES結構的一個模型,表明前四項是為了獲得積極的福祉,中間四項是心理困擾和最後四項是疲勞(當然,這三個因子並不在問卷調查本身,他們是混合在一起的)。同樣重要的是,圖片顯示前四項不是為了消除心理困擾或疲勞,而中間四項並不是為了獲得積極的幸福感或疲勞,而最後四項並不意味著要挖掘心理健康,或心理困擾。請注意,這是一個聚合和區分有效性的例子:這些專案應該收斂於他們的預期因素,並與其非意圖因素區分開來。所以我們用這樣一個多維度工具來實現的理想就是它具有所謂的簡單因子結構。也就是說,這些專案只是衡量他們應該測量的維度。最後,曲線箭頭表示這些因素之間的相關性。儘管在圖中沒有表示,但在這種情況下,幸福感與痛苦和疲勞呈負相關,而悲傷和疲勞呈正相關。

現在,想象一下,在一場運動結束之後,有一大群人填寫了SEES,所以我們從每個專案中獲得了他們的分數。 想象一下,我們要將專案上的所有分數相互關聯起來。 如果這個工具有一個簡單的因子結構,我們希望這些專案與來自同一子量表的其他專案強相關(相關),但是與其他子專案的專案只有弱相關,甚至更好,不相關。 所以相關矩陣應該是這樣的:

這裡寫圖片描述

我們應該有相同的因素之間的相關性較大,但在不同因子之間的專案之間小或理想中的零關聯。這是因子分析的基礎。但是,用這種技術我們更進一步。因子分析假定相關性採取這種模式的原因是因為這些專案是一個較小的一組潛在變數(在這種情況下是三個)的觀察指標。因此,因子分析試圖確定這個潛在結構是什麼,以及哪些專案與哪些潛在變數有關。如果我們的模型是正確的,那麼因子結構應該表明前四項與一個因素(我們稱之為心理健康)相關,後四項與第二個因子相關,等等。因子分析為我們提供了一個因子矩陣,它與上面的相關矩陣相似,應該顯示專案與其預期因素之間的大關係,與非預期因子之間的關係為弱或零。這裡是Markland,Emberton和Tallon(1997)的一些資料的因子矩陣。在這種情況下,SEES是由13-14歲的男孩和女孩完成體育課後的一輪比賽。

這裡寫圖片描述

這些數字被稱為因子載荷(factor loadings),可以像相關係數一樣被解釋。你可以看到,至少在這個樣本中,SEES確實有一個相對簡單的因子結構,對於它們的預期因子,專案的中等到強烈的負荷以及對非預期因子的負荷要小得多。因此,在13-14歲的孩子中,修改後的SEES的因子結構似乎相當好。

因子分析的探索性與驗證性研究 Exploratory versus confirmatory factor analysis

傳統的因子分析方法被描述為探索性的。這是因為他們實際上涉及對資料的探索。研究人員,或者說近年來他或她的計算機軟體,探索專案之間的相關性以揭示潛在的潛在變數。例如,這項技術最初是為了確定智力因素而設計的。研究人員將有大量的人完成一系列智力測試專案,然後進行探索性因子分析,試圖找出智力的基礎。通過這種方式,他們發現智力具有不同的組成部分,如口頭推理和視覺空間能力。從這些研究人員開始,他們並不知道他們將要找到什麼,而潛在變數是在分析完成之後給出的名稱,這些分析基於對在其上的物品的解釋。

不過,在目前的大多數情況下,無論是基於以前的研究,還是基於理論的SEES,您都已經知道測試的因子結構是什麼。近年來,技術已經被開發出來,並正在被越來越廣泛地使用,直接測試一個儀器的預測因子結構,看看假設模型與資料的吻合程度如何。這種方法被稱為驗證性因子分析(CFA),因為它著手確認工具的結構是否與預期一致。運動和運動心理學家已經率先應用這種方法,所以你很可能在你讀的研究論文中碰到它。但是,終審法院是複雜的,關於如何最好地應用它,有很多爭議,而且經常被濫用。由於這些原因,我會給你一些一般的指導方針,以幫助你評估CFA的研究,如果你遇到他們。如果你覺得這很困難,別擔心。這是,但是你完全掌握它並不重要。在這個階段,你所需要的就是這些原理的一個共同的想法。

關於因子分析,大家有興趣的可以去原網址看一下。