科學研究設計六：有效性威脅

阿新 • • 發佈：2018-11-02

說明

這是Bangor University 2007年School of Sport Health & Exercise Sciences的教學講義，大家可以在這裡檢視原課程的講義

課程目錄

為什麼要看這個？

這個在我看來，適合大學生或者剛入學的研究生學習，主要為了提高科學素養、培養科學研究的思維以及一些研究設計中要考慮的很多細節問題。雖然裡面沒有很多高超的方法，而且課程也是十年前的，但是裡面對於科學的理解以及思考問題的思維方式確實值得剛進入科研這條不歸路的人學習。

格式說明

標題格式都按照markdown排版的，但是標題之間的關係可能沒有排好，主要是參考了原課程網站的標題設計
書中一些專有名詞或者大牛們說的話都沒有翻譯，以防止因為我的問題導致誤解
名人名言和我自己的理解都是用引言格式標註的，不同的是，大牛們的話是英文，我自己的理解是中文
因為課程中有問答環節，問題我會用加粗來標識，問題的答案一般會用斜體來標識

最後一句話

因為本人英文水平有限，有些話翻譯得可能很彆扭，有能力的話建議大家去看原網址。

這裡寫圖片描述

內部有效性和外部有效性 Internal and external validity

在第四課（實驗設計）中，我們介紹了潛在的自變數問題：可能會有一些導致因變數變化的非受控因素。這些因素被稱為研究的內部有效性威脅

(threats to the internal validity)。因此，內部效度與研究的設計在多大程度上使我們將因果性歸因於自變數並排除了潛在的其他解釋。研究者的任務是設計研究，排除合理的替代解釋，以確定是造成這一效應的自變數。

內部有效性就是說，研究的目的就是為了確定因變數的變化只受自變數影響，排除其他的不受控因素。國內也有人翻譯為內部效度是因變數和自變數之間關係的確實性程度，是實驗結論的真實性。

研究有效性的第二個方面涉及研究設計在多大程度上允許我們將結果推廣到非抽樣樣本的人群，或不同環境或不同時間的類似人群。這被稱為外部或生態效度(ecological validity

)。外部效度是關於應用於現實世界的結果是否有意義。

外部有效性，或者叫外在效度(external validity)是指研究結果的代表性或普遍性。具體說來，就是指研究結果是否可以推廣到類似情景中去的程度。

內部有效性（Internal validity）：研究設計在多大程度上可以將因變數的變化歸因於自變數的變化？

外部有效性（External validity）：我們可以在多大程度上將研究結果推廣到其他人或環境？

在本課中，我們將詳細研究有效性面對的主要威脅以及不同的研究設計如何對其進行控制。從一開始就要注意到，需要考慮研究的特定環境來評估不同有效性威脅的可能性。在某些情況下，特定威脅可能根本不適用。

對有效性的威脅可以大致分為三類：與時間流逝(passage of time)相關的威脅，與參與者選擇( selection of participants)相關的威脅以及與測試和操縱相關的威脅。後一類包括反應性安排，將分開處理的多種威脅。

與時間流逝有關的威脅 Threats relating to the passage of time

與時間的流逝相關的威脅無論何時使用重複的措施設計都是潛在的問題。這個類別有五個主要的威脅：成熟(Maturation)，歷史(History)，死亡率(Mortality)，儀器(Instrumentation)和統計迴歸的平均值(Statistical regression to the mean)。

成熟(Maturation)

這種威脅與時間的推移有關，例如發展變化，衰老，飢餓，疲勞等。例如，假設一位教育研究人員有興趣評估8歲兒童使用新的閱讀方法的效果。研究者考慮使用一個單一的組，前測(pretest)後測(posttest)設計：

$O_1------------------ X------------------ O_2$

對一類兒童的閱讀能力先進行評估測量，進行一段時間的新方法閱讀的課程，再對閱讀能力進行評估測量。 這個設計有什麼問題？

很明顯，不論具體的教學方法如何，孩子的閱讀能力都會隨著時間的推移而改善。因此，在前後測量之間觀察到的任何改善可能是由於人本身成熟：兒童自身認知的變化。新方法可能是有效的，但是我們不能把它的影響與那些已經發生的影響區分開來。

意識到他的錯誤後，研究人員決定採用隨機前測後測控制組設計：

$R—————— O_1—————— X—————— O_2\\ R—————— O_3—————— X—————— O_4$

兒童被隨機分配到兩組中的一組。一組接受閱讀課程，另一組接受“標準”教學方法。對這兩個組的閱讀能力進行前測試和後測試。 這是如何控制成熟的影響？

假設結果提示新的教學方法優於標準方法：

這裡寫圖片描述

兩組閱讀能力都有所提高，但接受新教學方法的實驗組提高得更多。由於孩子是隨機分組的，所以應該在閱讀能力和其他相關因素上應該是相同的。因此，任何發生的成熟的變化將同樣適用於這兩個群體。對照組的改善是由於正常的年齡變化，而實驗組的更大的改善則可歸因於新的教學方法，只要在操作中沒有其他潛在的自變數（有效性威脅）。例如，管理新教學方法的人只是一個更好的老師，或者比使用標準方法課程的人更有動力，更熱衷於使用新方法的前景。正因為如此，實驗組的人員才能以更快的速度發展。那你怎麼能避免這些潛在的影響因素呢？

要想完全避免是很困難的！當然，你可以讓同一位老師使用這兩種不同的方法教學，但是再一次，他們可能會更有動力使用新方法。在某些情況下，比如醫藥領域建立的研究可以使實驗者不知道他們正在提供哪種治療以避免上述提到的問題。例如，在評估新葯療效的醫學研究中，採用雙盲(double-blind)程式是正常的：參與者本身和實驗者都不知道參與者是否正在接受藥物（或藥物的劑量）還是安慰劑（即沒有藥效的試劑）。但是顯然，在這個例子中你不能用這個方法。老師怎麼會不知道他們使用了哪種教學方法？如果你能想到一個方法來解決這個設計問題，你將會對科學做出重大貢獻！

成熟(Maturation)我們可以理解為參與實驗的人自身的年齡的變化會導致認知等的變化，如果試驗週期長，這種變化是研究者無法避免的。現在面對這個問題，主要的方法就是使用雙重差分模型（difference-in-differences model），就是第二個改進的設計。這在預測問題中經常出現，比如我們要考慮汽車的銷量，那麼我們第一個要避免的就是隨著年份的增長，經濟形勢的好轉，汽車銷量自然是增長的，首先要將這個原因排除在外。

歷史(History)

歷史是指除了可能影響因變數的實驗操作之外，在事前和事後測試之間發生的事件。成熟(maturation )效應是參與者自身發生的事件(happening within participants)，歷史效應是除了實驗人員的干預因素外，發生在參與者身上的事件(happening **to **participants)。

舉一個例子，假設一家大公司決定推廣健康飲食，減少吸菸和增加勞動力的體力活動。為推行這些與健康有關的行為而給予工人財政獎勵。該方案通過測量實驗之前和之後隨機抽取的工人樣本的飲食，吸菸和活動習慣來評估。在這裡，我們有一個單一的組，再次進行前測後測設計。假設在該計劃執行的同時，地方衛生當局開展了針對整個社群的重大健康促進舉措。這些舉措包括提供關於健康生活方式的資訊和建議，通過當地超市，休閒中心，媒體等宣傳。在這裡，我們有一個可能影響公司方案結果的歷史事件。勞動力隊伍中的任何健康行為的改善都可能是由於他們所面對的更廣泛的社會的健康促進舉措，而不是公司的財務激勵。

隨機對照組設計（有或沒有預先測試）的歷史威脅完全相同，正如他們控制成熟的影響一樣。如果這些組通過隨機分配進行了前測，那麼任何歷史效應都應該平等地影響這些實驗組。因此，除了由於歷史事件而在對照組中觀察到的任何變化之外，實驗組中的任何變化都可以歸因於自變數。

這個已經不算是什麼大問題了，隨機對照組就可以避免這個問題

死亡(Mortality)

死亡威脅與前期和後期測試之間實驗參與人員的退出有關。我們已經在取樣課上遇到了這個問題。退出可能與留在研究中的參與者有著系統的不同。因此，當參與者退出時，樣本的性質發生變化。在一個單獨的小組研究中，這意味著在預測試開始的樣本至少可以合理地代表感興趣的人群，但是在後測中可能不具有代表性。例如，假設進行一項研究來檢查激勵強化治療對堅持使用單一組的鍛鍊計劃的效果，即前測後測設計。沒有動力的參與者可能會退出，留下更多積極的參與者。任何明顯的鍛鍊增加都可能是因為最後離開的參與者無論如何都有強烈的動機去堅持這個計劃，與治療可能無關。

但是，我們已經討論了單組設計薄弱的兩個原因，還有更多的原因。一個隨機前測後測的對照組設計成什麼樣？在這裡，和前兩次的威脅一樣，隨機化也是為了彌補這個問題。如果參與者被隨機分配到組，那麼他們應該在動機和任何其他可能導致推出的因素上是相同的。因此，如果有推出的情況，同一類人應該會從兩個群體中推出。

然而，死亡仍然可能會出現問題，特別是如果治療費時或需要代表參與者的努力。假設我們使用隨機前測 - 後測對照組設計實施了研究，以評估動機治療對於堅持鍛鍊的有效性，並且使用包括參加四個一小時長的激勵增強課程，另外還提供了一個遵守資料的鍛鍊課程。對照組不需要參加任何這樣的課程，僅僅是練習課程。儘管這兩組在初始隨機化方面動機因素是等同的，但由於涉及的時間和精力，動力較小的參與者可能會退出治療組。因此，治療組縮小的方式與對照組無法比擬。對照組中有更多或更少動力的個體在後測中保持混合，但實驗組僅包含更多有動力的個體。因此，在後測中治療的任何明顯的優勢可能僅僅是由於參與者的動力而不是治療。

所以，死亡率只有在群體之間沒有差別死亡(differential mortality)（即不同類別的人從不同群體中退出）時才被控制。如果你做了這項研究，想想可能會有什麼後果，而且你遇到了退出，但沒有差別死亡率。這可能導致其他的問題嗎？

這裡的問題是，雖然這些群體的性質可能沒有差別，但它們將會發生變化。假設有些人從兩組中推出，人數相似，因為他們覺得練習課太難了。現在對操控變數的任何明顯的優勢只適用於那些沒有發現這些課程太難的人（比如更有動機的人，更合適的人，或者已經習慣了的人等等）。這意味著我們不能把結果推廣到為動機不強，不適應，不活躍的人。那麼在這種情況下，我們就有一個外部效度的問題：不能將我們的研究結果推廣到其他型別的人。

儀器(Instrumentation)

通常情況下，這是一個更直接的威脅。當測量因變數的方式在試驗前和試驗後或者在不同組之間有變化時，這是一個問題。這可能是由於儀器的校準錯誤，使用不同的儀器，或者由實驗者以不同方式使用儀器所致。

在我以前作為醫院手術室技術員時，我曾經測試過五個電子血壓計，都是同樣的品牌。他們給了五個不同的讀數，變化多達10毫米汞柱！假設我在研究中使用它們來評估放鬆對血壓的影響。我使用一個組，前測後測設計。在預測試中，我碰巧使用了一個低於在正確的值5毫米汞柱的測量儀，而在後測中我使用了一個測量值超過正確值的5毫米汞柱的測量儀。即使實際上治療已經使血壓降低了5毫米汞柱，我也不得不得出結論，放鬆實際上會增加血壓！因此，教訓是，確保您使用的是正確校準的儀器。

如同觀察性研究，當研究人員本身就是儀器時，儀器也可能是一種威脅。假設進行一項研究來評估訓練教練是否給予正面的反饋，實際上是增加了他們對正面反饋的使用的機會。我們通過觀察員在訓練期間記錄例項來評估提供的積極反饋，然後我們給予治療，並再次觀察教練，看看他們是否使用更積極的反饋。假設實際上培訓沒有效果，教練對積極反饋的使用不會增加。你能想出為什麼觀察者可能會在後測中記錄更多正面反饋例項的原因嗎？

觀察員可以更加熟練地注意和記錄正面反饋的情況，因為他們有更多的觀察教練的經驗，因此即使實際上沒有變化，他們在後測中也會比在前測中記錄更多的例項。由於這個原因，觀察性研究通常使用多個的觀察者，並在觀察中訓練他們，直到他們達到預定的一致性水平（回顧測量課的評價者間信度）。

這種現象同樣出現在資料分析中，特別是如果你的程式碼中需要隨機值（比如在切分訓練集和測試集時），請確保每次實驗的隨機值是一致的。另外，如果你需要記錄實驗時間，請確保你的計算機兩次實驗都在相同或類似的資源使用條件下。

統計迴歸的平均值(Statistical regression to the mean)

這是一個複雜的統計現象，可能發生在試驗前後測量設計中。每當我們進行試驗前測量時，因為某些在後測中不會出現的因素，有些人會在變數上得分較低或較高。那麼當你採取後測方法時，那些人不會再得分那麼低或者高。例如，假設我在本課中給了“研究方法”課多選題測驗。你們中的一些人會做一些幸運的猜測，並給出你不知道答案的問題的正確答案，所以你的分數將被誇大（即蒙對答案了）。這樣做的效果就是把課程的平均分數向上拖動。如果我稍後再給你們進行第二次相同的測試，那麼第一次碰運氣的人不太可能再做對。所以在後測中班級的平均值會更低（運氣沒有那麼好，不可能每次都蒙對）。

許多因素可以產生這種迴歸假象。對於個人，可能只是覺得這一天很糟糕天，心情不好，沒有集中注意力或者什麼的，而且可能很難確定是什麼導致了這個問題。當在一些準實驗設計中根據前測的極端分數選擇組時，統計迴歸極可能發生。回想一下，我們在前一課中討論了這種方法（the regression-discontinuity or cutoff design）。這裡的問題是，一些參與者只會在前測中得到極高的分數，這只是由於在後測中不會執行的因素（比如，運氣）。當參與者被隨機分配到組中時，迴歸不會是一個問題（提供隨機化的工作），因為導致“誤導性”極端分數的因素將隨機分佈在組中。

不幸的是，隨機化並不總是奏效。我們曾進行過一項研究，評估鬆弛治療對術前焦慮和麻醉困難的影響。將鬆弛治療與在相似時間段中聽短文（注意控制條件;稍後更多）和使用隨機前測後測對照組設計的無治療對照條件進行比較。當繪製時，放鬆和不治療組狀態焦慮的變化結果如下所示：

這裡寫圖片描述

為清楚起見，我在這裡省略了注意控制條件的結果。他們一直在中間。只要你看到這樣的結果，就應該想起這些警告。顯然，儘管隨機分配，這些群體在試驗前的測試中焦慮並不相同。因此治療組的焦慮明顯減少和對照組的增加可能歸因於統計迴歸。當我們把這項研究提交出版的時候，我們很快就指出了這一點。幸運的是，我們還有其他資料來解釋，並且這篇文章發表了。

與參與者選擇相關的威脅 Threats relating to selection of participants

這些威脅涉及在多個小組研究中給參與者分配治療條件時引入的偏差。

選擇偏差 Selection bias

這種威脅涉及將參與者分配給群體時由差異選擇產生的偏差。如果一開始這些小組是不同的，那麼在對其中一個小組實施治療之後，無論治療是否有效，他們很可能會有所不同。例如，假設在我們放鬆術前焦慮研究中，我們將更多焦慮的參與者分配給控制條件，而不那麼焦慮的參與者放鬆治療條件，並使用靜態組比較設計：

$N—————— X—————— O_1 \\ N—————— X—————— O_2$

我們可能會發現，放鬆組治療後焦慮不如對照組。顯然，這可能是因為放鬆小組無論如何都不那麼焦慮。很顯然，隨機分配到組可以避免這個問題，因為這些組在預測試中是相等的。

威脅可以相互影響 Threats can interact

在多組研究中，選擇偏差可能與我們已經遇到的以及未來的威脅相互影響。例如，我們可以選擇X為成熟。在這裡，如果存在差別選擇，則因變數的變化可能是由於一些群組中的成熟變化而不影響其他群組。例如，如果一個治療組的成員比對照組年輕，那麼治療組的任何變化都可能是由於成熟，而不是治療本身。或者我們可以選擇X為歷史。在這裡，如果存在差別選擇，則因變數的變化可能是由於在另一組中經歷的歷史事件而導致的。如果一組在預測試中是極端的（相對於總體均值），那麼我們也可以選擇X迴歸，而其他組則不是。

選擇X Selection X manipulation

選擇X互動是相當不同的。在這種情況下，操縱的效果只適用於特定人群的抽樣。因此這是對外部有用性的威脅。例如，大量的心理學研究已經使用本科生作為參與者，只是因為他們很容易掌握。然而，本科生與普通人群在很多方面有所不同。例如，人們希望他們比一般人更聰明，受教育程度更高。那麼，我們可能會質疑，從本科生獲得的結果是否適用於一般人群。

同樣，在體育科學方面，大量的研究都使用競技表現較低的體育表演者，因為很難有更多精英表演參與到我們的研究中來。假設我們發現當與較低水平的表演者進行測試時，一些干預“有效”。我們無法知道，除非我們繼續用這種人群進行測試，否則同樣的干預措施是否會對精英運動員有效。更進一步。如果我們繼續在英超球員上測試干預措施，那麼我們怎麼知道同樣的干預措施對頂級短跑運動員來說同樣適用呢？無論內部有效性如何強大，沒有設計可以回答這個問題。實際上，這是一個我們必須始終牢記的的普遍的外部效度問題。從邏輯上講，我們不能將內部有效研究的結果推廣到與用於測試干預的人群不同的人群（ Logically, we cannot generalise the results of an internally valid study to populations other than the one used to test an intervention）。但是，我們通常沒有資源對每一個可能的人口採取干預措施。在結束的時候，我們必須對我們的發現在多大程度上能夠推廣到不同的人群進行一般化的判斷。這就成了一個有效性的問題：從不同的人群中獲得同樣的結果是否合理？

取樣結果能夠視為普遍結果，在樣本人群上的研究結果能否視為普遍結果。現在人們說大資料可以不用取樣了，我們可以獲取全部的資訊，但是你確定你獲取的是大資料？你的大資料是全部資訊嗎？

測試和操縱相關的威脅 Threats relating to testing and manipulations

這些威脅與測試參與者的行為有關，而且與那些預期行為不同的操縱的潛在影響。

測試 Testing

測試效果與在前測對於後測成績的影響有關。後測分數可能受到前測行為的影響，即在記憶、熟悉測試設定等方面獲得的練習的影響。例如，提高智商分數的最好方法就是進行智商測試！通常情況下，從第一次IQ測試到第二次測試，分數提高了大約3-5分。當然，這並不意味著進行智商測試會提高你的智力！

單組前測後測設計顯然會面臨這種威脅。隨著時間的推移，任何明顯的變化可能只是由於採取了預先測試的行為，而不是由於任何干預。那麼隨機前測 - 後測對照組設計怎麼樣？

希望現在你已經得到了技能！如果參與者被隨機分配到組中，那麼測試效果將在所有組中均等地表現出來。因此，我們可以確定操縱對實驗組的影響，超過了測試本身的影響。

測試的反應性影響 Reactive effects of testing

前測可以以更微妙的方式改變人們面對後測反應的方式。例如，假設我們讓一些年輕運動員完成關於體育運動中毒品的態度問卷。填寫問卷的行為可能會讓他們離開，對體育藥物的思考比以前更加深入。然後，如果您在以後再次提交同樣的調查問卷，他們可能會以不同的方式回答預先測試的問題，而不考慮旨在改變態度的任何干預措施的效果。這也被稱為預測試敏感性：預測試使參與者對干預敏感，以便他們以不同於沒有參與預測的應答的方式做出反應。測試的反應效果實際上是預測試和干預之間的相互作用。這是對外部效度的威脅，因為如果根據我們的研究，我們認定我們的干預是有效的，那麼當我們外出並在現實生活中應用干預時，我們通常不會預先測試個人。你能想到一個可以避免這個問題的設計嗎？

隨機後測只控制組設計控制測試效果和測試的反應效果，因為沒有預測試！因此，它可以比隨機前測後測控制組設計（因為沒有預測試致敏的可能性）提供顯著的優勢，當然，隨機化將在預測試中的組視為等同的。

所羅門四組設計：

$R—————— O_1—————— X —————— O_2 \\ R—————— O_3———————————— O_4 \\ R—————— —————— X—————— O_5\\ R—————— —————— —————— O_6$

也控制了測試的反應性效應，而且由於有一些小組既可以進行前期測試，也可以進行後期測試，因此可以確定干預前後干預期間是否有任何變化，沒有干預（即由於時間的推移）。正如前面所討論的，這是隨機的只有後測試的對照組設計不可能的，因為用這種設計，我們不能說出對照組在沒有干預的情況下隨時間變化了多少，因為沒有預先測試。*

但是，正如前一課所述，所羅門設計的實施費用昂貴且耗時。

反應性安排 Reactive arrangements

反應性安排不應與測試的反應性影響相混淆。這些是與參與者對研究背景的反應有關的更普遍的一類威脅。本質上，問題歸結為：研究環境不是自然的情況，所以我們可能期望研究的參與者表現不自然。換句話說，研究設定可能會影響到參與者做出和現實生活中的不同的反應。

研究是一項涉及研究人員和參與者之間複雜的人際交往的社交活動。因此，反應安排有時被稱為對有效性的社會威脅。與豚鼠或實驗室老鼠不同的是，人類研究參與者正在思考，合理化生物，他們總是試圖理解他們的情況，解釋他們正在發生的事情，並預測他們的期望。這在心理社會研究情況下變得特別成問題。那麼，社會對內部有效性的威脅關注的是由於研究背景中固有的社會因素而導致的因變數的變化。

舉例來說，多年來一直有很多爭論，是否有可能讓人們在催眠下進行一些不催眠情況下的正常表現的行為。六十年代初期的一項研究似乎支援這一觀點是可能的。催眠的參與者被告知要拿起毒蛇來玩耍，他們正是這樣做的。當然，毒液之前已經從蛇身上移開，但參與者不知道這一點。 Orne和Evans（1965）然後複製這個研究，但沒有催眠並且得到相同的作用！當被問到為什麼他們做了這麼看似危險的事時，與會者回答說，他們知道實驗者是負責任的人，他們不會真的把他們置於危險之中。在類似的研究中，奧恩和他的同事設法讓參與者犯下各種顯然危險甚至是暴力的行為，比如向他人的臉上扔“酸”（實際上只是水）。參與者在實驗環境中的表現往往不像平時那樣行事，早期實驗的結果可能不是由於操縱（催眠）而是由於參與者對情況的認識。

重要的是要指出，反應性安排不僅是實驗研究中的潛在問題。任何研究設定是不尋常的，可能會提示參與者的非特徵性反應。如果我攔下了High Street的人們並要求他們填寫一份問卷，這對他們來說是一個不尋常的情況，他們可能以不尋常的方式行事。

實驗參與的人既然已經知道了他們是在實驗中，那麼他們極有可能做出一些與正常生活中不同的事情。

動機問題 Motivational issues

每當參與的研究耗費時間，乏味，涉及厭惡的程式，需要經過努力等時，參與者在研究過程中可能失去動機或失去動力，從而影響他們的反應。此外，涉及威脅個人自我的程式或需要披露個人資訊的程式可能導致他們以不完全誠實的方式作出迴應。

一個相關的問題是社會適宜性反應偏差(social desirability response bias)。這是一個衡量問題。人們通常傾向於儘可能以最好的方式描繪自己。他們可能不願透露自己的恐懼或弱點。所以他們可以用他們認為是社會上可取的或可以接受的方式來回應。如果我要問“研究方法”課程，你們中有多少人會挖鼻孔，我敢打賭，你們當中的所有挖鼻孔的人都不會承認。作為一個更嚴肅的例子，運動員可能不願意表現出競爭焦慮的感覺。因此，當給予焦慮問卷時，他們的得分可能低於他們真實情況。同樣，當被要求彙報身體活動水平時，個體傾向於高估他們自己。他們也許不希望被視為懶惰。在重複測量的隨機多組研究中，如果我們假設過度或者低估的傾向是隨機分佈在群體之間，那麼這不是一個大問題。儘管獲得的絕對分數是不準確的，但我們仍然應該能夠檢測到不同時間的差異性變化，因為不同組別的人可能會在不同的場合高估或低估。

社會適宜性反應偏見是一種相對穩定的人格傾向。有些人比其他人有更好的社會迴應的傾向。調查問卷受社會需求響應影響的可能性可以在其發展過程中進行評估。量表可用於衡量以社會期望的方式作出反應的傾向，最顯著的是Marlowe-Crowne量表。這要求個人對一系列陳述作出真實或錯誤的回答。對於一些宣告，期望任何人如實或積極地作出迴應是極不可能或不合理的。例如，一個宣告說“我從不生氣”。由於大多數人在某些場合都會生氣，因此期望有人對此陳述作出“真實”迴應是不合理的。如果他們這樣做，那麼他們很可能會以社會願望迴應的偏見作出迴應。我們可以用兩種方式來使用這個量表。我們可以用一個新的問卷來管理它，並將這兩個方法的分數聯絡起來。一個顯著的相關性表明新的問卷容易出現這種反應偏差。其次，我們可以通過管理Marlowe-Crowne量表來識別那些傾向於以社會期望的方式做出反應的人，並將他們從我們的研究中消除。為了這個目的，許多人格庫存都包含了類似的物品，稱為撒謊量表( lie scales)。

沒有設計本身可以控制動機和反應的偏見因素。我們只能儘量減少它們。經常用來維持動機的方法是為參與者提供獎勵，例如金錢，學生參與者的課程學分或者參加抽獎的機會。你能想到這個問題嗎？

參與者可能會以不同於他們在日常生活中的反應的方式迴應，因為他們正在為獎勵或獎勵而努力！所以這樣的激勵措施可能會引入反應安排威脅

給予參與者的指令稱為教學集(instructional set)，可以用來向他們保證他們的答覆將被嚴格保密，除了用於回答研究問題之外別無他用。理想情況下，應該在匿名的情況下進行問卷調查和其他措施：沒有名字被採納，受訪者清楚，資料收集者不知道誰在填寫哪一份問卷小冊子，就像在每個學期結束時我們收集您的模組評估一樣。問卷的教學集通常還包括一個宣告，讓受訪者放心，該文書不是測試，也沒有正確或錯誤的答案。這樣做的目的是為了防止人們感覺到他們被放在現場，或者他們應該以特定的方式作出反應。

如果你在自己的研究中使用教學集，注意說話的方式。我曾經有一個最後一年的專案學生告訴她的參與者：“這不是一個測試，也沒有正確或錯誤的答案，我們只是想知道你對鍛鍊情況的感覺，你的答覆將以最嚴格的信心不會洩露給除了研究人員的任何人。“

需求特徵 Demand Characteristics

奧恩（Orne，1962）創造了“需求特徵”一詞來描述研究背景中可能導致參與者預料到研究假設是什麼的這些方面。他將需求特徵定義為“……向主體傳達實驗假設的線索的總和”(the totality of cues which convey an experimental hypothesis to the subject)。在設計研究時，我們需要確保我們最小化（即使我們不能完全消除）需求特徵。

需求特徵可能非常微妙，但容易忽視。我曾經研究過增強鍛鍊的目標設定訓練的效果。參加者被隨機分配到一個目標設定的訓練組或一個沒有接受目標設定訓練的注意控制組（稍後，更多的是關注控制）。在研究結束時，兩組都給了一個問卷，用來衡量他們是否設定了有效的目標。這包括評估他們設定具體，困難，可衡量，現實和有時間限制的目標的程度。目標設定訓練組在這些尺度上得分顯著提高。然而，獨立的定量和定性資料表明，實際上他們並沒有設定更有效的目標。當然，在制定目標的培訓計劃中，我曾經訓練參與者制定具體的，困難的，可衡量的，現實的，有時限的目標。在後測後，我問他們是否設定了具體的，困難的，可衡量的，現實的，有時限的目標。他們這樣彙報是不足為奇的，因為他們預料到那正是我期待的！我不得不得出結論，實驗組明顯更好的目標設定表現很可能是由於研究情況的需求特徵而非培訓。

預測假設 Anticipation of hypotheses

另一個反應性威脅是參與者對研究目的的理解。首先，他們可能只是誤解了給他們的指示。顯然，清楚明確地提出指示是很重要的。在開展研究之前進行試點測試有助於發現問題。

但是，還有一個更為微妙的問題，參與者遵循需求特徵或者採取不同的方式。如果參與者知道這個假設是什麼，他們可以做以下兩件事之一：遵守他們所期望的（所謂的“好”的參與者），或者反抗，故意破壞研究（壞的’參與者）。在任何一種情況下，他們都會以通常不會表現的方式行事。

為了防止這種情況發生，我們通常會隱瞞參與者的研究目的，儘管出於道德的原因，他們應該事後聽取彙報。不過，這並不一定能解決問題。因為他們總是試圖理解正在發生的事情，人類參與者往往會試圖猜測研究的目的是什麼，並考慮到情況中的任何線索（包括需求特徵）。他們可能會猜測錯誤，但無論如何，他們可能會做出遵守或蔑視他們認為的研究目的的反應，而不是在現實生活中通常表現的行為。

對照組參與者 Control group participants

被分配到無治療對照組的參與者可能會導致自己的問題。首先，總是有一個棘手的倫理問題，阻止研究人員認為會有好處的治療。這在醫學和其他關鍵應用領域的研究中是一個嚴重的問題。如果我們相信一種新的治療會改善帕金森病患者的生活，或者患有嚴重臨床抑鬱症的患者，那麼我們有什麼權利僅僅因為他們是我們研究的參與者而拒絕某些人的治療呢？通常的答案是最終通過研究，我們可以肯定的是，治療實際上是有效的，或比現有的治療更有效，我們可以排除有害的副作用。此外，如果我們發現治療有效，我們隨時可以把它交給對照組參加者，儘管對其中的一些來說可能太遲了。所以最後的“更大的好處”勝過了某些個人對待治療的壓力。

然而，對非治療控制條件的分配也會對有效性構成威脅，因為個體可能會因為知道自己不會得到治療而作出反應。假設我在當地的新聞媒體上宣傳志願者參加一項研究，使用飲食改變和體

科學研究設計六：有效性威脅

說明

課程目錄

為什麼要看這個？

格式說明

最後一句話

內部有效性和外部有效性 Internal and external validity

與時間流逝有關的威脅 Threats relating to the passage of time

成熟(Maturation)

歷史(History)

死亡(Mortality)

儀器(Instrumentation)

統計迴歸的平均值(Statistical regression to the mean)

與參與者選擇相關的威脅 Threats relating to selection of participants

選擇偏差 Selection bias

威脅可以相互影響 Threats can interact

選擇X Selection X manipulation

測試和操縱相關的威脅 Threats relating to testing and manipulations

測試 Testing

測試的反應性影響 Reactive effects of testing

反應性安排 Reactive arrangements

動機問題 Motivational issues

需求特徵 Demand Characteristics

預測假設 Anticipation of hypotheses

對照組參與者 Control group participants

相關推薦