Featured

選擇心理測驗的準則

心理衡鑑 2026年1月21日

在進行有效率且具臨床效度的心理評估時，測驗工具的選擇必須審慎考量多重面向，涵蓋臨床適配性、研究倫理以及實務操作的可行性。本章將系統性地回顧並探討在選擇心理衡鑑工具時，臨床心理師必須審慎評估的關鍵因素。在決定採用任何特定的測驗之前，施測者應自我檢核以下核心問題：

可取得性 (Availability)：該測驗是否容易取得且符合現行版本？
心理計量特性 (Psychometric Acceptability)：該測驗的信度與效度是否達到科學標準？
臨床實用性 (Clinical Utility)：該測驗結果能否有效回答轉介問題？
個案適配性 (Appropriateness)：該測驗是否適合個案的年齡、文化背景與身心狀況？

上述議題將在本章中進行詳盡的討論與分析。

衡鑑入門：基礎計量概念

在臨床心理師具備資格施測之前，必須先熟練掌握計算與解釋標準化測驗分數的能力。此外，精確理解特定測量術語的定義是絕對必要的，例如：「功能損傷 (Impairment)」或「平均水準 (Average)」。

標準分數與百分等級 (Standard Scores and Percentile Ranks)

標準化測驗的核心機制，在於將個案的原始分數 (Raw Scores) 與具代表性的常模對照組進行比較，進而轉換為具備統計意義的衍生分數。標準分數反映的是個案表現偏離常模群體平均值的程度與方向。在心理計量學中，常模通常假設呈現常態分配 (Normal Distribution) 或傳統的鐘形曲線。標準分數有多種呈現形式，本章將逐一探討。附錄 C 詳細列出了各類標準分數的數值對照表。

Z 分數 (Z-scores)：這是最基礎的標準分數，用以描述個案原始分數與常模平均數之間相差多少個標準差單位。Z 分數的平均數 (Mean) 設定為 0，標準差 (Standard Deviation, SD) 設定為 1。若個案的分數高於常模平均數 1 個標準差，則其 Z 分數表示為 +1.00。
標準分數 (Standard Scores)：在智力測驗中常見的計分方式。此類標準化分數分配的平均數設定為 100（或分測驗為 10），標準差通常為 15（或分測驗為 3）。若以分測驗為例，平均數是 10，標準差是 3。若個案分數高於平均數 1 個標準差，代表其標準分數為 13。魏氏智力量表 (Wechsler Scales) 的分測驗即為使用此類標準分數的典型範例。
T 分數 (T-scores)：廣泛應用於人格測驗。T 分數分配的平均數設定為 50，標準差為 10。若個案分數高於平均值 1 個標準差，則其 T 分數為 60。MMPI-3 (明尼蘇達多項人格測驗第三版) 及 MMPI-A-RF (青少年版) 皆採用此計分系統。
百分等級 (Percentile Ranks)：百分等級是最直觀且易於向非專業人士解釋的數值，其概念可理解為「在一百個人當中，該個案的表現勝過多少人？」。例如，如果個案的分數恰好高於平均數 1 個標準差，其百分等級約為 84，意即該個案的測驗表現優於 84% 接受該測驗的常模樣本。
描述性標籤 (Descriptive Labels)：衡鑑報告通常會依據標準化測驗分數的落點，賦予質性描述，如「優秀 (Superior)」、「功能損傷 (Impaired)」等。這些術語多源自魏氏智力量表的分類標準，具有特定的統計界線與臨床意涵，不應隨意混用。

表 1：標準分數的臨床解釋對照表

測驗指標	統計定義 (標準差)	百分等級 (近似值)	魏氏分測驗標準分數	嚴重度/能力描述
極端低於平均	低於平均 2 個標準差以下	< 第 2 百分位	≤ 4	功能損傷 / 極低
顯著低於平均	低於平均 2 個標準差	第 2 百分位	4	臨界 / 邊緣
低於平均	低於平均 1 個標準差	第 16 百分位	7	中下
平均水準	平均值 (Mean)	第 50 百分位	10	中等
高於平均	高於平均 1 個標準差	第 84 百分位	13	中上
顯著高於平均	高於平均 2 個標準差	第 98 百分位	16	非常優秀

由平均數計算 Z 分數的程序

若手邊缺乏自動計分軟體，或該測驗手冊提供的轉換表有限，臨床師可依循下列標準程序將原始分數轉換為 Z 分數：

從測驗手冊中查閱該年齡層或族群的平均數 (M) 與標準差 (SD)。
將個案的原始分數 (X) 減去平均數 (M)。
將所得之差值除以該測驗的標準差 (SD)。公式為：Z = (X - M) / SD。
最後參照附錄 C 將 Z 分數轉換為對應的百分等級。

測量標準誤 (Standard Error of Measurement) 對解釋的影響

必須認知到，每一種測量工具在本質上都存在誤差，即便是物理學上的尺也無法達到絕對的精確。測量標準誤 (SEM) 係指某特定觀測分數能在多大程度上反映個案的「真實能力 (True Score)」。

例如，對個案實施智力測驗時，心理計量理論假設存在一個能完美反映其能力的「真實分數」。然而，受限於測驗情境、專注力波動等隨機誤差，個案實際得到的「觀測分數」未必等於真實分數。測量標準誤即是依據測驗信度與標準差計算出的數值，用來推估真實分數可能落入的區間（信賴區間）。

舉例而言，若某測驗的標準誤為 5，而個案得分為 100，則我們有信心假設個案的真實分數極可能落在 95 至 105 分之間 (±1 SEM)。

標準誤的概念對測驗解釋具有多重且深遠的影響：

首先，當對同一位個案進行重複施測時，兩次分數的差異若未超過標準誤的範圍，則該差異可能僅是測量誤差的反映，而非代表個案能力有真實的改變。

其次，當我們使用切截點來判定功能層次（如：中等、優秀）時，必須謹慎看待落在臨界點的分數。考量到標準誤的存在，個案的真實能力範圍可能橫跨兩個不同的描述層次。例如，當個案分數位於邊緣地帶時，其信賴區間可能同時涵蓋「功能損傷」與「臨界」兩個範疇，解釋上應語帶保留。

定義功能損傷 (Defining Impairment)

許多初次接觸衡鑑的臨床工作者常驚訝於「功能損傷」的統計定義如此嚴格。例如，表現優於 16% 常模群體（即低於平均數 1 個標準差）的個案，僅被歸類為「中下」，而非異常。

採取如此嚴格定義的原因在於，測驗分數偏低可能源自多重因素，而非僅反映測驗所欲測量的核心缺陷。舉例來說，一位患有重度憂鬱症的成人，可能因動機低落或精神運動遲滯，導致其在記憶測驗的表現僅達第 16 百分位。此外，若個案所屬的種族或文化背景在常模樣本中代表性不足（未被充分納入），其測驗得分亦可能遭到低估，形成偽陽性的損傷判斷。

評估功能喪失 (Dysfunction)

心理測驗的另一項重要臨床效用，在於描繪個案的優勢與劣勢能力剖面圖，並藉此指認潛在的功能喪失。

值得注意的是，「統計上的正常」不等於「個人的正常」。舉例來說，一位原本表現卓越的商務律師，若在注意力與計算能力測驗中僅獲得「中下」程度的分數（例如第 16 百分位），雖然就統計標準而言尚未達「損傷」門檻，但考量其職業所需的高認知負荷及病前的高智力水準，此表現極可能意味著顯著的功能衰退（或許由憂鬱症或早期神經退化所致）。因此，判斷功能喪失的程度時，不應僅依賴絕對分數，更應參照其教育背景、職業成就等「病前功能 (Premorbid Functioning)」指標進行綜合研判。

其他可用的測驗資源

臨床實務上常用的測驗以及本書所討論的工具，皆具備堅實的實證研究基礎且相對容易取得。大部分測驗均可透過本書附錄 A 及各大衡鑑教科書所列的出版商進行訂購（例如：Cohen & Swerdlik, 2018; Groth-Marnat & Wright, 2016）。

若您嘗試使用或熟悉未在本書中介紹的測驗，建議採取以下途徑：（a）諮詢曾具備該測驗實務經驗的資深同儕或督導；（b）訂購並詳閱測驗手冊；或（c）直接向測驗出版商索取技術報告與白皮書（現多可透過網際網路下載）。此外，各大測驗公司發行的產品目錄與簡介手冊亦具參考價值。

權威參考書籍

下列參考書籍通常可在大學圖書館查閱，或透過測驗出版商（見附錄 A）購得。臨床心理師應熟悉以下三類介紹測驗的權威資源：

《第二十一版心智測量年刊》 (The Twenty-First Mental Measurements Yearbook) (Carlson, Geisinger, & Jonson, 2021)：此年刊定期收集並發表針對各個心理測驗的獨立評論與研究回顧，約每三年更新一次，是評估測驗品質的重要依據。
《測驗出版年鑑第十版》 (Tests in Print X) (Anderson et al., 2022)：詳列各個測驗的基本出版資訊，包括心理計量特性摘要、適用對象、手冊資訊、作者群與出版商聯絡方式。
《教育與心理測驗之標準》 (Standards for Educational and Psychological Testing) (AERA, APA, NCME, 2014)：由美國心理學會等三大機構聯合發布，提供了評估心理測驗品質、公平性與施測程序的權威性指導原則，是心理、教育與商業領域衡鑑工作的倫理與技術聖經。

電腦資料庫與線上資訊

隨著科技進步，已有越來越多的線上資料庫與電腦化衡鑑工具（Computer-Based Assessment）供專業人員選購。許多主要測驗出版商皆建置了功能完善的網站與搜尋引擎，協助臨床師搜尋較為冷門或特定領域的測驗資料（詳見附錄 A）。

選擇測驗的決策歷程

進行心理評估時，最基礎且關鍵的步驟始於測驗組合（Test Battery）的選擇。在此階段若能審慎思考下列議題，將能顯著提升評估工作的效率與精確度。我們主張，選擇測驗時必須綜合考量以下四大核心面向：

該測驗的心理計量特性 (Psychometric Properties)。
該測驗的臨床實用性 (Clinical Utility)。
影響測驗表現的個案因素 (Client Factors)。
影響施測品質的臨床者變項 (Clinician Factors)。

心理計量特性 (Psychometric Properties)

許多臨床心理師可能是在研究所課程受訓、臨床實習階段接觸，或經由實務工作的同事推薦而開始使用某些測驗。然而，即便這些測驗來源看似可靠，臨床師仍有責任確認其是否符合科學標準，特別是美國心理學會 (APA) 與相關組織所發布之**《教育與心理測驗之標準》(2014)**。這些標準在概念上可歸納為三個基本的心理計量特性：效度、信度及標準化。

效度 (Validity)

效度的核心問題在於：「該測驗是否真的測量到了它宣稱要測量的特質？」。一個測驗不需要在每個層面都完美才算有用，但必須符合您當下的評估目標。效度通常以測驗分數與外在效標之間的相關程度作為指標。一般而言，相關係數高於 .75 才被視為具有良好的效度。臨床師應熟記以下五種效度概念：

表面效度 (Face Validity)：測驗題目在受試者眼中「看起來」是否像是在測量該特質？（例如，憂鬱測驗包含明顯詢問沮喪的問題）。雖然這有助於受試者配合，但這是科學上最薄弱的效度指標。
內容效度 (Content Validity)：測驗的題項是否充分涵蓋了它所要評估的構念範疇？這通常需由專家小組鑑定，確認內容是否能代表該領域的核心。然而，內容涵蓋廣泛不必然保證能精確預測表現，因此單靠此效度仍顯不足。
同時效度 / 分歧效度 (Concurrent / Divergent Validity)：該測驗是否與測量相同構念的其他已知有效測驗呈現高相關（同時效度）？且是否與測量不同構念的測驗呈現低相關（分歧效度）？若無法展現這種聚斂與發散的特質，則該測驗分數的解釋力將大打折扣。
預測效度 (Predictive Validity)：測驗的分數能否準確預測個案未來的表現或特定結果？（例如，智力測驗分數能否預測未來的學業成績？）。若缺乏預測效度，則無法依據測驗結果對個案的未來功能進行推論。
建構效度 (Construct Validity)：測驗是否真實測量到了某個理論上的心理特質或建構？建構效度通常透過複雜的統計方法（如因素分析）來驗證，以確認測驗背後的潛在結構是否符合理論預期。

在選擇測驗時，還需考量以下潛在威脅效度的因素：

理解力缺乏：若個案因語言或認知限制無法理解指導語，其作答將無法反映測驗意圖測量的能力。
反應心向或偏差 (Response Sets/Bias)：個案的作答可能受多種非特異因素干擾，例如社會期許（Social Desirability）、默許反應（Acquiescence）或否認反應（Nay-saying）。衡鑑時應優先選擇內建效度量尺（Validity Scales）的工具以偵測上述偏誤。
低信度：測驗分數若不穩定，將直接限制其效度的上限（如下述）。

信度 (Reliability)

在理想的測量情境下，若個案的真實智商為 100，則無論何時施測，都應得到相同的分數。然而，受測者的表現在自然情境下本就會有波動，測量工具本身的誤差亦會造成變異。信度即是指測驗結果的一致性與穩定性。大多數信度係數以相關係數表示，一般而言，高於 .70 的相關才被視為可接受的信度標準（對於高風險決策，標準應更高）。與臨床衡鑑最相關的信度類型包括：

再測信度 (Test-Retest Reliability)：個案在不同時間點接受相同測驗，是否能得到一致的分數？這通常是透過間隔一段時間施測兩次計算而得。需注意再測信度易受練習效應、間隔時間長短、個案生活重大事件，以及施測者變異等因素干擾。
評分者或計分者間信度 (Inter-rater Reliability)：不同評分者對同一份測驗反應的評分是否一致？嚴謹的標準化施測與計分守則是提高此信度的關鍵。
複本信度 (Alternate-Form Reliability)：若該測驗有多種版本（如 Form A 與 Form B），它們測量出的分數是否具備可交換性？即便編製精良，複本間仍常存在些微變異。
折半信度 (Split-Half Reliability)：這是評估測驗內部一致性 (Internal Consistency) 的指標。例如，焦慮量表的前半段題目與後半段題目（或奇數題與偶數題）之得分是否高度相關？這反映了題目是否在測量同一概念。

標準化與常模 (Standardization and Norms)

大多數專業測驗皆經過標準化程序，意即個案的分數是與一群已接受相同標準程序施測的人（常模樣本）進行比較。常模的分配通常呈現鐘形曲線，中央為平均數。雖然衡鑑報告未必會詳細交代此背景，但臨床師需知曉大多數測驗是依「年齡」建立常模，部分測驗則提供依性別、教育程度或種族校正的常模。

標準化樣本的代表性至關重要，如果常模組無法作為個案的合理比較對象（例如用美國白人常模評估台灣原住民長者），則測驗結果將失去意義。此外，部分測驗是針對特定臨床群體（如腦傷患者、憂鬱症患者）建立特殊常模，使用時需特別留意適用範圍。

雖然單一測驗很難在所有標準上都達到完美，但至少應具備合理的信度，並在針對特定轉介問題上展現充分的效度。

臨床實用性 (Clinical Utility)

選擇測驗的最高指導原則是：該測驗必須有助於回答特定的轉介問題。若測驗結果無助於鑑別診斷或擬定治療計畫，則不應施測。關於釐清轉介問題的細節，請參閱本書第二章。

使用簡式或修訂版測驗 (Short Forms)

臨床工作者有時因時間壓力，會傾向使用標準測驗的簡式版本，常見如 MMPI-3 的部分量表、WISC-V 或 WAIS-IV 的縮短版。

儘管如此，必須警惕簡式版本往往會犧牲測驗的信度與效度。以 MMPI 系列為例，Ben-Porath (2012) 強烈建議不要隨意使用簡式版本，因為這可能遺漏關鍵的臨床訊息。對於魏氏智力量表，雖有多種簡式版本（Short Forms）受到廣泛研究，但其結果多僅能作為篩檢或估計，不能取代完整施測。在第四章我們將進一步討論。原則上，應僅選擇已經過嚴謹臨床研究驗證其效度的簡式版本。

電腦化施測與解釋 (Computerized Assessment and Interpretation)

電腦化衡鑑工具與自動解釋軟體的發展已呈指數型成長。雖然這些科技能顯著節省時間、消除計分錯誤並提升評分者間信度，但許多新興工具仍處於實驗或驗證階段。僅依賴電腦化進行認知衡鑑仍有其侷限，例如，我們無法完全排除個案的測驗表現是否受到了電腦操作熟練度（數位落差）的干擾。

隨著大多數主流衡鑑工具（見附錄 A）皆已配備計分程式，電腦化計分與解釋已成常態。使用電腦報告的優點在於能迅速整理出一系列複雜的衍生分數，並偵測計分錯誤，特別是像羅氏墨跡測驗 (Rorschach) 這類計分繁瑣的工具，人工計算極無效率且易出錯。

然而，針對人格問卷所生成的自動化敘事報告（Narrative Reports），其品質與效度變異甚大。此類報告有時會出現「巴南效應陳述 (Barnum Statements)」，即那些放諸四海皆準、缺乏特異性且模稜兩可的描述（例如：「個案有時會感到焦慮，但在某些情境下又能保持冷靜」）。臨床師在使用電腦解釋報告時，務必將其視為「臨床假設」而非最終結論，切勿過度依賴電腦生成的文字。

個案的因素 (Client Factors)

在評估前，必須細膩考量個案的種族、文化及語言背景差異。雖然最新版本的測驗（如 WAIS-IV）已致力於納入具代表性的人口樣本，並發展出針對特殊次團體的常模，但文化與種族背景仍可能顯著影響測驗分數的解釋 (Suzuki, Ponterotto, & Meller, 2016; Geisinger, 2013)。讀者將在第四章與第五章發現，許多常用測驗在常模取樣上，對於少數族群的納入比例仍有改進空間。儘管如此，當代觀點也強調，同一文化群體內部亦存在巨大的個別差異，因此個案的分數不應僅被簡單地化約為文化或種族因素，需採取多元文化衡鑑 (Multicultural Assessment) 的視角。

若您的個案來自少數族群或非主流文化背景，評估前務必檢核以下幾點：

語言流暢度與教育背景：個案對測驗語言的掌握度以及對主流教育體系的熟悉度。
文化適應程度 (Acculturation)：個案對主流文化的認同與適應水準。
測驗適配性：是否有具備適當常模或跨文化研究支持的測驗工具？
文化特異性現象：是否存在特定文化下的心理表達方式（Idioms of Distress）。
特殊服務需求：是否需要通譯服務或採用非語文測驗。

年齡因素

個案的年齡直接決定了測驗的選擇、施測長度及互動形式。如前所述，針對老年人及兒童，測驗時間宜縮短並採分段進行。較年幼的兒童在測驗初期可能需要父母陪同以建立安全感；而老年受試者可能對年輕臨床師的專業權威感到存疑，或因汙名化標籤而不易承認心理困擾，需更細緻的關係建立技巧。

教育程度與閱讀水準

大多數自陳式測驗（Self-Report Measures）均要求個案具備一定程度的閱讀理解能力。施測前應確認測驗的閱讀難度（Reading Level）適合個案的教育程度，因為個案若無法精確理解題意，將導致無效的評估結果。

生理與情緒的限制

若個案伴隨生理限制（如肢體障礙），某些標準化測驗可能就不適用，或需進行施測調整（Accommodation）。雖然已有針對聽力或視力損傷個案設計的專門測驗，但其常模樣本往往較小且範圍受限。大多數臨床師仍會選用第四、五章討論的主流測驗並進行適度調整，但在解釋時必須預期標準化分數可能會低估個案實際的認知潛能。

此外，患有嚴重心理病理（如急性精神病、嚴重躁鬱）的個案，常對衡鑑目的產生誤解或被害妄想。此時應優先選擇干擾性低、不破壞治療關係的測驗。若情況需要，應先進行情緒安撫或延後施測。請記住，並非每一位個案在任何時刻都適合接受測驗。這些限制因素都必須在衡鑑報告中誠實討論（詳見第 12 章）。

動機與測驗長度

若個案的測驗動機低落，試著在測驗開始前投入更多時間建立專業關係（Rapport），或調整施測順序，通常建議從較簡短、低挫折感的測驗入手。當必須實施整套測驗組（Test Battery），或者「缺乏動機/對立態度」本身就是臨床關注的焦點（例如評估對立反抗症）時，施測時間的管控與分段策略將成為成敗關鍵。

先前曾實施衡鑑 (Previous Assessment)

若個案近期曾接受過評估，臨床師需考量：

確認進行再次衡鑑的充分臨床理由（見前章）。
取得先前的衡鑑報告與原始數據，將其作為個案功能的基準線（Baseline）。
決定哪些測驗需要重測（需考量練習效應），以及應新增哪些測驗以補充不足。
若個案年齡已跨越測驗版本的適用範圍（如從 WISC 轉為 WAIS），取得原始資料以進行跨版本的發展比較（見第四章）。
評估個案是否在先前的評估中習得了某些「測驗技巧 (Test-wiseness)」，進而干擾本次衡鑑的真實性。

經濟與時間的限制

在現實的臨床場域中，選擇測驗不僅是科學決策，也是資源管理的決策。必須權衡個案的經濟負擔能力（若為自費）以及臨床端可投入的時間成本。

臨床者的變異 (Clinician Factors)

訓練與專業勝任力 (Competence)

在倫理規範上，臨床心理師必須清楚自身的專業界限，絕不執行超出自身訓練範圍的技術。衡鑑相關的法律訴訟，常起因於經驗不足的施測者對測驗進行了錯誤的使用與解釋。因此，即使是一個操作看似簡單的測驗，若您缺乏解釋該測驗數據的深厚理論基礎，施測仍是不被允許的。

在著手使用任何新測驗之前，您必須確認已具備以下核心知識：

該測驗的信度、效度與標準化樣本特性。
與該測驗使用相關的法律規範及倫理議題。
該測驗的適應症（Indication）與禁忌症。
可能影響個案表現的干擾變項。
該測驗的獨特優勢與內在限制。
個案背景變異對測驗結果的具體影響。

若您缺乏經驗，務必尋求同業諮詢或接受專業督導。此外，心理學出版商與專業學會（如 APA Monitor）常提供繼續教育課程，區域性或國際性會議亦是進修管道。但依據我們的經驗，短期工作坊無法完全取代正規研究所層級的衡鑑訓練課程。

對個案的反移情 (Countertransference)

臨床師應時刻自我覺察對個案的情緒反應。若您發現自身的負向感受（如厭惡、恐懼）已危及衡鑑的客觀性，應主動尋求諮詢，或在符合倫理的前提下考慮轉介給同事。但在轉介過程中，務必細緻處理，避免讓個案產生被遺棄或拒絕的感受。

不建議施測的臨床情境

當出現以下任一情況時，我們強烈建議暫緩或取消施測：

轉介來源或個案對評估持有不切實際的期待（例如期待測驗能「治癒」問題）。
您對個案產生了強烈且無法化解的負向反移情。
存在多重關係（Multiple Relationships），例如對自己正在進行心理治療的個案進行法庭衡鑑，這涉及利益衝突。
評估過程中，個案處於物質中毒（如酒醉）或戒斷狀態，導致認知功能暫時受損。
完全無法建立起碼的合作關係或投契感。

測驗組合 (Test Battery)

決定測驗的廣度與深度

為了避免衡鑑過程過於冗長或過於簡略，臨床師應始終緊扣轉介問題。對每一個轉介問題，所選用的測驗應能精確評估主要問題或疾患，同時涵蓋具備共病特徵的相關疾患（例如：評估身體症狀障礙症時，亦需同步評估憂鬱與焦慮情緒）。

此外，在評估過程中應保持彈性，對初步浮現的測驗數據保持敏感。仔細審視初步結果，將有助於您動態調整後續的測驗選擇。這種策略能大幅節省時間，特別是當初步結果出現顯著的不一致時，您僅需針對矛盾點加測特定的工具進行釐清。

成本效益分析

除了臨床考量，測驗的長度、施測所需時間、測驗形式（紙本或操作）、實施難易度皆是決策參數。電腦計分雖然快速精確，但授權費用通常較高。此外，您需要事先確認保險給付的額度或個案的預算限制，以規劃最具成本效益的評估方案。

整合性測驗組的優勢

測驗的選擇往往不是單一決策，而是形成一個互補的測驗組合（Test Battery）。完整的心理衡鑑通常涵蓋多個面向，包括診斷釐清、優劣勢分析、風險評估（如自殺、暴力、虐待風險）以及治療建議。有些複雜的臨床問題，唯有透過一系列測驗的交叉比對才能獲得解答。

使用測驗組的優點：

交互驗證 (Cross-Validation)：不同測驗間的結果可相互檢核，提升結論的信心水準。
完整性：提供個案心理功能的立體圖像。
情境廣度：評估個案在不同任務情境（結構化 vs. 非結構化）下的反應模式。
補充盲點：某個測驗未能偵測到的特質，可能由另一個測驗補足。

缺點：

耗費更多的臨床時間與行政資源。
費用較為昂貴。
可能產生資訊過載，增加整合解釋的難度。

總結而言，我們建議測驗組應**「重精不重多」 (Targeted rather than shotgun approach)**。與其亂槍打鳥式地施測，不如根據轉介問題與初步發現，精確選擇必要的工具。在本書第二部分，我們將針對特定的轉介問題，提供更具體的測驗組合選擇指引。

測驗選擇決策檢核項目

在決定選用某項測驗前，請確認您已回答以下問題：

效度與適當性：這項測驗對此個案有效且適當嗎？
信度：這項測驗的評分結果可信且穩定嗎？
常模適配：常模樣本是否具代表性？個案是否符合該常模的適用範圍？
回應轉介：它能直接回答轉介問題嗎？
干擾變項：是否有任何個案因素（文化、生理）或變異需要考量？
專業勝任：我有受過足夠的訓練來施測與解釋它嗎？
測驗組合：我需要用單一測驗還是一組測驗來回答問題？
資訊增益：是否有其他測驗能提供更多關鍵訊息？
標準化程序：施測、計分及解釋過程是否皆有標準化依據？
電腦輔助：是否使用電腦解釋？若是，是否已進行人工檢核？

參考文獻 (References)

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. American Educational Research Association.

Anderson, N. A., Schlueter, J. E., Carlson, J. F., & Geisinger, K. F. (Eds.). (2022). Tests in print X. University of Nebraska Press.

Ben-Porath, Y. S. (2012). Interpreting the MMPI-2-RF. University of Minnesota Press.

Carlson, J. F., Geisinger, K. F., & Jonson, J. L. (Eds.). (2021). The twenty-first mental measurements yearbook. University of Nebraska Press.

Cohen, R. J., & Swerdlik, M. E. (2018). Psychological testing and assessment: An introduction to tests and measurement (9th ed.). McGraw-Hill Education.

Geisinger, K. F. (Ed.). (2013). APA handbook of testing and assessment in psychology. American Psychological Association. https://doi.org/10.1037/14047-000

Groth-Marnat, G., & Wright, A. J. (2016). Handbook of psychological assessment (6th ed.). Wiley.

Suzuki, L. A., Ponterotto, J. G., & Meller, P. J. (Eds.). (2016). Handbook of multicultural assessment: Clinical, psychological, and educational applications (4th ed.). Jossey-Bass.

免責聲明：本網站內容僅供衛教參考，不能取代專業醫療診斷。若有緊急心理困擾，請立即尋求醫療協助或撥打 1925 安心專線。

選擇心理測驗的準則

衡鑑入門：基礎計量概念

由平均數計算 Z 分數的程序

測量標準誤 (Standard Error of Measurement) 對解釋的影響

標準誤的概念對測驗解釋具有多重且深遠的影響：

定義功能損傷 (Defining Impairment)

評估功能喪失 (Dysfunction)

其他可用的測驗資源

權威參考書籍

電腦資料庫與線上資訊

選擇測驗的決策歷程

心理計量特性 (Psychometric Properties)

效度 (Validity)

在選擇測驗時，還需考量以下潛在威脅效度的因素：

信度 (Reliability)

標準化與常模 (Standardization and Norms)

臨床實用性 (Clinical Utility)

使用簡式或修訂版測驗 (Short Forms)

電腦化施測與解釋 (Computerized Assessment and Interpretation)

個案的因素 (Client Factors)

年齡因素

教育程度與閱讀水準

生理與情緒的限制

動機與測驗長度

先前曾實施衡鑑 (Previous Assessment)

若個案近期曾接受過評估，臨床師需考量：

經濟與時間的限制

臨床者的變異 (Clinician Factors)

訓練與專業勝任力 (Competence)

對個案的反移情 (Countertransference)

不建議施測的臨床情境

測驗組合 (Test Battery)

決定測驗的廣度與深度

使用測驗組的優點：

缺點：

測驗選擇決策檢核項目

聯絡資訊

網站快速導覽

專業認證

選擇心理測驗的準則

衡鑑入門：基礎計量概念

由平均數計算 Z 分數的程序

測量標準誤 (Standard Error of Measurement) 對解釋的影響

標準誤的概念對測驗解釋具有多重且深遠的影響：

定義功能損傷 (Defining Impairment)

評估功能喪失 (Dysfunction)

其他可用的測驗資源

權威參考書籍

電腦資料庫與線上資訊

選擇測驗的決策歷程

心理計量特性 (Psychometric Properties)

效度 (Validity)

在選擇測驗時，還需考量以下潛在威脅效度的因素：

信度 (Reliability)

標準化與常模 (Standardization and Norms)

臨床實用性 (Clinical Utility)

使用簡式或修訂版測驗 (Short Forms)

電腦化施測與解釋 (Computerized Assessment and Interpretation)

個案的因素 (Client Factors)

年齡因素

教育程度與閱讀水準

生理與情緒的限制

動機與測驗長度

先前曾實施衡鑑 (Previous Assessment)

若個案近期曾接受過評估，臨床師需考量：

經濟與時間的限制

臨床者的變異 (Clinician Factors)

訓練與專業勝任力 (Competence)

對個案的反移情 (Countertransference)

不建議施測的臨床情境

測驗組合 (Test Battery)

決定測驗的廣度與深度

使用測驗組的優點：

缺點：

測驗選擇決策檢核項目

Related Articles

魏氏成人智力量表第四版 (Wechsler Adult Intelligence Scale – Fourth Edition, WAIS-IV) 臨床應用與解釋

臨床會談及心理狀態檢查

心理衡鑑與 DSM-5-TR 角色之簡介

聯絡資訊

網站快速導覽

專業認證