اینفوگرافیک مقایسه پایایی و روایی با دو تخته دارت. یک تخته، مفهوم پایایی بدون روایی را (دارت‌ها در گوشه‌ای از تخته جمع شده‌اند) و تخته دیگر، پایایی و روایی کامل را (دارت‌ها در مرکز هدف جمع شده‌اند) نشان می‌دهد.

پایایی و روایی در روان‌سنجی: راهنمای جامع سنجش دقیق

فهرست مطالب

۱. مقدمه: ارکان اصلی سنجش صحیح

روان‌سنجی، رشته‌ای علمی که به نظریه و فنون اندازه‌گیری روان‌شناختی می‌پردازد، در پی آن است تا سازه‌هایی مانند دانش، توانایی‌ها، نگرش‌ها و ویژگی‌های شخصیتی را کمّی‌سازی کند. یک چالش بنیادین در این حوزه آن است که بسیاری از این سازه‌ها «مکنون» (latent) هستند — یعنی، مانند ویژگی‌های فیزیکی همچون قد یا وزن، مستقیماً قابل مشاهده نیستند. این «نامرئی بودن» ذاتیِ اهدافِ ارزیابی روان‌سنجی، روش‌شناسی‌های فوق‌العاده دقیقی را برای تضمین کیفیت و قابل اعتماد بودن هر ابزار سنجش، الزامی می‌سازد.

در قلب چنین تضمین کیفیتی، دو مفهوم بنیادین نهفته است: پایایی و روایی. این دو، صرفاً آرمان‌هایی آکادمیک نیستند، بلکه اصولی با پیامدهای عملی عمیق به شمار می‌روند و سنگ بنایی را تشکیل می‌دهند که اعتبار ارزیابی‌های روان‌شناختی و در نتیجه، تصمیمات متخذه بر اساس آنها، بر آن استوار است. کیفیت تصمیمات در حوزه‌های گوناگون — از تشخیص بالینی و جایابی تحصیلی گرفته تا گزینش کارکنان و پژوهش‌های دانشگاهی — به طور جدایی‌ناپذیری با کیفیت داده‌های روان‌سنجیِ به کار رفته، گره خورده است.

بنابراین، پایایی و روایی فقط ویژگی‌های فنی «آزمون‌های خوب» نیستند، بلکه برای اقدامات مبتنی بر شواهد در سرتاسر این حوزه‌ها، بنیادین محسوب می‌شوند. این گزارش قصد دارد تا کاوشی جامع و در عین حال قابل فهم از این مفاهیم محوری ارائه دهد و به تعاریف آنها، ارتباط متقابل و پیچیده‌شان، اشکال گوناگونشان، اهمیت حیاتی آنها در کاربردهای دنیای واقعی، و سهم تاریخی شخصیت‌های کلیدی که درک ما را از آنها شکل دادند، بپردازد.


۲. تعریف پایایی و روایی: دقت و صحت در اندازه‌گیری

برای درک اهمیت ارزیابی روان‌سنجی، ابتدا باید معانی اصلی پایایی و روایی را دریافت. این اصطلاحات، گرچه اغلب در زبان روزمره به کار می‌روند، در حوزه اندازه‌گیری معانی فنی دقیقی دارند.

پایایی: همسانی (Consistency) در اندازه‌گیری

پایایی، در زمینه روان‌سنجی، به همسانی یا تکرارپذیری یک اندازه‌گیری اشاره دارد. اگر یک ابزار یا رویه اندازه‌گیری پایا باشد، در صورت استفاده مکرر برای افراد یکسان و تحت شرایط ثابت، باید نتایج مشابهی به دست آورد، با این فرض که ویژگی اصلی مورد اندازه‌گیری تغییری نکرده باشد. اصطلاح «پایا» در روان‌سنجی تا حد زیادی مترادف با «تکرارپذیر» است. یک قیاس رایج برای تشریح این مفهوم، تخته دارت است. پایایی به بازیکن دارتی شباهت دارد که در هر پرتاب، به طور مداوم به یک نقطه یکسان روی تخته می‌زند. دارت‌ها ممکن است به صورت فشرده در کنار هم جمع شوند که نشان‌دهنده همسانی است، اما این نقطه ممکن است مرکز هدف باشد یا نباشد. راه دیگر برای فکر کردن به آن، ترازوی حمام است: اگر برای فردی که چندین بار پشت سر هم روی آن می‌رود، وزن یکسانی را نشان دهد، در حال نشان دادن پایایی است.

زیربنای مفهوم پایایی، نظریه کلاسیک آزمون (CTT)، یک مدل بنیادین روان‌سنجی است. نظریه کلاسیک آزمون فرض می‌کند که یک نمره مشاهده‌شده () که از یک آزمون به دست می‌آید، از دو مؤلفه تشکیل شده است: یک نمره واقعی () و یک مؤلفه خطا (). این رابطه با معادله ساده بیان می‌شود. نمره واقعی، سطح حقیقی و بدون خطای فرد در سازه مورد اندازه‌گیری را نشان می‌دهد — یک مقدار نظری که هرگز نمی‌توان آن را به طور کامل شناخت. مؤلفه خطا () شامل نوسانات تصادفی و غیرقابل پیش‌بینی است که می‌تواند بر نمره مشاهده‌شده تأثیر بگذارد (مانند حدس زدن، حواس‌پرتی‌های لحظه‌ای، کلمات مبهم در یک گویه). بنابراین، پایایی اساساً به حداقل رساندن این مؤلفه خطای تصادفی مربوط می‌شود تا نمره مشاهده‌شده () تخمین باثبات‌تر و قابل اعتمادتری از نمره واقعی () ارائه دهد.

روایی: صحت (Accuracy) در اندازه‌گیری

از سوی دیگر، روایی به صحت یک سنجه می‌پردازد؛ به طور خاص، به درجه‌ای اشاره دارد که یک آزمون، آنچه را که قصد اندازه‌گیری آن را دارد، می‌سنجد. این موضوع به خود آزمون به تنهایی مربوط نیست، بلکه به مناسب بودن، معنادار بودن و مفید بودن استنباط‌های خاصی که از نمرات آزمون انجام می‌شود، مرتبط است.

با ادامه قیاس تخته دارت، روایی توسط بازیکن دارتی نشان داده می‌شود که نه تنها به طور مداوم به یک نقطه یکسان می‌زند، بلکه به مرکز هدف نیز می‌زند. دارت‌ها جایی فرود می‌آیند که هدف‌گیری شده‌اند و به درستی هدف را منعکس می‌کنند.

یک نکته ظریف و حیاتی در درک روایی این است که روایی یک ویژگی ذاتی و ثابت برای یک ابزار آزمون نیست. بلکه، روایی به تفسیر و استفاده از نمرات آزمون برای یک هدف خاص و در یک جمعیت مشخص مربوط می‌شود. همانطور که لی کرونباخ، شخصیت برجسته روان‌سنجی، تأکید کرد، آنچه مورد اعتبارسنجی قرار می‌گیرد، خود آزمون نیست، بلکه تفسیر یا استفاده پیشنهادی از نمرات آزمون است. به عنوان مثال، یک آزمون ممکن است برای انتخاب نامزدها برای یک نوع شغل معتبر باشد اما برای نوع دیگری نه، یا برای یک گروه فرهنگی معتبر باشد اما برای گروهی دیگر نه.

برخلاف پایایی که اغلب می‌توان آن را مستقیماً از طریق ضرایب آماری حاصل از داده‌های آزمون، کمی‌سازی کرد، روایی معمولاً از طریق انباشت شواهد از منابع گوناگون تثبیت می‌شود. روایی بیشتر یک «قضاوت ارزیابانه» در مورد درجه‌ای است که شواهد تجربی و منطق نظری، کفایت و مناسب بودن تفاسیر و اقدامات مبتنی بر نمرات آزمون را پشتیبانی می‌کنند. این بدان معناست که اعتبارسنجی یک آزمون، یک فرآیند تحقیق پویا و مداوم است تا یک رویداد یکباره. یک آزمون به طور قطعی «معتبر» نمی‌شود؛ بلکه، شواهد به طور مستمر برای حمایت یا رد روایی آن برای کاربردهای خاص، جمع‌آوری می‌گردد.


۳. رابطه درهم‌تنیده: آیا یکی بدون دیگری می‌تواند وجود داشته باشد؟

پایایی و روایی مفاهیمی متمایز هستند، اما به طور جدایی‌ناپذیری به یکدیگر مرتبط‌اند. یک اصل اساسی در روان‌سنجی این است که «یک سنجه می‌تواند پایا باشد بدون آنکه روا باشد، اما نمی‌تواند روا باشد بدون آنکه پایا باشد». درک این رابطه برای فهم سلسله مراتب کیفیت اندازه‌گیری، حیاتی است.

یک سنجه می‌تواند پایا اما غیرروا باشد. این سناریو زمانی رخ می‌دهد که یک آزمون به طور مداوم نتایج یکسانی تولید می‌کند، اما آن نتایج به درستی سازه‌ای را که قرار است بسنجد، منعکس نمی‌کنند. در قیاس تخته دارت، این همان بازیکنی است که به طور مداوم به گوشه بالا-چپ تخته می‌زند (پایاییِ باثبات) اما به طور مداوم مرکز هدف را از دست می‌دهد (رواییِ نادرست). یک مثال روان‌سنجی می‌تواند آزمونی باشد که برای ارزیابی مهارت‌های حل مسئله مرتبط با شغل طراحی شده است، اما در عوض، به طور مداوم و عمدتاً سرعت خواندن را می‌سنجد. اگر سرعت خواندن به آن شغل بی‌ارتباط باشد، آزمون در سنجش سرعت خواندن پایا است، اما برای هدف مورد نظر خود یعنی پیش‌بینی عملکرد شغلی، روا نیست. به همین ترتیب، ترازوی حمامی که به طور مداوم وزنی را ۵ کیلوگرم سنگین‌تر از وزن واقعی فرد نشان می‌دهد، پایا است (چون خوانش‌های ثابتی ارائه می‌دهد) اما روا نیست (چون خوانش‌های دقیقی ارائه نمی‌دهد).

برعکس، یک سنجه نمی‌تواند روا باشد بدون آنکه پایا باشد. اگر یک آزمون در هر بار اجرا نتایج ناهمسان و غیرقابل پیش‌بینی به دست دهد (یعنی، ناپایا باشد)، به هیچ وجه نمی‌تواند اندازه‌گیری دقیقی از سازه مورد نظر ارائه دهد. خطای تصادفی و نوسانات ذاتی در یک سنجه ناپایا، هرگونه دقت بالقوه را پنهان می‌کند. اگر دارت‌ها در هر پرتاب به طور تصادفی در سراسر تخته پراکنده شوند (ناپایا)، نمی‌توان آنها را در حال زدن دقیق و مداوم به مرکز هدف (روا) در نظر گرفت. خودِ این ناهمسانی، هرگونه ادعای صحت را تضعیف می‌کند.

بنابراین، پایایی یک شرط لازم، اما نه کافی، برای روایی است. یک ابزار اندازه‌گیری ابتدا باید نشان دهد که می‌تواند نتایج باثباتی تولید کند، پیش از آنکه بتوان به طور معناداری بررسی کرد که آیا آن نتایج، نمایش‌های دقیقی از سازه هدف هستند یا خیر. این امر یک ترتیب مشخص را در ارزیابی کیفیت اندازه‌گیری برقرار می‌کند: پایایی به عنوان یک دروازه‌بان بنیادین عمل می‌کند. اگر مشخص شود که یک سنجه ناپایا است، صرف منابع برای مطالعات گسترده روایی تا حد زیادی بی‌فایده است، زیرا ابزار حتی در حال اندازه‌گیری هیچ‌چیز به طور باثبات نیست.

مفاهیم خطای تصادفی و خطای سیستماتیک این رابطه را بیشتر روشن می‌کنند. پایایی عمدتاً به حداقل رساندن خطای تصادفی می‌پردازد — نوسانات غیرقابل پیش‌بینی و شانسی که منجر به ناهمسانی در نمرات می‌شود. روایی، ضمن بهره‌مندی از خطای تصادفی پایین، به طور حیاتی به حصول اطمینان از عاری بودن سنجه از خطای سیستماتیک می‌پردازد — سوگیری‌هایی که به طور مداوم نمرات را در یک جهت خاص، دور از مقدار واقعی سازه مورد نظر، سوق می‌دهند، یا حصول اطمینان از اینکه سنجه در حال سنجش سازه صحیح است. یک سنجه ناپایا با خطای تصادفی بیش از حد آلوده است، که روا بودن آن را غیرممکن می‌سازد. یک سنجه پایا اما غیرروا ممکن است خطای تصادفی پایینی داشته باشد (باثبات است) اما از خطای سیستماتیک رنج می‌برد (مانند سوگیری فرهنگی در یک آزمون هوش) یا به طور مداوم در حال سنجش سازه اشتباهی است (مانند آزمون سرعت خواندن که برای مهارت حل مسئله استفاده می‌شود). پرداختن به «نویز» (خطای تصادفی) از طریق پایایی، گام اول است ؛ اطمینان از اینکه «سیگنال» صحیح و تحریف‌نشده است (خطای سیستماتیک یا سازه اشتباه) وظیفه اعتبارسنجی است.


۴. کاوش در وجوه پایایی: تضمین سنجش همسان

پایایی یک مفهوم یکپارچه نیست؛ بلکه، چندین نوع متمایز را در بر می‌گیرد که هر یک به جنبه متفاوتی از همسانی سنجش می‌پردازد. انتخاب اینکه کدام برآورد(های) پایایی ارزیابی و گزارش شود، به شدت به ماهیت آزمون، سازه‌ای که قصد سنجش آن را دارد، قالب آن، و کاربرد مورد نظر از نمرات آن بستگی دارد.

پایایی آزمون-آزمون مجدد (Test-Retest Reliability)

پایایی آزمون-آزمون مجدد به همسانی نمراتی اشاره دارد که از اجرای یک آزمون یکسان برای یک گروه از افراد در دو نوبت مختلف، با یک فاصله زمانی مشخص بین دو اجرا، به دست می‌آید. این نوع پایایی، ثبات یک سنجه را در طول زمان ارزیابی می‌کند. این نوع پایایی به ویژه برای سازه‌هایی مناسب است که انتظار می‌رود نسبتاً پایدار باشند، مانند ویژگی‌های شخصیتی یا توانایی‌های شناختی در بزرگسالان طی دوره‌های زمانی کوتاه تا متوسط.

پایایی آزمون-آزمون مجدد معمولاً با محاسبه ضریب همبستگی بین نمرات حاصل از اجرای اول (زمان ۱) و اجرای دوم (زمان ۲) برآورد می‌شود. همبستگی مثبت بالا، نشان‌دهنده ثبات خوب است. به عنوان مثال، اگر یک آزمون هوش که امروز برای گروهی از بزرگسالان اجرا شده و دو ماه دیگر دوباره اجرا شود، نمراتی با همبستگی بالا به دست دهد، پایایی آزمون-آزمون مجدد خوبی را نشان می‌دهد. با این حال، عواملی مانند به خاطر آوردن پاسخ‌های قبلی توسط افراد (اثرات حافظه)، تغییرات واقعی در ویژگی مورد سنجش طی فاصله زمانی، یا تغییرات در شرایط آزمون می‌توانند این برآورد را تحت تأثیر قرار دهند. طول فاصله زمانی یک ملاحظه حیاتی است؛ فاصله زمانی بیش از حد کوتاه ممکن است به دلیل حافظه، پایایی را به طور کاذب افزایش دهد، در حالی که فاصله زمانی بیش از حد طولانی ممکن است اجازه دهد تغییرات واقعی در ویژگی رخ دهد و در نتیجه، برآورد پایایی را به طور مصنوعی کاهش دهد.

پایایی بین ارزیابان (Inter-Rater Reliability)

پایایی بین ارزیابان (که به آن پایایی بین مشاهده‌گران نیز گفته می‌شود) همسانی نمرات، رتبه‌ها یا طبقه‌بندی‌هایی را ارزیابی می‌کند که توسط دو یا چند ارزیاب یا مشاهده‌گر مستقل که در حال ارزیابی یک عملکرد، رفتار، محصول یا پدیده یکسان هستند، اختصاص داده می‌شود. این نوع پایایی زمانی حیاتی است که فرآیند نمره‌گذاری شامل قضاوت ذهنی باشد، مانند نمره‌دهی به انشا، مشاهدات رفتاری در کلاس درس، مصاحبه‌های تشخیصی بالینی، یا کدگذاری داده‌های کیفی.

پایایی بین ارزیابان اغلب با استفاده از آماره‌هایی مانند کاپای کوهن (برای رتبه‌بندی‌های طبقه‌ای) یا ضریب همبستگی درون‌طبقه‌ای (ICC) (برای رتبه‌بندی‌های پیوسته یا ترتیبی) کمی‌سازی می‌شود، که درجه توافق بین ارزیابان را فراتر از آنچه به صورت شانسی انتظار می‌رود، اندازه‌گیری می‌کنند. به عنوان مثال، اگر دو روانشناس به طور مستقل از یک مصاحبه ساختاریافته و یک مقیاس رتبه‌بندی برای ارزیابی شدت علائم افسردگی در گروهی از بیماران استفاده کنند، توافق بالا در رتبه‌بندی‌های آنها نشان‌دهنده پایایی بین ارزیابان خوب خواهد بود. دستیابی به پایایی بین ارزیابان بالا معمولاً نیازمند دستورالعمل‌ها یا معیارهای نمره‌گذاری واضح و به خوبی تعریف‌شده، و آموزش کامل ارزیابان برای اطمینان از به کارگیری مداوم معیارها است.

پایایی همسانی درونی (Internal Consistency Reliability)

پایایی همسانی درونی به درجه همسانی یا ارتباط متقابل بین گویه‌های (آیتم‌های) درون یک آزمون یا مقیاس واحد اشاره دارد. این نوع پایایی، میزان تولید الگوهای پاسخ مشابه توسط گویه‌های مختلف یک آزمون که برای اندازه‌گیری یک سازه زیربنایی یکسان طراحی شده‌اند را بررسی می‌کند. در اصل، این روش همگنی گویه‌ها را می‌آزماید—اینکه آیا همه آنها در حال سنجش یک ویژگی مکنون یکسان هستند یا خیر. این شکل از پایایی را می‌توان از یک بار اجرای آزمون برآورد کرد. دو روش متداول برای ارزیابی همسانی درونی، پایایی دو نیمه‌سازی و آلفای کرونباخ هستند.

  • پایایی دو نیمه‌سازی (Split-Half Reliability): این روش شامل تقسیم یک آزمون به دو نیمه است که فرض می‌شود معادل هستند. راه‌های متداول برای تقسیم آزمون شامل جدا کردن گویه‌های با شماره فرد از زوج، یا تخصیص تصادفی گویه‌ها به یکی از دو نیمه است. سپس نمرات برای هر نیمه محاسبه شده و همبستگی بین نمرات این دو نیمه محاسبه می‌شود. از آنجا که این همبستگی بر اساس آزمونی است که تنها نصف طول آزمون اصلی را دارد، یک تصحیح آماری، که متداول‌ترین آن فرمول پیش‌گویی اسپیرمن-براون است، برای برآورد پایایی کل آزمون به کار می‌رود. برای مثال، یک پرسشنامه ۴۰ گویه‌ای برای ارزیابی وظیفه‌شناسی می‌تواند به دو نیمه ۲۰ گویه‌ای تقسیم شود و همبستگی بین نمرات این دو نیمه (پس از تصحیح) پایایی دو نیمه‌سازی آن را نشان می‌دهد.

  • آلفای کرونباخ (ضریب آلفا): آلفای کرونباخ که توسط لی کرونباخ توسعه یافت، یکی از پرکاربردترین و کلی‌ترین معیارهای همسانی درونی است. این ضریب را می‌توان به عنوان میانگین تمام پایایی‌های دو نیمه‌سازی ممکن برای یک مجموعه معین از گویه‌ها در نظر گرفت. مقدار این ضریب بر اساس چند عامل آماری محاسبه می‌شود، از جمله تعداد گویه‌های مقیاس، میانگین هماهنگی و ارتباط بین گویه‌ها، و پراکندگی (واریانس) کل نمرات آزمون. آلفای کرونباخ به ویژه برای مقیاس‌هایی با گویه‌های چندگزینه‌ای (مانند مقیاس‌های نوع لیکرت) مناسب است، اما برای گویه‌های دووجهی (مانند بله/خیر، درست/غلط) نیز قابل استفاده است که در این صورت معادل فرمول ۲۰ کودر-ریچاردسون (KR-20) است. این ضریب بین ۰ تا ۱ متغیر است و مقادیر بالاتر نشان‌دهنده همسانی درونی بیشتر است. دستورالعمل‌های کلی نشان می‌دهند که آلفای ۰.۷۰ یا بالاتر اغلب برای اهداف پژوهشی قابل قبول در نظر گرفته می‌شود، در حالی که مقادیر ۰.۸۰ یا بالاتر، به ویژه برای آزمون‌های مورد استفاده در تصمیم‌گیری‌های کاربردی، ترجیح داده می‌شود. با این حال، این‌ها تنها قواعد سرانگشتی هستند و سطح قابل قبول می‌تواند به سازه و اهمیت موضوع بستگی داشته باشد. همچنین توجه به این نکته مهم است که مقادیر بسیار بالای آلفا (مثلاً > ۰.۹۵) ممکن است نشان‌دهنده افزونگی بیش از حد بین گویه‌ها باشد، جایی که چندین گویه اساساً یک سؤال را به روش‌های کمی متفاوت می‌پرسند و به طور بالقوه وسعت سازه مورد سنجش را محدود می‌کنند. یک تصور غلط رایج این است که آلفای کرونباخ معیاری برای تک‌بعدی بودن است (یعنی اینکه مقیاس فقط یک سازه زیربنایی واحد را اندازه‌گیری می‌کند). این تصور نادرست است. آلفای بالا نشان می‌دهد که گویه‌ها به طور متوسط در حال سنجش یک چیز مشترک هستند، اما آن «چیز» می‌تواند یک سازه واحد یا چندین سازه مرتبط باشد. بنابراین، در حالی که همسانی درونی مطلوب است، تحلیل‌های دیگری مانند تحلیل عاملی برای تعیین ابعاد یک مقیاس مورد نیاز است.

پایایی فرم‌های موازی (Parallel Forms Reliability)

پایایی فرم‌های موازی (که به آن پایایی فرم‌های همتا یا پایایی فرم‌های جایگزین نیز گفته می‌شود) همسانی نمرات به دست آمده از دو نسخه متفاوت از یک آزمون را که از نظر محتوا، سطح دشواری، قالب و ویژگی‌های آماری (مانند میانگین، واریانس) معادل طراحی شده‌اند، ارزیابی می‌کند. هدف این نسخه‌های متفاوت، اندازه‌گیری یک سازه یکسان است. این نوع پایایی زمانی مفید است که نیاز به داشتن چندین فرم از یک آزمون وجود داشته باشد، به عنوان مثال، برای امکان آزمون مجدد بدون نگرانی از به خاطر سپردن گویه‌ها توسط افراد از اجرای قبلی (اثرات تمرین)، یا برای جلوگیری از تقلب در موقعیت‌های آزمون گروهی.

برای برآورد پایایی فرم‌های موازی، هر دو فرم آزمون برای یک گروه از افراد اجرا می‌شود (اغلب با متعادل‌سازی ترتیب اجرا)، و ضریب همبستگی بین نمرات دو فرم محاسبه می‌شود. همبستگی مثبت بالا نشان می‌دهد که دو فرم واقعاً در حال اندازه‌گیری یک سازه یکسان به طور همسان هستند. برای مثال، اگر دو نسخه با دقت ساخته‌شده از یک آزمون پیشرفت ریاضی استاندارد (فرم A و فرم B) برای دانش‌آموزان یکسانی اجرا شود، همبستگی قوی بین نمرات آنها در فرم A و فرم B از پایایی فرم‌های موازی آزمون‌ها حمایت می‌کند.

ضرایب پایایی، صرف نظر از نوع آنها، می‌توانند به عنوان شاخصی از نسبت واریانس نمره مشاهده‌شده که به واریانس «واقعی» (سیگنالی که تفاوت‌های واقعی در ویژگی را نشان می‌دهد) در مقابل واریانس خطا (نویز ناشی از عدم دقت‌های تصادفی اندازه‌گیری) قابل انتساب است، در نظر گرفته شوند. به عنوان مثال، ضریب پایایی ۰.۸۵ نشان می‌دهد که ۸۵٪ از تغییرپذیری در نمرات مشاهده‌شده، تفاوت‌های واقعی بین افراد در سازه را منعکس می‌کند، در حالی که ۱۵٪ باقی‌مانده به دلیل خطای اندازه‌گیری تصادفی است. این تفسیر، درکی شهودی‌تر از معنای ضریب پایایی فراتر از صرفاً همسانی ارائه می‌دهد و دقت یک سنجه را مستقیماً کمی‌سازی می‌کند.


۵. گشودن ابعاد روایی: سنجش سازه صحیح

در حالی که پایایی به همسانی سنجش می‌پردازد، روایی به صحت و مناسب بودن تفاسیر و کاربردهای نمرات آزمون مربوط می‌شود. روایی، میزانی است که یک آزمون، سازه نظری یا ویژگی‌ای را که ادعای سنجش آن را دارد، اندازه‌گیری می‌کند. روایی اغلب به عنوان یک مفهوم واحد توصیف می‌شود، به این معنی که در نهایت یک سؤال اصلی وجود دارد: آیا آزمون آنچه را که قرار است بسنجد، اندازه‌گیری می‌کند و آیا استنباط‌های حاصل از نمرات آن موجه است؟ با این حال، شواهد برای حمایت از این ادعا از منابع گوناگونی جمع‌آوری می‌شود که به طور سنتی به انواع مختلف شواهد روایی طبقه‌بندی شده‌اند.

روایی محتوا (Content Validity)

روایی محتوا به میزانی اشاره دارد که گویه‌ها، سؤالات یا تکالیف یک آزمون، نماینده کل حوزه یا جهان محتوایی هستند که آزمون ادعای سنجش آن را دارد. این نوع روایی به این موضوع می‌پردازد که آیا آزمون، نمونه‌ای کافی و نماینده از حیطه محتوایی مورد نظر خود را ارائه می‌دهد یا خیر.

ارزیابی روایی محتوا معمولاً یک فرآیند کیفی است که اغلب بر قضاوت متخصصان موضوعی (SMEs) تکیه دارد. این متخصصان به طور سیستماتیک گویه‌های آزمون را در برابر تعریف دقیقی از حوزه محتوا، مشخصات شغلی یا اهداف برنامه درسی بررسی می‌کنند تا ارتباط و نمایندگی بودن آنها را ارزیابی کنند. به عنوان مثال، برای تعیین روایی محتوای یک امتحان نهایی برای یک درس تاریخ در دانشگاه، استادان تاریخ سؤالات امتحان را بررسی می‌کنند تا اطمینان حاصل کنند که تمام موضوعات کلیدی، مفاهیم و دوره‌های تاریخی تدریس شده در طول ترم را به اندازه کافی پوشش می‌دهند و توزیع سؤالات، بازتاب‌دهنده تأکید صورت گرفته بر موضوعات مختلف در دوره است. به طور مشابه، برای یک آزمون پیش از استخدام که برای توسعه‌دهندگان نرم‌افزار طراحی شده است، روایی محتوا زمانی تأیید می‌شود که آزمون شامل وظایف و سؤالاتی باشد که مستقیماً به زبان‌های برنامه‌نویسی، رویه‌های اشکال‌زدایی و متدولوژی‌های توسعه نرم‌افزار مورد استفاده در آن نقش شغلی خاص، مرتبط باشند. اگرچه این روش عمدتاً کیفی است، اما می‌توان از روش‌های کمی مانند نسبت روایی محتوا (CVR) که در آن متخصصان ضرورت هر گویه را رتبه‌بندی می‌کنند، نیز استفاده کرد.

روایی وابسته به ملاک (Criterion-Related Validity)

روایی وابسته به ملاک، میزانی را ارزیابی می‌کند که نمرات یک آزمون به طور سیستماتیک با نمرات یک سنجه ملاک خارجی مرتبط هستند (یعنی همبستگی دارند). ملاک، یک سنجه مستقل است که باور بر این است که شاخصی مستقیم یا یک معیار تثبیت‌شده از سازه‌ای است که آزمون قصد اندازه‌گیری آن را دارد. برای اینکه یک ملاک مفید باشد، باید خودش مرتبط، پایا و آلوده‌نشده (یعنی تحت تأثیر نمرات خود آزمون نباشد) باشد. دو نوع اصلی روایی وابسته به ملاک وجود دارد: روایی پیش‌بین و روایی همزمان.

  • روایی پیش‌بین (Predictive Validity): این شکل از روایی به دقتی اشاره دارد که نمرات آزمون می‌توانند عملکرد یا رفتار آینده را بر روی سنجه ملاک پیش‌بینی کنند. در مطالعات روایی پیش‌بین، یک فاصله زمانی بین اجرای آزمون و جمع‌آوری داده‌های مربوط به ملاک وجود دارد. نمرات آزمون ابتدا جمع‌آوری شده و سپس، در زمانی دیگر، داده‌های ملاک به دست آمده و با نمرات اولیه آزمون همبسته می‌شوند. همبستگی بالا نشان می‌دهد که آزمون، پیش‌بینی‌کننده خوبی از نتایج آینده است. یک مثال کلاسیک، استفاده از آزمون‌های استعداد تحصیلی مانند SAT برای پیش‌بینی معدل (GPA) سال اول دانشجویان در کالج است؛ نمرات SAT قبل از ورود به کالج به دست می‌آیند و معدل‌ها پس از سال اول جمع‌آوری می‌شوند. مثال رایج دیگر، یک آزمون استعداد یا شخصیت پیش از استخدام است که برای متقاضیان کار اجرا می‌شود و رتبه‌بندی‌های عملکرد شغلی بعدی آنها (مثلاً پس از شش ماه یا یک سال کار) به عنوان ملاک عمل می‌کند.

  • روایی همزمان (Concurrent Validity): این شکل از روایی، میزانی را ارزیابی می‌کند که نمرات آزمون با یک سنجه ملاک که تقریباً در همان زمان با نمرات آزمون به دست آمده، مرتبط است. در مطالعات روایی همزمان، هم داده‌های آزمون و هم داده‌های ملاک به صورت همزمان یا در نزدیکی زمانی با یکدیگر جمع‌آوری می‌شوند. این نوع روایی اغلب زمانی استفاده می‌شود که یک آزمون جدید، شاید کوتاه‌تر یا کارآمدتر، توسعه یافته و نیاز به اعتبارسنجی در برابر یک سنجه موجود و تثبیت‌شده (اما شاید دست‌وپاگیرتر یا گران‌تر) دارد. به عنوان مثال، یک پرسشنامه خودگزارشی کوتاه جدید برای غربالگری افسردگی می‌تواند برای گروهی از افراد همزمان با انجام یک مصاحبه تشخیصی ساختاریافته و جامع برای افسردگی (ملاک) اجرا شود. همبستگی مثبت قوی بین نمرات پرسشنامه جدید و نتایج مصاحبه تشخیصی، از روایی همزمان ابزار غربالگری جدید حمایت می‌کند.

یک چالش عملی مهم در تعیین روایی وابسته به ملاک، «مشکل ملاک» است. این مشکل به دشواری یافتن یا توسعه یک سنجه ملاک خارجی اشاره دارد که واقعاً کافی باشد—یعنی مرتبط، پایا، جامع و عاری از سوگیری باشد. روایی آزمون مورد ارزیابی، به نوعی، توسط کیفیت ملاکی که با آن مقایسه می‌شود، محدود می‌گردد. اگر خود ملاک ناقص باشد (مثلاً رتبه‌بندی‌های غیرپایای سرپرست به عنوان سنجه عملکرد شغلی استفاده شود)، آنگاه همبستگی بالا با آن ممکن است نشان‌دهنده روایی واقعی برای آزمون نباشد، و برعکس، همبستگی پایین ممکن است به معنای نامعتبر بودن آزمون نباشد اگر ملاک ضعیف باشد.

روایی سازه (Construct Validity)

روایی سازه اغلب به عنوان بنیادی‌ترین و فراگیرترین نوع روایی در نظر گرفته می‌شود. این روایی به میزانی مربوط می‌شود که یک آزمون، سازه نظری یا ویژگی روان‌شناختی (مانند هوش، اضطراب، خلاقیت، عزت نفس) را که ادعای سنجش آن را دارد، اندازه‌گیری می‌کند. سازه، یک مفهوم انتزاعی و نظری است که مستقیماً قابل مشاهده نیست اما از رفتار یا خودگزارشی‌ها استنباط می‌شود.

برقراری روایی سازه شامل یک فرآیند پیچیده از انباشت اشکال مختلف شواهد برای نشان دادن این است که نمرات آزمون به شیوه‌هایی رفتار می‌کنند که توسط نظریه زیربنایی سازه پیش‌بینی می‌شود. شواهد حاصل از روایی محتوا و روایی وابسته به ملاک به تصویر کلی روایی سازه کمک می‌کنند. در واقع، تفکر روان‌سنجی مدرن که به شدت تحت تأثیر کار برجسته کرونباخ و میل (۱۹۵۵) قرار دارد، روایی سازه را نه صرفاً یک نوع در میان انواع دیگر، بلکه چارچوب فراگیر برای درک آنچه یک آزمون می‌سنجد، می‌داند. این دیدگاه، اعتبارسنجی آزمون را از مجموعه‌ای از بررسی‌های فنی به یک تلاش علمی برای آزمون نظریه ارتقا می‌دهد.

منابع کلیدی شواهد برای روایی سازه عبارتند از:

  • روایی همگرا (Convergent Validity): این روایی زمانی نشان داده می‌شود که یک آزمون، همبستگی مثبت قابل توجهی (یا همبستگی در جهت مورد انتظار نظری) با سایر سنجه‌ها یا آزمون‌های موجود که برای ارزیابی همان سازه یا سازه‌های بسیار مشابه طراحی شده‌اند، نشان دهد. به عنوان مثال، یک مقیاس خودگزارشی تازه توسعه‌یافته برای اندازه‌گیری اضطراب اجتماعی باید همبستگی بالایی با سنجه‌های تثبیت‌شده اضطراب اجتماعی و شاید همبستگی متوسطی با سنجه‌های سازه‌های مرتبط مانند کمرویی یا درونگرایی داشته باشد.

  • روایی واگرا (Discriminant Validity): این روایی زمانی نشان داده می‌شود که یک آزمون، همبستگی کم یا عدم همبستگی (یا همبستگی به طور قابل توجهی ضعیف‌تر از سنجه‌های همگرا) با سنجه‌های سازه‌های نظری متفاوت یا نامرتبط نشان دهد. به عنوان مثال، یک سنجه استعداد ریاضی در حالت ایده‌آل باید همبستگی بسیار پایینی با یک سنجه قدردانی هنری نشان دهد، اگر نظریه‌های زیربنایی اینها را به عنوان توانایی‌های متمایز فرض کنند. روایی واگرا برای اطمینان از اینکه یک آزمون صرفاً در حال اندازه‌گیری یک عامل کلی و گسترده (مانند توانایی تحصیلی کلی یا پریشانی روانی عمومی) نیست، در حالی که برای سنجش یک سازه خاص‌تر طراحی شده است، حیاتی است. این روایی به جلوگیری از «مغالطه جینگل» (فرض اینکه دو چیز متفاوت به دلیل داشتن نام مشابه، یکسان هستند) و «مغالطه جَنگل» (فرض اینکه دو چیز مشابه به دلیل داشتن نام‌های متفاوت، متفاوت هستند) کمک می‌کند و در نتیجه وضوح مفهومی و دقت اندازه‌گیری را ارتقا می‌دهد.

  • ماتریس چندصفتی-چندروشی (MTMM): ماتریس MTMM که توسط دونالد کمبل و دونالد فیسک (۱۹۵۹) توسعه یافت، یک طرح آزمایشی و رویکرد تحلیلی سیستماتیک برای بررسی همزمان روایی همگرا و واگرا است. MTMM شامل اندازه‌گیری حداقل دو صفت مختلف (مانند اضطراب و افسردگی) با استفاده از حداقل دو روش مختلف (مانند پرسشنامه خودگزارشی، رتبه‌بندی بالینی، مشاهده رفتاری) است. ماتریس همبستگی حاصل، امکان بررسی دقیق الگوها را فراهم می‌کند:

    • روایی همگرا زمانی تأیید می‌شود که همبستگی بین روش‌های مختلفی که همان صفت را اندازه‌گیری می‌کنند، بالا و از نظر آماری معنادار باشد.
    • روایی واگرا زمانی تأیید می‌شود که این ضرایب روایی همگرا، بالاتر از همبستگی‌های بین صفات مختلف که با روش یکسان اندازه‌گیری شده‌اند (که ممکن است نشان‌دهنده واریانس یا سوگیری مختص روش باشد) و همچنین بالاتر از همبستگی‌های بین صفات مختلف که با روش‌های مختلف اندازه‌گیری شده‌اند، باشند.
    • چارچوب MTMM به جداسازی واریانس نمرات قابل انتساب به خود صفت، از واریانس ناشی از روش اندازه‌گیری خاص مورد استفاده، کمک می‌کند.

سایر اشکال شواهد که به روایی سازه کمک می‌کنند شامل مطالعات ساختار داخلی آزمون (مثلاً از طریق تحلیل عاملی برای دیدن اینکه آیا گویه‌ها طبق پیش‌بینی نظری گروه‌بندی می‌شوند)، تحلیل فرآیندهای پاسخ‌دهی (بررسی چگونگی رسیدن افراد به پاسخ‌هایشان)، و شواهد تفاوت‌های گروهی که با نظریه سازگار است (مثلاً افرادی که با اختلال اضطراب تشخیص داده شده‌اند، نمره بالاتری در سنجه اضطراب نسبت به گروه کنترل کسب می‌کنند) می‌شود. فرآیند اعتبارسنجی سازه، انباشت مداوم شواهدی است که یک استدلال علمی قوی برای تفسیر پیشنهادی نمرات آزمون ایجاد می‌کند.


۶. نقش ضروری پایایی و روایی در دنیای واقعی

اصول پایایی و روایی به گفتمان آکادمیک محدود نمی‌شوند؛ آنها در بسیاری از محیط‌های عملی که در آنها از ارزیابی‌های روان‌سنجی برای اتخاذ تصمیماتی که می‌توانند به طور قابل توجهی بر زندگی افراد و اثربخشی سازمان‌ها تأثیر بگذارند، عمیقاً مهم هستند. عدم استفاده از سنجه‌های پایا و روا می‌تواند به مداخلات بی‌اثر، نتایج ناعادلانه و هدر رفتن منابع منجر شود.

تشخیص بالینی

در محیط‌های سلامت روان و جسم، تشخیص دقیق، سنگ بنای برنامه‌ریزی درمانی مؤثر و مراقبت از بیمار است. متخصصان بالینی به ابزارهای ارزیابی مختلفی، از سیاهه علائم و آزمون‌های شخصیت گرفته تا ارزیابی‌های شناختی برای شرایطی مانند زوال عقل، تکیه می‌کنند. پایایی و روایی این ابزارها از اهمیت بالایی برخوردار است.

  • اهمیت: ابزارهای تشخیصی پایا تضمین می‌کنند که ارزیابی‌ها در طول زمان و در بین متخصصان بالینی مختلف، همسان هستند. ابزارهای روا تضمین می‌کنند که تشخیص به درستی وضعیت بیمار را منعکس می‌کند و آن را از سایر شرایط با علائم بالقوه همپوشان متمایز می‌سازد.
  • مثال شکست: مقیاس خودگزارشی را برای تشخیص افسردگی در نظر بگیرید. اگر مقیاس پایایی آزمون-آزمون مجدد ضعیفی داشته باشد، ممکن است یک بیمار در یک هفته افسرده تشخیص داده شود و هفته بعد نه، حتی اگر وضعیت اساسی او تغییری نکرده باشد. این ناهمسانی می‌تواند به تصمیمات درمانی نامنظم منجر شود. اگر مقیاس روایی واگرای ضعیفی داشته باشد و به طور مکرر افرادی را که دچار اضطراب هستند به اشتباه افسرده تشخیص دهد (یا برعکس)، بیماران ممکن است دارو یا درمان نامناسبی دریافت کنند که به طور بالقوه وضعیت آنها را بدتر کرده یا درمان مؤثر را به تأخیر می‌اندازد.
  • پیامدهای شکست: تشخیص اشتباه می‌تواند به درمان‌های بی‌اثر یا حتی مضر، رنج طولانی‌مدت بیمار، افزایش هزینه‌های مراقبت‌های بهداشتی، و از دست دادن اعتماد به ارائه‌دهنده خدمات درمانی منجر شود.

گزینش کارکنان

در حوزه منابع انسانی، سازمان‌ها از انواع آزمون‌های روان‌سنجی—مانند آزمون‌های توانایی شناختی، سیاهه های شخصیت، آزمون‌های قضاوت موقعیتی، و مصاحبه‌های ساختاریافته—برای تصمیم‌گیری در مورد استخدام و ارتقاء شغلی استفاده می‌کنند.

  • اهمیت: استفاده از ابزارهای گزینشی که پیش‌بینی‌کننده‌های پایا و روایی برای عملکرد شغلی هستند، به سازمان‌ها کمک می‌کند تا بهترین نامزدها را شناسایی کنند، که منجر به افزایش بهره‌وری، کاهش جابجایی کارکنان، و تناسب بهتر بین کارکنان و نقش‌هایشان می‌شود. علاوه بر این، استفاده از رویه‌های گزینش معتبر برای تضمین انصاف و انطباق با قوانین، به ویژه در جلوگیری از اقدامات تبعیض‌آمیز، حیاتی است.
  • مثال شکست: یک شرکت ممکن است از یک آزمون شخصیت استفاده کند که به طور پایا برونگرایی را می‌سنجد. با این حال، اگر برونگرایی یک پیش‌بینی‌کننده روا برای موفقیت در یک نقش خاص نباشد (مثلاً یک موقعیت تحقیقاتی بسیار فنی و انفرادی)، تکیه بر این آزمون می‌تواند به تصمیمات استخدامی ضعیف منجر شود. جدی‌تر اینکه، اگر یک آزمون گزینش حاوی سوگیری‌های فرهنگی یا زبانی باشد، ممکن است به طور پایا بین متقاضیان تمایز قائل شود اما به طور سیستماتیک و ناعادلانه افرادی از گروه‌های جمعیتی خاص را در وضعیت نامساعدی قرار دهد، حتی اگر آنها مهارت‌های شغلی لازم را داشته باشند. این امر می‌تواند به تأثیر نامطلوب (adverse impact) منجر شود، جایی که تعداد نامتناسبی از اعضای گروه‌های اقلیت انتخاب می‌شوند، که به طور بالقوه منجر به چالش‌های قانونی و نیروی کار با تنوع کمتر می‌شود. یک نمونه مستند مربوط به یک شرکت فناوری بود که مشخص شد آزمون شخصیت آن دارای سوگیری بوده، که به ایجاد نیروی کار همگن و خفه کردن نوآوری کمک کرده است. حتی اگر خود آزمون از نظر فنی سالم باشد، تفسیر نادرست نتایج توسط مدیران استخدام که تحت تأثیر سوگیری‌های شناختی خود هستند نیز می‌تواند به تصمیمات ضعیف و ناعادلانه منجر شود.
  • پیامدهای شکست: استخدام نامزدهای نامناسب از نظر هزینه‌های استخدام، زمان آموزش، بهره‌وری از دست رفته، و جابجایی بالقوه کارکنان، پرهزینه است. نادیده گرفتن استعدادهای واجد شرایط به دلیل آزمون‌های سوگیرانه یا نامعتبر به این معنی است که سازمان سرمایه انسانی ارزشمندی را از دست می‌دهد. چنین اقداماتی همچنین می‌تواند به مسئولیت‌های قانونی، آسیب به شهرت شرکت، و عدم تنوع منجر شود، که به طور فزاینده‌ای برای نوآوری و موفقیت سازمانی حیاتی شناخته می‌شود. اثرات موجی اجتماعی-اقتصادی آزمون‌های سوگیرانه در زمینه‌های استخدامی پرمخاطره می‌تواند قابل توجه باشد و با سلب فرصت‌ها از افراد واجد شرایط از گروه‌های محروم، نابرابری‌های اجتماعی موجود را تداوم بخشیده و تشدید کند.

آزمون‌سازی آموزشی

مؤسسات آموزشی به شدت بر آزمون‌ها برای اهداف متعددی، از جمله ارزیابی دانش‌آموزان، جایابی در برنامه‌های مناسب، تشخیص ناتوانی‌های یادگیری، پذیرش دانشگاه، و پاسخگویی مدارس و مناطق آموزشی، تکیه می‌کنند.

  • اهمیت: آزمون‌های آموزشی پایا و روا تضمین می‌کنند که ارزیابی‌های دانش و توانایی‌های دانش‌آموزان دقیق و منصفانه است. این امر امکان تصمیم‌گیری‌های آموزشی مناسب، فرصت‌های عادلانه، و پاسخگویی معنادار را فراهم می‌آورد.
  • مثال شکست: یک آزمون پیشرفت تحصیلی استاندارد که برای جایابی دانش‌آموزان در کلاس‌های ریاضی استفاده می‌شود باید روایی محتوای بالایی داشته باشد، به این معنی که برنامه درسی تدریس‌شده را به درستی پوشش دهد. اگر اینطور نباشد، دانش‌آموزان ممکن است به اشتباه جایابی شوند. اگر یک امتحان کلاسی پایایی ضعیفی داشته باشد، نمره دانش‌آموز ممکن است بسته به اینکه کدام نسخه از آزمون را داده یا چه زمانی آن را داده است، به طور قابل توجهی نوسان کند و آن را به یک سنجه ناعادلانه از یادگیری او تبدیل کند. مثالی که در ادبیات آموزشی ارائه شده است، یک آزمون خواندن را توصیف می‌کند که برای اندازه‌گیری سواد طراحی شده اما با فونت بسیار کوچکی چاپ شده است؛ چنین آزمونی برای دانش‌آموزان بسیار باسواد که اتفاقاً بینایی ضعیفی دارند، فاقد روایی خواهد بود، زیرا عملکرد آنها به جای توانایی خواندن، به طور نامناسبی تحت تأثیر حدت بینایی آنها قرار می‌گیرد.
  • پیامدهای شکست: دانش‌آموزان ممکن است به اشتباه در کلاس‌های جبرانی یا پیشرفته قرار گیرند و این امر مانع پیشرفت یادگیری آنها شود. نمره‌دهی ناعادلانه می‌تواند بر انگیزه دانش‌آموزان و مسیرهای تحصیلی آینده آنها تأثیر بگذارد. سیستم‌های پاسخگویی ناقص مبتنی بر آزمون‌های نامعتبر می‌توانند به قضاوت نادرست در مورد عملکرد مدرسه و هدایت نادرست منابع آموزشی منجر شوند.

پژوهش دانشگاهی

اعتبار و قابل اعتماد بودن یافته‌ها در پژوهش‌های دانشگاهی در رشته‌های متعدد—از جمله روانشناسی، آموزش، جامعه‌شناسی و علوم بهداشتی—اساساً به کیفیت ابزارهای اندازه‌گیری مورد استفاده برای جمع‌آوری داده‌ها بستگی دارد.

  • اهمیت: پژوهشگران باید از سنجه‌های پایا و روا استفاده کنند تا اطمینان حاصل شود که یافته‌های آنها به درستی پدیده‌های تحت بررسی را منعکس می‌کند و نتایج آنها معتبر است.
  • مثال شکست: پژوهشگری که اثربخشی یک مداخله جدید برای کاهش اضطراب را بررسی می‌کند باید از سنجه‌های اضطرابی استفاده کند که هم پایا (باثبات) و هم روا (به درستی سازه اضطراب را ثبت می‌کند) باشند. اگر سنجه اضطراب ناپایا باشد، تغییرات در نمرات ممکن است به جای یک اثر درمانی واقعی، خطای تصادفی را منعکس کند. اگر سنجه فاقد روایی باشد (مثلاً، عمدتاً پریشانی عمومی را به جای علائم خاص اضطراب اندازه‌گیری کند)، مطالعه ممکن است به نتایج نادرستی در مورد تأثیر خاص مداخله بر اضطراب برسد.
  • پیامدهای شکست: استفاده از سنجه‌های ناپایا یا نامعتبر می‌تواند به نتایج پژوهشی کاذب یا گمراه‌کننده، ناتوانی سایر پژوهشگران در تکرار یافته‌ها (که سنگ بنای پیشرفت علمی است)، هدر رفتن تلاش‌ها و بودجه‌های پژوهشی، و در نهایت، فرسایش اعتماد عمومی به تشکیلات علمی منجر شود.

فراتر از این ملاحظات فنی و عملی، تضمین پایایی و روایی ارزیابی‌های روان‌سنجی یک الزام اخلاقی برای متخصصان و پژوهشگران است. تصمیمات مبتنی بر ارزیابی‌های ناقص می‌توانند تأثیرات عمیق، اغلب منفی و ناعادلانه‌ای بر زندگی افراد داشته باشند—که بر مسیرهای تحصیلی، فرصت‌های شغلی، دسترسی به مراقبت‌های بهداشتی و وضعیت قانونی آنها تأثیر می‌گذارد. این امر مسئولیت عمیق توسعه‌دهندگان آزمون برای ارائه شواهد جامع از کیفیت ابزارهایشان و برای کاربران آزمون برای اینکه مصرف‌کنندگان منتقد و آگاهی باشند که ارزیابی‌ها را به طور مناسب برای زمینه و جمعیت خاص خود انتخاب و تفسیر می‌کنند، را برجسته می‌سازد. سرمایه‌گذاری در توسعه و استفاده از ابزارهای ارزیابی با کیفیت بالا، پایا و روا، اغلب در درازمدت یک اقدام صرفه‌جویانه است و از هزینه‌های انسانی و مالی قابل توجه مرتبط با تصمیمات ضعیف مبتنی بر داده‌های ناقص، جلوگیری می‌کند.


۷. پیشگامان در سنجش روان‌سنجی

درک پیچیده‌ای از پایایی و روایی که امروزه راهنمای عمل روان‌سنجی است، نتیجه یک سیر تکاملی تاریخی طولانی است که با سهم پژوهشگران بصیر متعددی مشخص می‌شود. این سفر با دو جریان اصلی فکری آغاز شد: یکی متمرکز بر اندازه‌گیری تفاوت‌های فردی، که توسط شخصیت‌هایی مانند سر فرانسیس داروین، سر فرانسیس گالتون (که اغلب «پدر روان‌سنجی» نامیده می‌شود) و جیمز مک‌کین کتل (که اصطلاح «آزمون روانی» را ابداع کرد) حمایت می‌شد ؛ و دیگری ریشه در اندازه‌گیری‌های روان‌فیزیکی داشت که توسط دانشمندانی مانند یوهان فردریش هربارت، ارنست هاینریش وبر، گوستاو فخنر و ویلهلم وونت پیش برده شد، که کارشان زمینه را برای روانشناسی تجربی و آزمون‌سازی استاندارد فراهم کرد. با گذشت زمان، تمرکز از همسانی اولیه سنجش به سمت اعتبارسنجی نظری پیچیده‌تر تغییر یافت. چندین شخصیت کلیدی در این تکامل نقش اساسی داشتند:

  • لی جی. کرونباخ (Lee J. Cronbach): کرونباخ، شخصیتی برجسته در روان‌سنجی قرن بیستم، سهم عظیمی در نظریه‌های پایایی و روایی داشت. مشهورترین سهم او ضریب آلفا (آلفای کرونباخ) است که در سال ۱۹۵۱ منتشر شد و فرمولی عملی و قابل تعمیم برای برآورد پایایی همسانی درونی یک آزمون از یک بار اجرا ارائه داد و در بسیاری از موارد نیاز به آزمون مکرر یا فرم‌های موازی را از بین برد. او همچنین، با همکاری گلدین گلیزر، نظریه تعمیم‌پذیری (G-theory) را توسعه داد که یک چارچوب آماری پیچیده‌تر است که نظریه پایایی کلاسیک را با اجازه دادن به پژوهشگران برای شناسایی و کمی‌سازی همزمان چندین منبع خطای اندازه‌گیری، گسترش می‌دهد. علاوه بر این، کرونباخ با همکاری پل میل، مقاله برجسته‌ای را در سال ۱۹۵۵ منتشر کرد که درک مدرن از روایی سازه را عمیقاً شکل داد. آنها استدلال کردند که اعتبارسنجی سازه یک فرآیند مداوم و مبتنی بر نظریه است که در آن تفسیر نمرات آزمون با بررسی شبکه‌ای از روابط منطقی و تجربی اعتبارسنجی می‌شود.

  • دونالد تی. کمبل و دونالد فیسک (Donald T. Campbell and Donald Fiske): این پژوهشگران به خاطر توسعه ماتریس چندصفتی-چندروشی (MTMM) که در مقاله تأثیرگذار سال ۱۹۵۹ خود معرفی کردند، شهرت دارند. MTMM یک متدولوژی سیستماتیک برای ارزیابی روایی همگرا و واگرا—دو مؤلفه حیاتی روایی سازه—فراهم آورد. رویکرد آنها با حمایت از اندازه‌گیری چندین صفت با استفاده از چندین روش، راهی عملی برای جداسازی واریانس واقعی صفت از واریانس ناشی از خود روش اندازه‌گیری ارائه داد و در نتیجه شواهد قوی‌تری برای روایی سازه سنجه‌های روان‌شناختی فراهم کرد. دونالد فیسک همچنین پیش‌تر در اندازه‌گیری شخصیت نقش داشت، از جمله شناسایی پنج عامل شخصیتی در سال ۱۹۴۹ که پیش‌درآمدی بر مدل شخصیتی پنج عاملی بزرگ (Big Five) بود که به طور گسترده پذیرفته شده است.

  • ال. ال. ترستون (L.L. Thurstone): ال. ال. ترستون، پیشگام در اندازه‌گیری روان‌شناختی، پیشرفت‌های قابل توجهی در زمینه‌هایی مانند مقیاس‌سازی نگرش (مانند روش فواصل به ظاهر برابر)، نظریه هوش (پیشنهاد توانایی‌های ذهنی اولیه به جای یک عامل هوش عمومی واحد)، و توسعه و کاربرد تحلیل عاملی داشت. تحلیل عاملی، به ویژه، به یک ابزار آماری حیاتی برای بررسی ساختار داخلی آزمون‌ها و در نتیجه برای ارائه شواهد مرتبط با روایی سازه تبدیل شد.

این سیر تاریخی، بلوغ روان‌سنجی را به عنوان یک رشته علمی نشان می‌دهد. تعامل بین نوآوری آماری و پیشرفت مفهومی حیاتی بود ؛ ابزارهای آماری جدیدی که توسط این پیشگامان توسعه یافتند، راه‌های ظریف‌تری برای جمع‌آوری و تفسیر شواهد در مورد ویژگی‌های یک آزمون را ممکن ساختند، که به نوبه خود، درک مفهومی از آنچه پایایی و روایی مستلزم آن است را اصلاح کرد. این هم‌افزایی به مدل‌های پیچیده و استانداردهای دقیقی منجر شده است که روان‌سنجی معاصر را مشخص می‌کند.


۸. نتیجه‌گیری: پاسداری از یکپارچگی سنجش

پایایی و روایی به عنوان دو ستون اصلی حامی کل بنای سنجش روان‌سنجی ایستاده‌اند. آنها اصلاحات اختیاری نیستند، بلکه ویژگی‌های ضروری برای هر ابزار ارزیابی هستند که هدف آن ارائه اطلاعات معنادار، منصفانه و مفید است. پایایی تضمین می‌کند که یک سنجه همسان و قابل اعتماد است و تحت شرایط مشابه، نتایج پایداری تولید می‌کند. روایی تضمین می‌کند که یک سنجه دقیق است و واقعاً سازه مورد نظر را ثبت می‌کند و اجازه می‌دهد استنباط‌های مناسبی از نمرات آن صورت گیرد.

رابطه بنیادی بین آنها—اینکه پایایی یک پیش‌نیاز ضروری برای روایی است—بر سلسله مراتب روشنی در ارزیابی کیفیت سنجش تأکید می‌کند. سفر برای تثبیت قابل اعتماد بودن یک ابزار روان‌سنجی، به ویژه روایی آن، یک کار محدود و پایان‌پذیر نیست، بلکه فرآیندی مداوم از تحقیق علمی و انباشت شواهد است. این فرآیند نیازمند ارزیابی مداوم است، به ویژه زمانی که آزمون‌ها برای زمینه‌های جدید اقتباس می‌شوند، برای فرهنگ‌های مختلف ترجمه می‌شوند، یا برای جمعیت‌های گوناگون اجرا می‌گردند.

مسئولیت پاسداری از این اصول بر عهده توسعه‌دهندگان آزمون است که باید شواهد جامعی از ویژگی‌های روان‌سنجی ابزارهای خود ارائه دهند، و همچنین بر عهده کاربران آزمون است که باید مصرف‌کنندگان کوشا و منتقدی باشند و اطمینان حاصل کنند که ارزیابی‌های انتخاب‌شده مناسب بوده و تفاسیر آنها برای هدف و جمعیت خاص مورد نظر، موجه است.

در حالی که این گزارش عمدتاً بر مفاهیم بنیادی ریشه‌دار در نظریه کلاسیک آزمون متمرکز بود ، حوزه روان‌سنجی به تکامل خود ادامه می‌دهد. چارچوب‌های مدرن‌تری مانند نظریه پاسخ به گویه (IRT) و نظریه تعمیم‌پذیری که پیش‌تر ذکر شد، ابزارهای پیچیده‌تر و دیدگاه‌های ظریف‌تری برای درک ویژگی‌های آزمون و گویه، دقت سنجش و منابع خطا ارائه می‌دهند. این پیشرفت‌ها ماهیت پویای این رشته و تعهد مداوم آن به اصلاح علم سنجش را منعکس می‌کنند.

در نهایت، تعهد استوار به اصول پایایی و روایی برای پیشبرد دانش در سراسر علوم رفتاری و اجتماعی و برای اتخاذ تصمیمات مسئولانه و مبتنی بر شواهد در تمام حوزه‌هایی که به ارزیابی روان‌شناختی متکی هستند، ضروری است. با تضمین یکپارچگی سنجش‌های خود، اعتبار یافته‌هایمان را افزایش می‌دهیم، انصاف را در کاربردهایمان ترویج می‌کنیم و اعتماد بیشتری به قدرت روان‌سنجی برای روشن ساختن پیچیدگی‌های رفتار و توانایی انسان ایجاد می‌کنیم.


۹. جدول خلاصه: مقایسه اجمالی پایایی و روایی

جدول زیر خلاصه‌ای موجز از تمایزات کلیدی بین پایایی و روایی را ارائه می‌دهد:

ویژگی پایایی (Reliability) روایی (Validity)
پرسش اصلی آیا آزمون به طور همسان (باثبات) اندازه‌گیری می‌کند؟ آیا آزمون آنچه را که قرار است بسنجد، اندازه‌گیری می‌کند؟
تمرکز همسانی، دقت، تکرارپذیری صحت، مناسب بودن استنباط‌ها، صدق
قیاس (دارت) دارت‌ها به طور مکرر به یک نقطه یکسان می‌خورند. دارت‌ها به مرکز هدف می‌خورند.
رابطه شرط لازم اما نه کافی برای روایی است. نیازمند پایایی است.
انواع/شواهد کلیدی
  • آزمون-آزمون مجدد (ثبات در طول زمان)
  • بین ارزیابان (توافق بین ارزیابان)
  • همسانی درونی (همگنی گویه‌ها)
  • فرم‌های موازی (هم‌ارزی فرم‌ها)
  • روایی محتوا (پوشش کافی حوزه)
  • روایی وابسته به ملاک (ارتباط با استاندارد خارجی)
  • روایی سازه (سنجش سازه نظری)
نگرانی اصلی به حداقل رساندن خطای تصادفی سنجش. به حداقل رساندن خطای سیستماتیک و تضمین اینکه سازه صحیح سنجیده می‌شود.