روانسنجی، رشتهای علمی که به نظریه و فنون اندازهگیری روانشناختی میپردازد، در پی آن است تا سازههایی مانند دانش، تواناییها، نگرشها و ویژگیهای شخصیتی را کمّیسازی کند. یک چالش بنیادین در این حوزه آن است که بسیاری از این سازهها «مکنون» (latent) هستند — یعنی، مانند ویژگیهای فیزیکی همچون قد یا وزن، مستقیماً قابل مشاهده نیستند. این «نامرئی بودن» ذاتیِ اهدافِ ارزیابی روانسنجی، روششناسیهای فوقالعاده دقیقی را برای تضمین کیفیت و قابل اعتماد بودن هر ابزار سنجش، الزامی میسازد.
در قلب چنین تضمین کیفیتی، دو مفهوم بنیادین نهفته است: پایایی و روایی. این دو، صرفاً آرمانهایی آکادمیک نیستند، بلکه اصولی با پیامدهای عملی عمیق به شمار میروند و سنگ بنایی را تشکیل میدهند که اعتبار ارزیابیهای روانشناختی و در نتیجه، تصمیمات متخذه بر اساس آنها، بر آن استوار است. کیفیت تصمیمات در حوزههای گوناگون — از تشخیص بالینی و جایابی تحصیلی گرفته تا گزینش کارکنان و پژوهشهای دانشگاهی — به طور جداییناپذیری با کیفیت دادههای روانسنجیِ به کار رفته، گره خورده است.
بنابراین، پایایی و روایی فقط ویژگیهای فنی «آزمونهای خوب» نیستند، بلکه برای اقدامات مبتنی بر شواهد در سرتاسر این حوزهها، بنیادین محسوب میشوند. این گزارش قصد دارد تا کاوشی جامع و در عین حال قابل فهم از این مفاهیم محوری ارائه دهد و به تعاریف آنها، ارتباط متقابل و پیچیدهشان، اشکال گوناگونشان، اهمیت حیاتی آنها در کاربردهای دنیای واقعی، و سهم تاریخی شخصیتهای کلیدی که درک ما را از آنها شکل دادند، بپردازد.
برای درک اهمیت ارزیابی روانسنجی، ابتدا باید معانی اصلی پایایی و روایی را دریافت. این اصطلاحات، گرچه اغلب در زبان روزمره به کار میروند، در حوزه اندازهگیری معانی فنی دقیقی دارند.
پایایی، در زمینه روانسنجی، به همسانی یا تکرارپذیری یک اندازهگیری اشاره دارد. اگر یک ابزار یا رویه اندازهگیری پایا باشد، در صورت استفاده مکرر برای افراد یکسان و تحت شرایط ثابت، باید نتایج مشابهی به دست آورد، با این فرض که ویژگی اصلی مورد اندازهگیری تغییری نکرده باشد. اصطلاح «پایا» در روانسنجی تا حد زیادی مترادف با «تکرارپذیر» است. یک قیاس رایج برای تشریح این مفهوم، تخته دارت است. پایایی به بازیکن دارتی شباهت دارد که در هر پرتاب، به طور مداوم به یک نقطه یکسان روی تخته میزند. دارتها ممکن است به صورت فشرده در کنار هم جمع شوند که نشاندهنده همسانی است، اما این نقطه ممکن است مرکز هدف باشد یا نباشد. راه دیگر برای فکر کردن به آن، ترازوی حمام است: اگر برای فردی که چندین بار پشت سر هم روی آن میرود، وزن یکسانی را نشان دهد، در حال نشان دادن پایایی است.
زیربنای مفهوم پایایی، نظریه کلاسیک آزمون (CTT)، یک مدل بنیادین روانسنجی است. نظریه کلاسیک آزمون فرض میکند که یک نمره مشاهدهشده (X) که از یک آزمون به دست میآید، از دو مؤلفه تشکیل شده است: یک نمره واقعی (T) و یک مؤلفه خطا (E). این رابطه با معادله ساده X=T+E بیان میشود. نمره واقعی، سطح حقیقی و بدون خطای فرد در سازه مورد اندازهگیری را نشان میدهد — یک مقدار نظری که هرگز نمیتوان آن را به طور کامل شناخت. مؤلفه خطا (E) شامل نوسانات تصادفی و غیرقابل پیشبینی است که میتواند بر نمره مشاهدهشده تأثیر بگذارد (مانند حدس زدن، حواسپرتیهای لحظهای، کلمات مبهم در یک گویه). بنابراین، پایایی اساساً به حداقل رساندن این مؤلفه خطای تصادفی مربوط میشود تا نمره مشاهدهشده (X) تخمین باثباتتر و قابل اعتمادتری از نمره واقعی (T) ارائه دهد.
از سوی دیگر، روایی به صحت یک سنجه میپردازد؛ به طور خاص، به درجهای اشاره دارد که یک آزمون، آنچه را که قصد اندازهگیری آن را دارد، میسنجد. این موضوع به خود آزمون به تنهایی مربوط نیست، بلکه به مناسب بودن، معنادار بودن و مفید بودن استنباطهای خاصی که از نمرات آزمون انجام میشود، مرتبط است.
با ادامه قیاس تخته دارت، روایی توسط بازیکن دارتی نشان داده میشود که نه تنها به طور مداوم به یک نقطه یکسان میزند، بلکه به مرکز هدف نیز میزند. دارتها جایی فرود میآیند که هدفگیری شدهاند و به درستی هدف را منعکس میکنند.
یک نکته ظریف و حیاتی در درک روایی این است که روایی یک ویژگی ذاتی و ثابت برای یک ابزار آزمون نیست. بلکه، روایی به تفسیر و استفاده از نمرات آزمون برای یک هدف خاص و در یک جمعیت مشخص مربوط میشود. همانطور که لی کرونباخ، شخصیت برجسته روانسنجی، تأکید کرد، آنچه مورد اعتبارسنجی قرار میگیرد، خود آزمون نیست، بلکه تفسیر یا استفاده پیشنهادی از نمرات آزمون است. به عنوان مثال، یک آزمون ممکن است برای انتخاب نامزدها برای یک نوع شغل معتبر باشد اما برای نوع دیگری نه، یا برای یک گروه فرهنگی معتبر باشد اما برای گروهی دیگر نه.
برخلاف پایایی که اغلب میتوان آن را مستقیماً از طریق ضرایب آماری حاصل از دادههای آزمون، کمیسازی کرد، روایی معمولاً از طریق انباشت شواهد از منابع گوناگون تثبیت میشود. روایی بیشتر یک «قضاوت ارزیابانه» در مورد درجهای است که شواهد تجربی و منطق نظری، کفایت و مناسب بودن تفاسیر و اقدامات مبتنی بر نمرات آزمون را پشتیبانی میکنند. این بدان معناست که اعتبارسنجی یک آزمون، یک فرآیند تحقیق پویا و مداوم است تا یک رویداد یکباره. یک آزمون به طور قطعی «معتبر» نمیشود؛ بلکه، شواهد به طور مستمر برای حمایت یا رد روایی آن برای کاربردهای خاص، جمعآوری میگردد.
پایایی و روایی مفاهیمی متمایز هستند، اما به طور جداییناپذیری به یکدیگر مرتبطاند. یک اصل اساسی در روانسنجی این است که «یک سنجه میتواند پایا باشد بدون آنکه روا باشد، اما نمیتواند روا باشد بدون آنکه پایا باشد». درک این رابطه برای فهم سلسله مراتب کیفیت اندازهگیری، حیاتی است.
یک سنجه میتواند پایا اما غیرروا باشد. این سناریو زمانی رخ میدهد که یک آزمون به طور مداوم نتایج یکسانی تولید میکند، اما آن نتایج به درستی سازهای را که قرار است بسنجد، منعکس نمیکنند. در قیاس تخته دارت، این همان بازیکنی است که به طور مداوم به گوشه بالا-چپ تخته میزند (پایاییِ باثبات) اما به طور مداوم مرکز هدف را از دست میدهد (رواییِ نادرست). یک مثال روانسنجی میتواند آزمونی باشد که برای ارزیابی مهارتهای حل مسئله مرتبط با شغل طراحی شده است، اما در عوض، به طور مداوم و عمدتاً سرعت خواندن را میسنجد. اگر سرعت خواندن به آن شغل بیارتباط باشد، آزمون در سنجش سرعت خواندن پایا است، اما برای هدف مورد نظر خود یعنی پیشبینی عملکرد شغلی، روا نیست. به همین ترتیب، ترازوی حمامی که به طور مداوم وزنی را ۵ کیلوگرم سنگینتر از وزن واقعی فرد نشان میدهد، پایا است (چون خوانشهای ثابتی ارائه میدهد) اما روا نیست (چون خوانشهای دقیقی ارائه نمیدهد).
برعکس، یک سنجه نمیتواند روا باشد بدون آنکه پایا باشد. اگر یک آزمون در هر بار اجرا نتایج ناهمسان و غیرقابل پیشبینی به دست دهد (یعنی، ناپایا باشد)، به هیچ وجه نمیتواند اندازهگیری دقیقی از سازه مورد نظر ارائه دهد. خطای تصادفی و نوسانات ذاتی در یک سنجه ناپایا، هرگونه دقت بالقوه را پنهان میکند. اگر دارتها در هر پرتاب به طور تصادفی در سراسر تخته پراکنده شوند (ناپایا)، نمیتوان آنها را در حال زدن دقیق و مداوم به مرکز هدف (روا) در نظر گرفت. خودِ این ناهمسانی، هرگونه ادعای صحت را تضعیف میکند.
بنابراین، پایایی یک شرط لازم، اما نه کافی، برای روایی است. یک ابزار اندازهگیری ابتدا باید نشان دهد که میتواند نتایج باثباتی تولید کند، پیش از آنکه بتوان به طور معناداری بررسی کرد که آیا آن نتایج، نمایشهای دقیقی از سازه هدف هستند یا خیر. این امر یک ترتیب مشخص را در ارزیابی کیفیت اندازهگیری برقرار میکند: پایایی به عنوان یک دروازهبان بنیادین عمل میکند. اگر مشخص شود که یک سنجه ناپایا است، صرف منابع برای مطالعات گسترده روایی تا حد زیادی بیفایده است، زیرا ابزار حتی در حال اندازهگیری هیچچیز به طور باثبات نیست.
مفاهیم خطای تصادفی و خطای سیستماتیک این رابطه را بیشتر روشن میکنند. پایایی عمدتاً به حداقل رساندن خطای تصادفی میپردازد — نوسانات غیرقابل پیشبینی و شانسی که منجر به ناهمسانی در نمرات میشود. روایی، ضمن بهرهمندی از خطای تصادفی پایین، به طور حیاتی به حصول اطمینان از عاری بودن سنجه از خطای سیستماتیک میپردازد — سوگیریهایی که به طور مداوم نمرات را در یک جهت خاص، دور از مقدار واقعی سازه مورد نظر، سوق میدهند، یا حصول اطمینان از اینکه سنجه در حال سنجش سازه صحیح است. یک سنجه ناپایا با خطای تصادفی بیش از حد آلوده است، که روا بودن آن را غیرممکن میسازد. یک سنجه پایا اما غیرروا ممکن است خطای تصادفی پایینی داشته باشد (باثبات است) اما از خطای سیستماتیک رنج میبرد (مانند سوگیری فرهنگی در یک آزمون هوش) یا به طور مداوم در حال سنجش سازه اشتباهی است (مانند آزمون سرعت خواندن که برای مهارت حل مسئله استفاده میشود). پرداختن به «نویز» (خطای تصادفی) از طریق پایایی، گام اول است ؛ اطمینان از اینکه «سیگنال» صحیح و تحریفنشده است (خطای سیستماتیک یا سازه اشتباه) وظیفه اعتبارسنجی است.
پایایی یک مفهوم یکپارچه نیست؛ بلکه، چندین نوع متمایز را در بر میگیرد که هر یک به جنبه متفاوتی از همسانی سنجش میپردازد. انتخاب اینکه کدام برآورد(های) پایایی ارزیابی و گزارش شود، به شدت به ماهیت آزمون، سازهای که قصد سنجش آن را دارد، قالب آن، و کاربرد مورد نظر از نمرات آن بستگی دارد.
پایایی آزمون-آزمون مجدد به همسانی نمراتی اشاره دارد که از اجرای یک آزمون یکسان برای یک گروه از افراد در دو نوبت مختلف، با یک فاصله زمانی مشخص بین دو اجرا، به دست میآید. این نوع پایایی، ثبات یک سنجه را در طول زمان ارزیابی میکند. این نوع پایایی به ویژه برای سازههایی مناسب است که انتظار میرود نسبتاً پایدار باشند، مانند ویژگیهای شخصیتی یا تواناییهای شناختی در بزرگسالان طی دورههای زمانی کوتاه تا متوسط.
پایایی آزمون-آزمون مجدد معمولاً با محاسبه ضریب همبستگی بین نمرات حاصل از اجرای اول (زمان ۱) و اجرای دوم (زمان ۲) برآورد میشود. همبستگی مثبت بالا، نشاندهنده ثبات خوب است. به عنوان مثال، اگر یک آزمون هوش که امروز برای گروهی از بزرگسالان اجرا شده و دو ماه دیگر دوباره اجرا شود، نمراتی با همبستگی بالا به دست دهد، پایایی آزمون-آزمون مجدد خوبی را نشان میدهد. با این حال، عواملی مانند به خاطر آوردن پاسخهای قبلی توسط افراد (اثرات حافظه)، تغییرات واقعی در ویژگی مورد سنجش طی فاصله زمانی، یا تغییرات در شرایط آزمون میتوانند این برآورد را تحت تأثیر قرار دهند. طول فاصله زمانی یک ملاحظه حیاتی است؛ فاصله زمانی بیش از حد کوتاه ممکن است به دلیل حافظه، پایایی را به طور کاذب افزایش دهد، در حالی که فاصله زمانی بیش از حد طولانی ممکن است اجازه دهد تغییرات واقعی در ویژگی رخ دهد و در نتیجه، برآورد پایایی را به طور مصنوعی کاهش دهد.
پایایی بین ارزیابان (که به آن پایایی بین مشاهدهگران نیز گفته میشود) همسانی نمرات، رتبهها یا طبقهبندیهایی را ارزیابی میکند که توسط دو یا چند ارزیاب یا مشاهدهگر مستقل که در حال ارزیابی یک عملکرد، رفتار، محصول یا پدیده یکسان هستند، اختصاص داده میشود. این نوع پایایی زمانی حیاتی است که فرآیند نمرهگذاری شامل قضاوت ذهنی باشد، مانند نمرهدهی به انشا، مشاهدات رفتاری در کلاس درس، مصاحبههای تشخیصی بالینی، یا کدگذاری دادههای کیفی.
پایایی بین ارزیابان اغلب با استفاده از آمارههایی مانند کاپای کوهن (برای رتبهبندیهای طبقهای) یا ضریب همبستگی درونطبقهای (ICC) (برای رتبهبندیهای پیوسته یا ترتیبی) کمیسازی میشود، که درجه توافق بین ارزیابان را فراتر از آنچه به صورت شانسی انتظار میرود، اندازهگیری میکنند. به عنوان مثال، اگر دو روانشناس به طور مستقل از یک مصاحبه ساختاریافته و یک مقیاس رتبهبندی برای ارزیابی شدت علائم افسردگی در گروهی از بیماران استفاده کنند، توافق بالا در رتبهبندیهای آنها نشاندهنده پایایی بین ارزیابان خوب خواهد بود. دستیابی به پایایی بین ارزیابان بالا معمولاً نیازمند دستورالعملها یا معیارهای نمرهگذاری واضح و به خوبی تعریفشده، و آموزش کامل ارزیابان برای اطمینان از به کارگیری مداوم معیارها است.
پایایی همسانی درونی به درجه همسانی یا ارتباط متقابل بین گویههای (آیتمهای) درون یک آزمون یا مقیاس واحد اشاره دارد. این نوع پایایی، میزان تولید الگوهای پاسخ مشابه توسط گویههای مختلف یک آزمون که برای اندازهگیری یک سازه زیربنایی یکسان طراحی شدهاند را بررسی میکند. در اصل، این روش همگنی گویهها را میآزماید—اینکه آیا همه آنها در حال سنجش یک ویژگی مکنون یکسان هستند یا خیر. این شکل از پایایی را میتوان از یک بار اجرای آزمون برآورد کرد. دو روش متداول برای ارزیابی همسانی درونی، پایایی دو نیمهسازی و آلفای کرونباخ هستند.
پایایی دو نیمهسازی (Split-Half Reliability): این روش شامل تقسیم یک آزمون به دو نیمه است که فرض میشود معادل هستند. راههای متداول برای تقسیم آزمون شامل جدا کردن گویههای با شماره فرد از زوج، یا تخصیص تصادفی گویهها به یکی از دو نیمه است. سپس نمرات برای هر نیمه محاسبه شده و همبستگی بین نمرات این دو نیمه محاسبه میشود. از آنجا که این همبستگی بر اساس آزمونی است که تنها نصف طول آزمون اصلی را دارد، یک تصحیح آماری، که متداولترین آن فرمول پیشگویی اسپیرمن-براون است، برای برآورد پایایی کل آزمون به کار میرود. برای مثال، یک پرسشنامه ۴۰ گویهای برای ارزیابی وظیفهشناسی میتواند به دو نیمه ۲۰ گویهای تقسیم شود و همبستگی بین نمرات این دو نیمه (پس از تصحیح) پایایی دو نیمهسازی آن را نشان میدهد.
پایایی فرمهای موازی (که به آن پایایی فرمهای همتا یا پایایی فرمهای جایگزین نیز گفته میشود) همسانی نمرات به دست آمده از دو نسخه متفاوت از یک آزمون را که از نظر محتوا، سطح دشواری، قالب و ویژگیهای آماری (مانند میانگین، واریانس) معادل طراحی شدهاند، ارزیابی میکند. هدف این نسخههای متفاوت، اندازهگیری یک سازه یکسان است. این نوع پایایی زمانی مفید است که نیاز به داشتن چندین فرم از یک آزمون وجود داشته باشد، به عنوان مثال، برای امکان آزمون مجدد بدون نگرانی از به خاطر سپردن گویهها توسط افراد از اجرای قبلی (اثرات تمرین)، یا برای جلوگیری از تقلب در موقعیتهای آزمون گروهی.
برای برآورد پایایی فرمهای موازی، هر دو فرم آزمون برای یک گروه از افراد اجرا میشود (اغلب با متعادلسازی ترتیب اجرا)، و ضریب همبستگی بین نمرات دو فرم محاسبه میشود. همبستگی مثبت بالا نشان میدهد که دو فرم واقعاً در حال اندازهگیری یک سازه یکسان به طور همسان هستند. برای مثال، اگر دو نسخه با دقت ساختهشده از یک آزمون پیشرفت ریاضی استاندارد (فرم A و فرم B) برای دانشآموزان یکسانی اجرا شود، همبستگی قوی بین نمرات آنها در فرم A و فرم B از پایایی فرمهای موازی آزمونها حمایت میکند.
ضرایب پایایی، صرف نظر از نوع آنها، میتوانند به عنوان شاخصی از نسبت واریانس نمره مشاهدهشده که به واریانس «واقعی» (سیگنالی که تفاوتهای واقعی در ویژگی را نشان میدهد) در مقابل واریانس خطا (نویز ناشی از عدم دقتهای تصادفی اندازهگیری) قابل انتساب است، در نظر گرفته شوند. به عنوان مثال، ضریب پایایی ۰.۸۵ نشان میدهد که ۸۵٪ از تغییرپذیری در نمرات مشاهدهشده، تفاوتهای واقعی بین افراد در سازه را منعکس میکند، در حالی که ۱۵٪ باقیمانده به دلیل خطای اندازهگیری تصادفی است. این تفسیر، درکی شهودیتر از معنای ضریب پایایی فراتر از صرفاً همسانی ارائه میدهد و دقت یک سنجه را مستقیماً کمیسازی میکند.
در حالی که پایایی به همسانی سنجش میپردازد، روایی به صحت و مناسب بودن تفاسیر و کاربردهای نمرات آزمون مربوط میشود. روایی، میزانی است که یک آزمون، سازه نظری یا ویژگیای را که ادعای سنجش آن را دارد، اندازهگیری میکند. روایی اغلب به عنوان یک مفهوم واحد توصیف میشود، به این معنی که در نهایت یک سؤال اصلی وجود دارد: آیا آزمون آنچه را که قرار است بسنجد، اندازهگیری میکند و آیا استنباطهای حاصل از نمرات آن موجه است؟ با این حال، شواهد برای حمایت از این ادعا از منابع گوناگونی جمعآوری میشود که به طور سنتی به انواع مختلف شواهد روایی طبقهبندی شدهاند.
روایی محتوا به میزانی اشاره دارد که گویهها، سؤالات یا تکالیف یک آزمون، نماینده کل حوزه یا جهان محتوایی هستند که آزمون ادعای سنجش آن را دارد. این نوع روایی به این موضوع میپردازد که آیا آزمون، نمونهای کافی و نماینده از حیطه محتوایی مورد نظر خود را ارائه میدهد یا خیر.
ارزیابی روایی محتوا معمولاً یک فرآیند کیفی است که اغلب بر قضاوت متخصصان موضوعی (SMEs) تکیه دارد. این متخصصان به طور سیستماتیک گویههای آزمون را در برابر تعریف دقیقی از حوزه محتوا، مشخصات شغلی یا اهداف برنامه درسی بررسی میکنند تا ارتباط و نمایندگی بودن آنها را ارزیابی کنند. به عنوان مثال، برای تعیین روایی محتوای یک امتحان نهایی برای یک درس تاریخ در دانشگاه، استادان تاریخ سؤالات امتحان را بررسی میکنند تا اطمینان حاصل کنند که تمام موضوعات کلیدی، مفاهیم و دورههای تاریخی تدریس شده در طول ترم را به اندازه کافی پوشش میدهند و توزیع سؤالات، بازتابدهنده تأکید صورت گرفته بر موضوعات مختلف در دوره است. به طور مشابه، برای یک آزمون پیش از استخدام که برای توسعهدهندگان نرمافزار طراحی شده است، روایی محتوا زمانی تأیید میشود که آزمون شامل وظایف و سؤالاتی باشد که مستقیماً به زبانهای برنامهنویسی، رویههای اشکالزدایی و متدولوژیهای توسعه نرمافزار مورد استفاده در آن نقش شغلی خاص، مرتبط باشند. اگرچه این روش عمدتاً کیفی است، اما میتوان از روشهای کمی مانند نسبت روایی محتوا (CVR) که در آن متخصصان ضرورت هر گویه را رتبهبندی میکنند، نیز استفاده کرد.
روایی وابسته به ملاک، میزانی را ارزیابی میکند که نمرات یک آزمون به طور سیستماتیک با نمرات یک سنجه ملاک خارجی مرتبط هستند (یعنی همبستگی دارند). ملاک، یک سنجه مستقل است که باور بر این است که شاخصی مستقیم یا یک معیار تثبیتشده از سازهای است که آزمون قصد اندازهگیری آن را دارد. برای اینکه یک ملاک مفید باشد، باید خودش مرتبط، پایا و آلودهنشده (یعنی تحت تأثیر نمرات خود آزمون نباشد) باشد. دو نوع اصلی روایی وابسته به ملاک وجود دارد: روایی پیشبین و روایی همزمان.
روایی پیشبین (Predictive Validity): این شکل از روایی به دقتی اشاره دارد که نمرات آزمون میتوانند عملکرد یا رفتار آینده را بر روی سنجه ملاک پیشبینی کنند. در مطالعات روایی پیشبین، یک فاصله زمانی بین اجرای آزمون و جمعآوری دادههای مربوط به ملاک وجود دارد. نمرات آزمون ابتدا جمعآوری شده و سپس، در زمانی دیگر، دادههای ملاک به دست آمده و با نمرات اولیه آزمون همبسته میشوند. همبستگی بالا نشان میدهد که آزمون، پیشبینیکننده خوبی از نتایج آینده است. یک مثال کلاسیک، استفاده از آزمونهای استعداد تحصیلی مانند SAT برای پیشبینی معدل (GPA) سال اول دانشجویان در کالج است؛ نمرات SAT قبل از ورود به کالج به دست میآیند و معدلها پس از سال اول جمعآوری میشوند. مثال رایج دیگر، یک آزمون استعداد یا شخصیت پیش از استخدام است که برای متقاضیان کار اجرا میشود و رتبهبندیهای عملکرد شغلی بعدی آنها (مثلاً پس از شش ماه یا یک سال کار) به عنوان ملاک عمل میکند.
روایی همزمان (Concurrent Validity): این شکل از روایی، میزانی را ارزیابی میکند که نمرات آزمون با یک سنجه ملاک که تقریباً در همان زمان با نمرات آزمون به دست آمده، مرتبط است. در مطالعات روایی همزمان، هم دادههای آزمون و هم دادههای ملاک به صورت همزمان یا در نزدیکی زمانی با یکدیگر جمعآوری میشوند. این نوع روایی اغلب زمانی استفاده میشود که یک آزمون جدید، شاید کوتاهتر یا کارآمدتر، توسعه یافته و نیاز به اعتبارسنجی در برابر یک سنجه موجود و تثبیتشده (اما شاید دستوپاگیرتر یا گرانتر) دارد. به عنوان مثال، یک پرسشنامه خودگزارشی کوتاه جدید برای غربالگری افسردگی میتواند برای گروهی از افراد همزمان با انجام یک مصاحبه تشخیصی ساختاریافته و جامع برای افسردگی (ملاک) اجرا شود. همبستگی مثبت قوی بین نمرات پرسشنامه جدید و نتایج مصاحبه تشخیصی، از روایی همزمان ابزار غربالگری جدید حمایت میکند.
یک چالش عملی مهم در تعیین روایی وابسته به ملاک، «مشکل ملاک» است. این مشکل به دشواری یافتن یا توسعه یک سنجه ملاک خارجی اشاره دارد که واقعاً کافی باشد—یعنی مرتبط، پایا، جامع و عاری از سوگیری باشد. روایی آزمون مورد ارزیابی، به نوعی، توسط کیفیت ملاکی که با آن مقایسه میشود، محدود میگردد. اگر خود ملاک ناقص باشد (مثلاً رتبهبندیهای غیرپایای سرپرست به عنوان سنجه عملکرد شغلی استفاده شود)، آنگاه همبستگی بالا با آن ممکن است نشاندهنده روایی واقعی برای آزمون نباشد، و برعکس، همبستگی پایین ممکن است به معنای نامعتبر بودن آزمون نباشد اگر ملاک ضعیف باشد.
روایی سازه اغلب به عنوان بنیادیترین و فراگیرترین نوع روایی در نظر گرفته میشود. این روایی به میزانی مربوط میشود که یک آزمون، سازه نظری یا ویژگی روانشناختی (مانند هوش، اضطراب، خلاقیت، عزت نفس) را که ادعای سنجش آن را دارد، اندازهگیری میکند. سازه، یک مفهوم انتزاعی و نظری است که مستقیماً قابل مشاهده نیست اما از رفتار یا خودگزارشیها استنباط میشود.
برقراری روایی سازه شامل یک فرآیند پیچیده از انباشت اشکال مختلف شواهد برای نشان دادن این است که نمرات آزمون به شیوههایی رفتار میکنند که توسط نظریه زیربنایی سازه پیشبینی میشود. شواهد حاصل از روایی محتوا و روایی وابسته به ملاک به تصویر کلی روایی سازه کمک میکنند. در واقع، تفکر روانسنجی مدرن که به شدت تحت تأثیر کار برجسته کرونباخ و میل (۱۹۵۵) قرار دارد، روایی سازه را نه صرفاً یک نوع در میان انواع دیگر، بلکه چارچوب فراگیر برای درک آنچه یک آزمون میسنجد، میداند. این دیدگاه، اعتبارسنجی آزمون را از مجموعهای از بررسیهای فنی به یک تلاش علمی برای آزمون نظریه ارتقا میدهد.
منابع کلیدی شواهد برای روایی سازه عبارتند از:
روایی همگرا (Convergent Validity): این روایی زمانی نشان داده میشود که یک آزمون، همبستگی مثبت قابل توجهی (یا همبستگی در جهت مورد انتظار نظری) با سایر سنجهها یا آزمونهای موجود که برای ارزیابی همان سازه یا سازههای بسیار مشابه طراحی شدهاند، نشان دهد. به عنوان مثال، یک مقیاس خودگزارشی تازه توسعهیافته برای اندازهگیری اضطراب اجتماعی باید همبستگی بالایی با سنجههای تثبیتشده اضطراب اجتماعی و شاید همبستگی متوسطی با سنجههای سازههای مرتبط مانند کمرویی یا درونگرایی داشته باشد.
روایی واگرا (Discriminant Validity): این روایی زمانی نشان داده میشود که یک آزمون، همبستگی کم یا عدم همبستگی (یا همبستگی به طور قابل توجهی ضعیفتر از سنجههای همگرا) با سنجههای سازههای نظری متفاوت یا نامرتبط نشان دهد. به عنوان مثال، یک سنجه استعداد ریاضی در حالت ایدهآل باید همبستگی بسیار پایینی با یک سنجه قدردانی هنری نشان دهد، اگر نظریههای زیربنایی اینها را به عنوان تواناییهای متمایز فرض کنند. روایی واگرا برای اطمینان از اینکه یک آزمون صرفاً در حال اندازهگیری یک عامل کلی و گسترده (مانند توانایی تحصیلی کلی یا پریشانی روانی عمومی) نیست، در حالی که برای سنجش یک سازه خاصتر طراحی شده است، حیاتی است. این روایی به جلوگیری از «مغالطه جینگل» (فرض اینکه دو چیز متفاوت به دلیل داشتن نام مشابه، یکسان هستند) و «مغالطه جَنگل» (فرض اینکه دو چیز مشابه به دلیل داشتن نامهای متفاوت، متفاوت هستند) کمک میکند و در نتیجه وضوح مفهومی و دقت اندازهگیری را ارتقا میدهد.
ماتریس چندصفتی-چندروشی (MTMM): ماتریس MTMM که توسط دونالد کمبل و دونالد فیسک (۱۹۵۹) توسعه یافت، یک طرح آزمایشی و رویکرد تحلیلی سیستماتیک برای بررسی همزمان روایی همگرا و واگرا است. MTMM شامل اندازهگیری حداقل دو صفت مختلف (مانند اضطراب و افسردگی) با استفاده از حداقل دو روش مختلف (مانند پرسشنامه خودگزارشی، رتبهبندی بالینی، مشاهده رفتاری) است. ماتریس همبستگی حاصل، امکان بررسی دقیق الگوها را فراهم میکند:
سایر اشکال شواهد که به روایی سازه کمک میکنند شامل مطالعات ساختار داخلی آزمون (مثلاً از طریق تحلیل عاملی برای دیدن اینکه آیا گویهها طبق پیشبینی نظری گروهبندی میشوند)، تحلیل فرآیندهای پاسخدهی (بررسی چگونگی رسیدن افراد به پاسخهایشان)، و شواهد تفاوتهای گروهی که با نظریه سازگار است (مثلاً افرادی که با اختلال اضطراب تشخیص داده شدهاند، نمره بالاتری در سنجه اضطراب نسبت به گروه کنترل کسب میکنند) میشود. فرآیند اعتبارسنجی سازه، انباشت مداوم شواهدی است که یک استدلال علمی قوی برای تفسیر پیشنهادی نمرات آزمون ایجاد میکند.
اصول پایایی و روایی به گفتمان آکادمیک محدود نمیشوند؛ آنها در بسیاری از محیطهای عملی که در آنها از ارزیابیهای روانسنجی برای اتخاذ تصمیماتی که میتوانند به طور قابل توجهی بر زندگی افراد و اثربخشی سازمانها تأثیر بگذارند، عمیقاً مهم هستند. عدم استفاده از سنجههای پایا و روا میتواند به مداخلات بیاثر، نتایج ناعادلانه و هدر رفتن منابع منجر شود.
در محیطهای سلامت روان و جسم، تشخیص دقیق، سنگ بنای برنامهریزی درمانی مؤثر و مراقبت از بیمار است. متخصصان بالینی به ابزارهای ارزیابی مختلفی، از سیاهه علائم و آزمونهای شخصیت گرفته تا ارزیابیهای شناختی برای شرایطی مانند زوال عقل، تکیه میکنند. پایایی و روایی این ابزارها از اهمیت بالایی برخوردار است.
در حوزه منابع انسانی، سازمانها از انواع آزمونهای روانسنجی—مانند آزمونهای توانایی شناختی، سیاهه های شخصیت، آزمونهای قضاوت موقعیتی، و مصاحبههای ساختاریافته—برای تصمیمگیری در مورد استخدام و ارتقاء شغلی استفاده میکنند.
مؤسسات آموزشی به شدت بر آزمونها برای اهداف متعددی، از جمله ارزیابی دانشآموزان، جایابی در برنامههای مناسب، تشخیص ناتوانیهای یادگیری، پذیرش دانشگاه، و پاسخگویی مدارس و مناطق آموزشی، تکیه میکنند.
اعتبار و قابل اعتماد بودن یافتهها در پژوهشهای دانشگاهی در رشتههای متعدد—از جمله روانشناسی، آموزش، جامعهشناسی و علوم بهداشتی—اساساً به کیفیت ابزارهای اندازهگیری مورد استفاده برای جمعآوری دادهها بستگی دارد.
فراتر از این ملاحظات فنی و عملی، تضمین پایایی و روایی ارزیابیهای روانسنجی یک الزام اخلاقی برای متخصصان و پژوهشگران است. تصمیمات مبتنی بر ارزیابیهای ناقص میتوانند تأثیرات عمیق، اغلب منفی و ناعادلانهای بر زندگی افراد داشته باشند—که بر مسیرهای تحصیلی، فرصتهای شغلی، دسترسی به مراقبتهای بهداشتی و وضعیت قانونی آنها تأثیر میگذارد. این امر مسئولیت عمیق توسعهدهندگان آزمون برای ارائه شواهد جامع از کیفیت ابزارهایشان و برای کاربران آزمون برای اینکه مصرفکنندگان منتقد و آگاهی باشند که ارزیابیها را به طور مناسب برای زمینه و جمعیت خاص خود انتخاب و تفسیر میکنند، را برجسته میسازد. سرمایهگذاری در توسعه و استفاده از ابزارهای ارزیابی با کیفیت بالا، پایا و روا، اغلب در درازمدت یک اقدام صرفهجویانه است و از هزینههای انسانی و مالی قابل توجه مرتبط با تصمیمات ضعیف مبتنی بر دادههای ناقص، جلوگیری میکند.
درک پیچیدهای از پایایی و روایی که امروزه راهنمای عمل روانسنجی است، نتیجه یک سیر تکاملی تاریخی طولانی است که با سهم پژوهشگران بصیر متعددی مشخص میشود. این سفر با دو جریان اصلی فکری آغاز شد: یکی متمرکز بر اندازهگیری تفاوتهای فردی، که توسط شخصیتهایی مانند سر فرانسیس داروین، سر فرانسیس گالتون (که اغلب «پدر روانسنجی» نامیده میشود) و جیمز مککین کتل (که اصطلاح «آزمون روانی» را ابداع کرد) حمایت میشد ؛ و دیگری ریشه در اندازهگیریهای روانفیزیکی داشت که توسط دانشمندانی مانند یوهان فردریش هربارت، ارنست هاینریش وبر، گوستاو فخنر و ویلهلم وونت پیش برده شد، که کارشان زمینه را برای روانشناسی تجربی و آزمونسازی استاندارد فراهم کرد. با گذشت زمان، تمرکز از همسانی اولیه سنجش به سمت اعتبارسنجی نظری پیچیدهتر تغییر یافت. چندین شخصیت کلیدی در این تکامل نقش اساسی داشتند:
لی جی. کرونباخ (Lee J. Cronbach): کرونباخ، شخصیتی برجسته در روانسنجی قرن بیستم، سهم عظیمی در نظریههای پایایی و روایی داشت. مشهورترین سهم او ضریب آلفا (آلفای کرونباخ) است که در سال ۱۹۵۱ منتشر شد و فرمولی عملی و قابل تعمیم برای برآورد پایایی همسانی درونی یک آزمون از یک بار اجرا ارائه داد و در بسیاری از موارد نیاز به آزمون مکرر یا فرمهای موازی را از بین برد. او همچنین، با همکاری گلدین گلیزر، نظریه تعمیمپذیری (G-theory) را توسعه داد که یک چارچوب آماری پیچیدهتر است که نظریه پایایی کلاسیک را با اجازه دادن به پژوهشگران برای شناسایی و کمیسازی همزمان چندین منبع خطای اندازهگیری، گسترش میدهد. علاوه بر این، کرونباخ با همکاری پل میل، مقاله برجستهای را در سال ۱۹۵۵ منتشر کرد که درک مدرن از روایی سازه را عمیقاً شکل داد. آنها استدلال کردند که اعتبارسنجی سازه یک فرآیند مداوم و مبتنی بر نظریه است که در آن تفسیر نمرات آزمون با بررسی شبکهای از روابط منطقی و تجربی اعتبارسنجی میشود.
دونالد تی. کمبل و دونالد فیسک (Donald T. Campbell and Donald Fiske): این پژوهشگران به خاطر توسعه ماتریس چندصفتی-چندروشی (MTMM) که در مقاله تأثیرگذار سال ۱۹۵۹ خود معرفی کردند، شهرت دارند. MTMM یک متدولوژی سیستماتیک برای ارزیابی روایی همگرا و واگرا—دو مؤلفه حیاتی روایی سازه—فراهم آورد. رویکرد آنها با حمایت از اندازهگیری چندین صفت با استفاده از چندین روش، راهی عملی برای جداسازی واریانس واقعی صفت از واریانس ناشی از خود روش اندازهگیری ارائه داد و در نتیجه شواهد قویتری برای روایی سازه سنجههای روانشناختی فراهم کرد. دونالد فیسک همچنین پیشتر در اندازهگیری شخصیت نقش داشت، از جمله شناسایی پنج عامل شخصیتی در سال ۱۹۴۹ که پیشدرآمدی بر مدل شخصیتی پنج عاملی بزرگ (Big Five) بود که به طور گسترده پذیرفته شده است.
ال. ال. ترستون (L.L. Thurstone): ال. ال. ترستون، پیشگام در اندازهگیری روانشناختی، پیشرفتهای قابل توجهی در زمینههایی مانند مقیاسسازی نگرش (مانند روش فواصل به ظاهر برابر)، نظریه هوش (پیشنهاد تواناییهای ذهنی اولیه به جای یک عامل هوش عمومی واحد)، و توسعه و کاربرد تحلیل عاملی داشت. تحلیل عاملی، به ویژه، به یک ابزار آماری حیاتی برای بررسی ساختار داخلی آزمونها و در نتیجه برای ارائه شواهد مرتبط با روایی سازه تبدیل شد.
این سیر تاریخی، بلوغ روانسنجی را به عنوان یک رشته علمی نشان میدهد. تعامل بین نوآوری آماری و پیشرفت مفهومی حیاتی بود ؛ ابزارهای آماری جدیدی که توسط این پیشگامان توسعه یافتند، راههای ظریفتری برای جمعآوری و تفسیر شواهد در مورد ویژگیهای یک آزمون را ممکن ساختند، که به نوبه خود، درک مفهومی از آنچه پایایی و روایی مستلزم آن است را اصلاح کرد. این همافزایی به مدلهای پیچیده و استانداردهای دقیقی منجر شده است که روانسنجی معاصر را مشخص میکند.
پایایی و روایی به عنوان دو ستون اصلی حامی کل بنای سنجش روانسنجی ایستادهاند. آنها اصلاحات اختیاری نیستند، بلکه ویژگیهای ضروری برای هر ابزار ارزیابی هستند که هدف آن ارائه اطلاعات معنادار، منصفانه و مفید است. پایایی تضمین میکند که یک سنجه همسان و قابل اعتماد است و تحت شرایط مشابه، نتایج پایداری تولید میکند. روایی تضمین میکند که یک سنجه دقیق است و واقعاً سازه مورد نظر را ثبت میکند و اجازه میدهد استنباطهای مناسبی از نمرات آن صورت گیرد.
رابطه بنیادی بین آنها—اینکه پایایی یک پیشنیاز ضروری برای روایی است—بر سلسله مراتب روشنی در ارزیابی کیفیت سنجش تأکید میکند. سفر برای تثبیت قابل اعتماد بودن یک ابزار روانسنجی، به ویژه روایی آن، یک کار محدود و پایانپذیر نیست، بلکه فرآیندی مداوم از تحقیق علمی و انباشت شواهد است. این فرآیند نیازمند ارزیابی مداوم است، به ویژه زمانی که آزمونها برای زمینههای جدید اقتباس میشوند، برای فرهنگهای مختلف ترجمه میشوند، یا برای جمعیتهای گوناگون اجرا میگردند.
مسئولیت پاسداری از این اصول بر عهده توسعهدهندگان آزمون است که باید شواهد جامعی از ویژگیهای روانسنجی ابزارهای خود ارائه دهند، و همچنین بر عهده کاربران آزمون است که باید مصرفکنندگان کوشا و منتقدی باشند و اطمینان حاصل کنند که ارزیابیهای انتخابشده مناسب بوده و تفاسیر آنها برای هدف و جمعیت خاص مورد نظر، موجه است.
در حالی که این گزارش عمدتاً بر مفاهیم بنیادی ریشهدار در نظریه کلاسیک آزمون متمرکز بود ، حوزه روانسنجی به تکامل خود ادامه میدهد. چارچوبهای مدرنتری مانند نظریه پاسخ به گویه (IRT) و نظریه تعمیمپذیری که پیشتر ذکر شد، ابزارهای پیچیدهتر و دیدگاههای ظریفتری برای درک ویژگیهای آزمون و گویه، دقت سنجش و منابع خطا ارائه میدهند. این پیشرفتها ماهیت پویای این رشته و تعهد مداوم آن به اصلاح علم سنجش را منعکس میکنند.
در نهایت، تعهد استوار به اصول پایایی و روایی برای پیشبرد دانش در سراسر علوم رفتاری و اجتماعی و برای اتخاذ تصمیمات مسئولانه و مبتنی بر شواهد در تمام حوزههایی که به ارزیابی روانشناختی متکی هستند، ضروری است. با تضمین یکپارچگی سنجشهای خود، اعتبار یافتههایمان را افزایش میدهیم، انصاف را در کاربردهایمان ترویج میکنیم و اعتماد بیشتری به قدرت روانسنجی برای روشن ساختن پیچیدگیهای رفتار و توانایی انسان ایجاد میکنیم.
جدول زیر خلاصهای موجز از تمایزات کلیدی بین پایایی و روایی را ارائه میدهد:
ویژگی | پایایی (Reliability) | روایی (Validity) |
---|---|---|
پرسش اصلی | آیا آزمون به طور همسان (باثبات) اندازهگیری میکند؟ | آیا آزمون آنچه را که قرار است بسنجد، اندازهگیری میکند؟ |
تمرکز | همسانی، دقت، تکرارپذیری | صحت، مناسب بودن استنباطها، صدق |
قیاس (دارت) | دارتها به طور مکرر به یک نقطه یکسان میخورند. | دارتها به مرکز هدف میخورند. |
رابطه | شرط لازم اما نه کافی برای روایی است. | نیازمند پایایی است. |
انواع/شواهد کلیدی |
|
|
نگرانی اصلی | به حداقل رساندن خطای تصادفی سنجش. | به حداقل رساندن خطای سیستماتیک و تضمین اینکه سازه صحیح سنجیده میشود. |
{{ excerpt | truncatewords: 55 }}
{% endif %}