آمارها نشان میدهد كه ۹۵ درصد مبتلایان به سرطان ریه، سابقهی اعتیاد به سیگار دارند». «طبق بررسیهای به عمل آمده از هر هفت زن انگلیسی یك نفر مبتلا به چاقی مفرط است». «پژوهشگران آلمانی در طی مطالعات خود به این نتیجه رسیدند كه بیش از ۶۰ درصد بزهكاران این كشور، مسواك نمیزنند». «۲/۴۲ درصد كودكان دبستانی مادران خود را از نمرات كمتر از ۵/۷ خود مطلع نمیكنند!!». «متوسط در آمد فعلی دانشجویان ورودی سال ۱۳۵۴ دانشگاه صنعتی شریف ۵۰۷۷۷۵۵۵ تومان است».
«آمارها نشان میدهد كه ۹۵ درصد مبتلایان به سرطان ریه، سابقهی اعتیاد به
سیگار دارند». «طبق بررسیهای به عمل آمده از هر هفت زن انگلیسی یك نفر
مبتلا به چاقی مفرط است». «پژوهشگران آلمانی در طی مطالعات خود به این
نتیجه رسیدند كه بیش از ۶۰ درصد بزهكاران این كشور، مسواك نمیزنند».
«۲/۴۲ درصد كودكان دبستانی مادران خود را از نمرات كمتر از ۵/۷ خود مطلع
نمیكنند!!». «متوسط در آمد فعلی دانشجویان ورودی سال ۱۳۵۴ دانشگاه صنعتی
شریف ۵۰۷۷۷۵۵۵ تومان است».
به گمانم این جملات مشخص كرده باشند كه موضوع صحبت ما، آمار است.
جملاتی
مشابه جملات بالا را هر روز در اخبار میشنویم، یا در روزنامهها و مجلات
میخوانیم. تقریباً همهی ما به شنیدن این جملات عادت كردهایم و كمتر به
محتوای آنها فكر میكنیم. كمتر میاندیشیم كه منظور از فلان آمار ارائه
شده چیست و چه قدر احتمال دارد كه این آمار صحیح باشد. بیشتر كسانی كه در
اطراف ما زندگی میكنند به آمارهایی كه مثلاً در اخبار تلویزیون ارائه
میشود اعتماد دارند، علی الخصوص آمارهایی كه در بردارندهی اطلاعاتی از
یك موضوع غیر سیاسی است. تقریباً همهی زنان خانهدار همهی آمارهائی كه
در آن حرفی از چاقی زنان به میان آمده است را به دقت دنبال میكنند؛
تقریباً همهی مردان شاغل به جزئیات آمارهائی كه از حقوق و درآمد صاحبان
مشاغل مختلف ارائه میشود ،علاقهمندند. اما به راستی این آمارها چه قدر
دقیقند؟ و تا چه حد حاكی از واقعیت هستند؟
پاسخ به این سوال از این جهت مهم است كه مردم، اعداد و ارقام ذكر شده در
آمارها را به راحتی باور میكنند. پس طبعاً مهم است كه: «این آمارها چه
قدر واقعی هستند؟». اما حقیقت این است كه این سوال، سوال پیچیدهای است و
پاسخ دادن به آن اصلاً ساده نیست. زبان آمار زبانی عجیب و رمز گونه است كه
اندكی ساده گیری در مواجهه با آن منجر به برداشتهای غلطی خواهد شد. البته
باید گفت كه همگان از این پیچیدگی و رمزگونگی زبان آمار ناخشنود نیستند،
چرا كه بسیاری از افراد (در همه جای دنیا) از پیچیدگی و رمزگونگی همین
زبان و نیز اقبال عمومی مردمان به نتایج آماری سو استفاده میكنند و با
تهیهی آمارهائی كه از روشهائی غلط بدست آمده، آنها را فریب میدهند.
روشهائی كه اگر چه عالمانه به نظر میرسند اما تن به ضوابط پیچیدهی علم
آمار نمیدهند. در حقیقت میتوان گفت بسیاری از افراد (در همه جای دنیا)
از این روشها استفاده میكنند و با آنها به مردم دروغ میگویند؛ صد
البته: دروغهائی آراسته!
در این مقاله سعی بر این داریم تا یكی از ویژگیهای ابتدائی (اما بسیار
مهم) یك آمارگیری صحیح را بررسی كنیم و سپس با استناد به این ویژگی به
بررسی صحت و سقم آخرین آماری كه در بند اول آمده است، بپردازیم. ببینیم كه
آیا واقعاً «متوسط در آمد فعلی دانشجویان ورودی سال ۱۳۵۴ دانشگاه صنعتی
شریف ۵۰۷۷۷۵۵۵ تومان است»؟ !
برای توضیح این ویژگی، از یك مثال ساده شروع میكنیم. فرض كنید بشكهای در
اختیار داریم كه پر است از دانههای لوبیا؛ برخی از آنها قرمز هستند و
برخی سفید. میخواهیم ببینیم كه نسبت تعداد لوبیاهای قرمز به تعداد
لوبیاهای سفید موجود در این بشكه چند است. شما چه راهی را پیشنهاد
میكنید؟
شاید اولین راهی كه به نظر میرسد این است كه بشكه را خالی كنیم و تكتك
لوبیاهای قرمز و سفید را شمارش كنیم و در نهایت به محاسبهی نسبت لوبیاهای
قرمز به سفید بپردازیم؛ اما روشن است كه این راه چندان معقول به نظر
نمیرسد: بسیار وقتگیر و پر دردسر است. راه دیگری كه معقولانه به نظر
میرسد این است كه از میان همهی لوبیاهائی كه در داخل بشكه قرار دارند
(كه به آن جامعهی آماری میگوئیم)، تعدادی لوبیا را به عنوان نمونه و به
تصادف انتخاب كنیم. در این حالت اگر نمونهی ما به اندازهی كافی بزرگ
باشد و تا حد ممكن تصادفی انتخاب شده باشد، میتوان انتظار داشت كه نسبت
لوبیاهای قرمز به سفید در این نمونه بیان كنندهی تقریب مناسبی از نسبت
آنها در همهی بشكه است.
دقت كنید كه تحقق هر دو شرط (الف) بزرگ و (ب) تصادفی بودن این نمونه ضروری
است. چرا كه فرض كنید ما فقط ۲ عدد لوبیا را به صورت كاملاً تصادفی انتخاب
كنیم (یعنی شرط "الف" برقرار نباشد و شرط "ب" برقرار باشد)، در این صورت
به طور قطع به یكی از سه نتیجهی زیر خواهیم رسید:
۱. در این بشكه هیچ لوبیای قرمزی نیست (در حالتی كه هر دو لوبیای انتخاب شده در نمونه سفیدند).
۲. تعداد لوبیاهای سفید و قرمز بشكه با هم برابر است (در حالتی كه یكی از دو لوبیای نمونه سفید و دیگری قرمز است).
۳. در این بشكه هیچ لوبیای سفیدی نیست (در حالتی كه هر دو لوبیای انتخاب شده در نمونه قرمزند).
و واضح است كه هیچ یك از این سه نتیجه، قابل قبول نیستند. در حالتی كه شرط
"الف" برقرار باشد و شرط "ب" برقرار نباشد نیز نتایج مقبولی بدست
نمیآوریم مثلاً فرض كنید كه نمونهی ما بزرگ باشد (۱۰۰۰ دانه لوبیا)، اما
همهی آنها را به صورتی غیر تصادفی انتخاب كرده باشیم. حالت اغراق شدهی
این مسئله شرایطی است كه در آن همهی لوبیاها را قرمز (یا همگی را سفید)
انتخاب كرده باشیم!!!
در عین حال اگر نمونهای تصادفی و به اندازهی كافی بزرگ را انتخاب كنیم،
میتوانیم انتظار داشته باشیم كه نتیجهی تقریباً صحیحی به دست بیاوریم
(مثلاً ابتدا لوبیاهای داخل بشكه را خوب مخلوط كنیم، بعد به صورتی تصادفی
یك لیوان از لوبیاهای داخل بشكه انتخاب كرده و با شمارش آنها نسبت مورد
نظر را تقریب بزنیم).
در همهی آمارگیریهای دیگری هم كه انجام میشود، نمونهای از یك جامعهی
آماری بررسی میشود و نتایج بدست آمده از آن نمونه به كل جامعه تعمیم داده
میشود. مثلاً در مورد «بزهكاران گریزان از مسواك» (در بند اول مقاله)،
جامعهی آماری «كل بزهكاران آلمانی» هستند و نمونهی انتخاب شده،
«بزهكارانی هستند كه در خصوص مسواك زدن یا نزدن آنها تحقیق شده است». در
این مورد هم (همانند همهی موارد دیگر) برای رسیدن به نتیجهی صحیح
نیازمند به اندازهی كافی بزرگ و تصادفی بودن نمونهی آماری هستیم (شاید
در اینجا این سوال برای شما مطرح شود كه «چه زمانی میتوانیم از به
اندازهی كافی بزرگ و تصادفی بودن نمونه مطمئن شویم؟»، در جواب باید گفت
كه این سوال شما سوال بسیار مهمی است، اما پاسخ به آن اصلاً ساده نیست).
در حالتی كه نمونهی ما به اندازهی كافی بزرگ یا تصادفی نباشد آن را اریب
مینامند. نمونههای مناسب برای آمارگیری نمونههای نااریب هستند.
حال اجازه بدهید كه به بررسی صحت و سقم این ادعا كه «متوسط در آمد فعلی
دانشجویان ورودی سال ۱۳۵۴ دانشگاه صنعتی شریف ۵۰۷۷۷۵۵۵ تومان است»
بپردازیم. تنها ابزاری كه (تا اینجا) برای این بررسی در اختیار داریم،
اریب یا نا اریب بودن نمونهای است كه برای بدست آمدن این آمار مورد
استفاده قرار گرفته است، اما اجازه بدهید كه پیش از آن این گزاره را با
فهم عرفی (و نه شعور علمی) خود مورد توجه قرار دهیم:
این رقم (یعنی ۵۰۷۷۷۵۵۵ تومان) رقم بسیار دقیقی است و غیر محتمل به نظر
میرسد كه درست باشد. چرا كه اگر كسی كارمند (حقوق بگیر) نباشد، احتمال
اینكه بتواند درآمدش را با چنین دقتی محاسبه نماید بسیار اندك است، از
سوی دیگر كسانی كه كارمند (حقوق بگیر) هستند چنین درآمد بالائی نخواهند
داشت.
پس تا به اینجا به این نتیجه میرسیم كه این عدد چندان معقول به نظر نمیرسد اما آیا مطالب علمی نیز این نظر ما را تائید میكنند؟
میتوانیم مطمئن باشیم، گزارشی كه از میزان درآمد فارغ التحصیلان دانشگاه
شریف ارائه شده است نتیجهی یك نمونهگیری است، چرا كه منطقاً دسترسی به
همهی آدمهای زندهای كه ورودی سال ۱۳۵۴ این دانشگاه بودهاند، ممكن به
نظر نمیرسد. نشانی بسیار از این افراد بعد از گذشت ۳۰ سال به دست نخواهد
آمد. از بین آنهائی هم كه نشانیشان در اختیار باشد، بسیاری به سوالات
پرسشنامه (به خصوص پرسشنامهای كه در آن سوالاتی تقریباً خصوصی -میزان
درآمد- پرسیده شده است!) پاسخ نخواهند داد. بنابراین رقم متوسط درآمد بر
اساس پاسخهای نمونهای از تمام ورودیهای سال ۱۳۵۴ دانشگاه صنعتی شریف،
به دست آمده است. اما آیا این نمونه معرف كل جامعهی آماریست؟ به بیان
علمیتر آیا این نمونه اریب نیست؟ (آیا میتوان درآمد افراد این نمونه را
به درآمد همهی فارغ التحصیلان ورودی ۱۳۵۴ این دانشگاه تعمیم داد؟).
پاسخ ساده است. این نمونه به دو دلیل بسیار روشن (و دلایل تاریك و روشن دیگر!)، اریب خواهد بود:
عمدهی افرادی كه آدرس آنها به دست آمده است، افراد شناخته شدهای هستند.
صاحبان كارخانجات، مدیران عامل شركتها، اساتید مشهور دانشگاهها و... كه
عمدتاً در آمد بالائی دارند. در حقیقت اكثریت افرادی كه نشانی آنها به
دست نیامده است كسانی هستند كه پس از دریافت مدرك كارشناسی خود از این
دانشگاه چندان درخششی نداشتهاند؛ آنها كسانیاند كه در مسند یك آموزگار
ساده، یك كارمند معمولی، یك روزنامهنگار، یك تكنسین پیش پا افتاده یا...
نشستهاند و از درآمد بالائی برخوردار نیستند (و در این نمونهگیری هم
خبری از آنها نیست).
بنابراین نمونهی ما به اندازهی كافی تصادفی نیست! و اریب بودن نمونه مقبولیت آمارهای مستند به آن را مخدوش میكند!