גובה הכיתה – שיעור בסטטיסטיקה

כאשר מלמדים שיטות סטטיסטיות, במיוחד לאנשים שזה לא הולך להיות המקצוע שלהם, יש נטייה להתמקד בנוסחאות ופחות במשמעות הנתונים. התוצאה היא שתלמידים רבים לומדים לחשב ממוצע, אולי סטיית תקן, ואולי אפילו מה תחום הטעות בביטחון של 95%. אבל מעטים באמת מסבירים מה הם מדדו ומה המשמעות של אותו טווח טעות.

אני אנסה פה לעשות בדיוק את ההיפך. בעזרת ניסוי מחשבתי אסביר את המשמעות. יהיו גם נוסחאות וחישובים אבל זה פחות חשוב. בדרך, אדגיש כמה נקודות שחשובות ביותר להבנת מדעי האקלים.

תיאור הניסוי

כל השמות בסיפור זה אמיתיים לחלוטין (פרט למורה דקדקנית), אבל כל הדמויות בדויות. טוב, לפחות התלמידים בדויים, אין לי מידע מלא על שאר המשתתפים. תראו בהמשך.

המורה דקדקנית (שם בדוי ודמות בדיונית לחלוטין) החליטה למדוד בכמה תגבה הכיתה שלה בשנת הלימודים. בתחילת שנת הלימודים בחרה ביקשה מהתלמידים למדוד את גובהם ואפילו הספיקה למדוד חמישה מהם לפני ההפסקה. ביום האחרון ללימודים קראה לאותם חמישה ומדדה שוב. נשאלת השאלה, בכמה סנטימטרים בממוצע גבהו כל תלמידי הכיתה? האם בכלל ניתן לדעת? תוצאות המדידות לפניכם:

height-slide2

בעמודה השמאלית מופיעים שמות התלמידים שנמדדו. (כולם שמות אמיתיים של דמויות בדויות). עמודה H1 היא גובה התלמידים בתחילת השנה (בסנמטימטרים) ועמודה H2 היא הגובה בסוף השנה. עמודה DIFF היא ההפרש: בכמה גבה (או גבהה) כל תלמיד (או תלמידה). כפי שאתם רואים: קשה יותר לכתוב זאת בעברית, ובנוסף אני משתמש ב Excel ללא עברית שמתעקש שהעמודה הראשונה היא בצד שמאל. יש עוד נתונים שלא מופיעים בטבלה: בכיתה יש 30 תלמידים, מתוכם 15 בנות (וכיוון שאני באיזור סן־פרנסיסקו חייבים לציין שיש גם 15 בנים).

חישוב ראשוני

יש נוסחה, מציבים ופותרים. כלומר, אם יודעים איזה נוסחה ומה היא מייצגת. הנה הנוסחה לפניכם:

height-slide1

בשורה הראשונה מתחת לכותרת זה מה שרוצים לחשב. \hat{\mu} זה ההערכה שלנו למה שרוצים לדעת, ובמקרה זה יוצא הממוצע של המדידות. הגורם המסובך שמופיע מימין לסימן \pm הוא תחום הטעות בהתאם למידת הביטחון שבחרנו c. הגורם N הוא גודל האוכלוסיה הנבדקת (30 תלמידים במקרה זה). הגורם n הוא מספר המדידות (5 תלמידים במקרה שלנו). הגורם t_{c,n-1} הוא נלקח מתוך טבלה שמצאנו בספר, או ויקיפדיה עבור התפלגות t. הסימונים X_1,X_2,X_3,X_4,X_5 וכן הלאה הם המדידות. לדוגמה אלה יהיו חמשת המספרים בעמודה H1 אם רוצים לחשב מה היה הגובה הממוצע של התלמידים בתחילת השנה. למי שחייב לדעת \hat{\sigma} זו סטיית התקן הנמדדת מהנתונים (נוסחה בשורת השלישית). לבסוף: הגורם המוזר \sqrt{\frac{N-n}{N-1}} הוא מספר בין אפס לאחד שמקטין את טווח הטעות. משתמשים בו כאשר אנו דוגמים מדידות מתוך אוכלוסיה מוגבלת בגודל (במקרה שלנו זה שלושים תלמידים) מבלי לחזור על אותו אובייקט (תלמיד במקרה זה) יותר מפעם אחת. אם היינו דוגמים את כל שלושים התלמידים הגורם הזה הופך לאפס וטווח הטעות גם הוא אפס כי דגמנו את כל האוכלוסיה. קוראים לזה Finite Population Correction או בקיצור FPC.

איך זה יכול להיות שטווח הטעות הוא אפס? מנסיון של החיים אנו יודעים שיש טעויות במדידה. גם אם מדדה המורה את כל התלמידים וחישבה את הממוצע נכון, יש אפשרות לטעות במדידה עצמה. ההסבר הוא שהחישוב הסטטיסטי שתיארתי מתעלם מטעות המדידה. טווח הטעות שמחשבים הוא רק כתוצאה מהעובדה שאנו מסתפקים בדגימה ולא במדידה של כל האוכלוסיה. כל טעות אחרת לא נלקחת בחשבון. מהנדסים ומדענים (אם יש להם יושר אינטלקטואלי) מוסיפים לטווח הטעות גם את טעות המדידה הידועה. לדוגמה, אם לסרגל, או סרט המדידה, של המורה יש סימון עד לרמה של סנטימטר אחד, מוסיפים סנטימטר לטווח הטעות. טעות המדידה יכולה להיות מגבלות של מכשיר מדידה או כל טעות אחרת.

הנה תוצאת החישוב למקרה שלנו:

height-slide4

בגלל שאני משתמש בכלים שאני לא בקי בהם, הסימונים בטבלה טיפה שונים ממה שהראיתי קודם. AVG זה ממוצע (מה שסימנו \hat{\mu}, הסימון STDDEV הוא סטית תקן (מה שסימנו \hat{\sigma} ) ולסיום Standard Err הוא טווח הטעות. הנתונים בטבלה הם אותם נתונים שראינו קודם. מתחת לכל עמודה יש חישוב של כל הגורמים כאשר AVG הוא הממוצע הנדרש ו Standard Err הוא טווח הטעות.

כך יוצא שאם רוצים להעריך מה היה הגובה הממוצע של כל ילדי הכיתה בתחילת השנה (עמודה H1) אז מקבלים 108.6 \pm 13.15 בבטחון של 99%. הגובה הממוצע של הילדים בסוף השנה מוערך כ 112.6 \pm 17.5 בבטחון של 99%.

מה קורה אם רוצים לדעת בכמה גבהו הילדים? שיטה ראשונה: אפשר לחסר את התוצאה של תחילת השנה מהתוצאה של סוף השנה: 112.6-108.6=4. אבל מהו טווח הטעות? את מידת הטעות מחברים, וגם הבטחון בתוצאה יורד. טווח הטעות הוא 13.15+17.5=30.65 בבטחון של בערך 98%. זה לא ממש טוב. יוצא שהילדים בטווח שבין נומך של 26 סנטימטרים להגבהה של 34 סנטימטרים. האם אפשר לעשות משהו אחר?

שיטה שניה: אם בתחילת השנה ובסוף השנה מדדנו את אותם ילדים, אפשר להתייחס אל X_1,X_2,X_3,X_4,X_5 כאל מדידות של מידת השינוי לכל ילד. זו העמודה המסומנת ב DIFF. יוצא שאנו מעריכים שהילדים גבהו ב 4 \pm 8.97 בבטחון של 99%. עדיין לא ממש טוב. אנחנו לא בטוחים אפילו שהילדים גבהו בכלל.

זה עדיין לא טוב. מה אפשר לעשות? אם זה ניסוי שניתן לחזור עליו (לא במקרה הזה, אבל ניסוי אחר) אז חוזרים על הניסוי עם הרבה יותר מדידות וככה מצמצמים את טווח הטעות. ניתן לצמצם את מידת הביטחון בתוצאה. אנחנו השתמשנו ב 99% שזה בטחון גבוה למדי. אם נפחית זאת ל 90% או אפילו 80% טווח הטעות יצטמצם מאד. אבל מה זה אומר? בטווח בטחון של 99% אם יהיו הרבה מאד ניסויים כאלה בהרבה מאד כיתות, אז בערך באחד מכל מאה הממוצע האמיתי יהיה מחוץ לטווח המוערך. אם הבטחון הוא 80% אז יש 20% סיכוי לטעות, כלומר בערך באחת מכל חמש כיתות יהיה הממוצע האמיתי מחוץ לטווח המוערך. אם מגזין מדעי מקבל מאמרים עם בטחון של 90% זה אומר שהם מניחים מראש שבאחד מכל עשרה מאמרים לערך המסקנות לא מוצדקות על ידי הנתונים.

שיפוץ נתונים

חדי עין ודאי שמו לב שהמדידה של סנאית מראה שהיא נמוכה יותר בשלושה סנטימטרים בסוף השנה בהשוואה לתחילת השנה. חבריה לכיתה לא שמו לב להתכווצות זו ולכן הם מניחים שיש פה טעות מדידה. אחרי דיונים רבים נזכרה סנאית שבתחילת השנה נעלה נעלי פלטפורמה שהוסיפו לה בערך חמישה סנטימטרים לגובהה. מאז, הנעליים יצאו מהאופנה, ועכשיו היא בסנדלים. נראה טבעי ביותר לתקן את הנתונים ולהצהיר שגובהה של סנאית בתחילת בשנה היה 98 סנטימטרים במקום 103 שנרשם קודם (מחסירים את גובה הנעל). התוצאה המתקבלת בטבלה שלפניכם:

height-slide3

יוצא שההערכה שלנו לממוצע שינוי הגובה בכיתה הוא 5 \pm 5.89 בבטחון של 99%. לכאורה הכל בסדר, אבל האם זה היה הדבר הנכון לעשותו. אולי עשינו טעות לוגית? אולי עברנו על כללי האתיקה של המדע?

נתחיל באתיקה של מדע. אם אני מפרסם מאמר עם שיפוץ נתונים זו לא עבירה על כללי האתיקה – כל עוד אני מדווח במאמר עצמו בדיוק מה עשיתי. מדען חייב לדווח בדיוק מה היתה שיטת המדידה, מה התוצאות שהתקבלו ואיך שינה את התוצאות במקרה של עריכת שינויים. כל עוד הדיווח מלא ואינו מסתיר אף שלב, אין עבירה. יכול כל מי שקורא את המאמר (כולל מי ששופט אותו לצורך פרסום) להחליט לבד אם שיפוץ הנתונים היה ראוי או לא. אם אני מפרסם מאמר ללא דיווח מלא אלא רק עם נתונים משופצים – זו עבירה חמורה. מדען שעושה זאת חייב להיות מנודה מהקהילה, וכל עבודותיו יהיו תחת חשד כבד. זה אינו שונה במאומה מסתם "המצאה" של נתונים, ובאוניברסיטה מתוקנת זו עילה מספיקה לפטר חוקר אפילו אם יש לו קביעות.

האם עשינו טעות לוגית? זו נקודה עדינה ותלויה בנסיבות. הדרך בה תיארתי את התהליך, שינוי הנתונים הוא טעות לוגית. קצת קשה להסביר את זה, אבל אנסה בכל זאת. הסיבה לשינוי הנתונים היתה טעות מדידה – שימוש בנעליים גבוהות בתחילת השנה ולא בסופה. יכולה להיות טעות מדידה לכיוון השני – לדוגמה, אסנת היתה יכולה לנעול נעלי התעמלות בתחילת השנה ופלטפורמה בסוף השנה. זו טעות מדידה שמוסיפה לאסנת חמישה סנטימטרים. אבל לא שמנו לב לאסנת – שמנו לב רק לטעות של סנאית כי כיוון הטעות גרם לתוצאה שלילית. אם השיטה שלנו היא לבדוק רק את התוצאות השליליות ולתקן אותן, אנחנו רק משפצים נתונים לכיוון אחד ויוצרים טעות מלאכותית לכיוון תוספת גובה. לצורך ההמשך נניח ששאלנו את כל הילדים שנמדדו איזה נעליים הם נעלו בכל זמן וגילינו שרק אצל סנאית היתה טעות כתוצאה מנעליים לא אחידות. עכשיו אין בעיה לוגית, ניתן לשפץ את נתוני סנאית ולהמשיך ככה לשלב הבא.

שיטת הקונצנזוס

הנוסחאות שתיארתי קודם דורשות קצת עבודה וניתן לטעות בחישוב. גם המורה דקדקנית לא היתה בטוחה בעצמה ולכן ביקשה מתלמידי הכיתה להתנדב ולחשב את הממוצע בעצמם. היא אספה שמונה תוצאות (שבעה תלמידים ותוצאה שהיא חישבה בעצמה). כל תוצאה היא ממוצע ההגבהה של הנתונים שראינו קודם. כלומר, כל תלמיד והמורה לקחו את הנתונים מעמודות H1 ו H2 וחישבו את העמודה DIFF וממוצע העמודה. כל תוצאה היא הערכה לשינוי הגובה הממוצע של הכיתה. הנה התוצאות:

height-slide5

לא כל החישובים יצאו בדיוק אותו הדבר. עכשיו יש לנו שמונה דגימות מתוך אוכלוסיה אינסופית של חישובים. לכן נניח ש FPC=1 ונתעלם ממנו. לדוגמה, אם נבקש מאורן לחשב שוב, אין שום בטחון שיגיע לאותה תוצאה. כך יוצא שכל הדגימות אקראיות ללא חזרות. נשתמש בנוסחאות שהיו לנו קודם ונקבל שממוצע שינוי הגובה של הכיתה הוא 4.75 \pm 0.94 בבטחון של 99%.

לפני שנמשיך הלאה, בבקשה חישבו על מה שעשינו פה. יש לזה משמעות. אני קורא לזה שיטת הקונצנזוס.

האם אפשר להגיע לתוצאה מדוייקת יותר? המורה דקדקנית שכרה עשרה רואי חשבון פרסים, והוסיפה את החישובים שלהם לחישובים הקודמים. עכשיו יש 18 תוצאות לפניכם:

height-slide6

קיבלנו דיוק רב יותר: 4.92 \pm 0.43 בבטחון של 99%. האם אפשר יותר טוב? המורה שכרה עוד חמישה עשר רואי חשבון עירקיים והנה התוצאה:

height-slide7

קיבלנו דיוק רב יותר: 4.97 \pm 0.23 בבטחון של 99%.

פירוש שיטת הקונצנזוס

מה המשמעות של שיטת הקונצנזוס? איך יתכן שמצאנו דיוק כל כך גדול (0.23 סנטימטר) מדגימה של רק חמישה ילדים? מה שקרה הוא שהשתמשנו בנוסחה, כי זה מה שהיה, ומבלי לחשוב מה עשינו. קיבלנו הרבה חישובים שכולם מבוססים על אותן חמש מדידות. טווח הטעות שקיבלנו הוא רק מידת הבטחון שלנו שחישבנו נכון את הממוצע של חמשת המדידות. זה לא טווח הטעות של חמשת הדגימות לעומת כל הכיתה של שלושים תלמידים. אם באמת רוצים לדעת מה טווח הטעות הכולל, צריך לחבר את שניהם. כלומר צריך להוסיף את טווח הטעות של 5.89 סנטימטר שמצאנו קודם אחרי שיפוץ הנתונים. נקבל תוצאה כללית: 4.97 \pm 6.12 בבטחון של בערך 98%.

אם אנסה לפרסם מאמר בו אדווח רק על טווח הטעות לפי חישוב קונצנזוס, אני מצפה ששופטי המאמר יצחקו עלי ובצדק. יש תחומים בהם החישובים מאד מסובכים ושיטה כזאת עוזרת לוודא שאכן התוצאה שהתקבלה היא סבירה. אבל זו רק דרך לוודא שאין טעויות קשות בחישוב. זו לא דרך להעריך מה טווח הטעות שנגרם כתוצאה של בעיות במדידה, או בעיות בתכנון הניסוי, או בגלל שהמדידות הן מדגם ולא כל האוכלוסיה הנמדדת. עבודה מדעית תקינה חייבת לכלול הערכה של כל טעות אפשרית.

מה למדנו

קודם כל, איך מעריכים טווח טעות של ממוצע של נתונים, אם זה ממוצע של דגימות אקראיות. אני מצפה שמעט מאד עקבו אחר ההסבר הזה. זו לא היתה מטרת הרשומה, אבל הייתי צריך להראות שאני מבין בזה קצת….

אחר כך למדנו נקודה חשובה (וגם לא פשוטה) על שיפוץ נתונים. לפעמים שיפוץ נתונים נראה דבר נכון (כמובן עם דיווח מלא על מה שעשינו), אבל ניתן ליפול בפח די בקלות. יש להזהר ששיטת השיפוץ לא מחמירה את המצב. אחת השיטות הנפוצות ביותר לשיפוץ נתונים היא התעלמות מחלק מהנתונים. פשוט מכריזים שיש בעיה עם חלק מהמדידות ומשתמשים רק בחלק ה"טוב". זו אחת הדרכים הקלות ביותר בהן מדען מצליח להטעות לא רק את הציבור אלא בעיקר את עצמו.

לבסוף למדנו על שיטת הקונצנזוס בחישוב. זו לא שיטה מגוחכת – יש לזה שימושים פרקטיים. אבל צריך להזהר. טווח הטעות הנמדד הוא רק בקשר לטעויות חישוב ולא טווח הטעות הכללי. שוב יש להזהר לא ליפול בפח.

4 תגובות בנושא “גובה הכיתה – שיעור בסטטיסטיקה

להשאיר תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת /  לשנות )

תמונת גוגל פלוס

אתה מגיב באמצעות חשבון Google+ שלך. לצאת מהמערכת /  לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת /  לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת /  לשנות )

מתחבר ל-%s