מלחמה זה דבר מדכא. אותי לפחות. הטעיות סטטיסטיות בזמן מלחמה מדכאות אותי אפילו יותר. עד כדי כך שאני שובר שתיקה (ארוכה ומביכה) כאן בבלוג כדי לכתוב תגובה לפוסט שהתפרסם כאן (ובעוד מקומות, וזכה לשיירים רבים בפייסבוק).

השאלה המרכזית בה דן הפוסט היא האם הצבא פוגע בלי הבחנה באזרחים במלחמה (הספציפית שלנו היום. “ מבצע צוק איתן” לצרכי ההיסטוריונים שיעלו את הפוסט הזה מנבכי הארכיונים בעוד 100 שנה). התשובה של הפוסט היא במילה אחת “לא”. המדד הסטטיסטי שהפוסט משתמש בו הוא יחס הסיכויים. הוא משווה את הסיכוי להיהרג אם אתה מחבל, לסיכוי להיהרג אם אתה אזרח. כשהיחס בין שני הסיכויים האלה גדול באופן משמעותי מ1 זה מעיד, כך לדעת כותב הפוסט, שנעשה מאמץ משמעותי של הצבא להימנע מפגיעה באזרחים. לפי הנתונים שהפוסט מביא, היחס עומד על כ28. אני לא הולך להתווכח על הנתונים. אני גם לא הולך לענות או לדון בכלל בשאלה אם הצבא שלנו מוסרי או לא, פושע או לא, וכו’. אני הולך להסביר דבר אחד בלבד – מדוע זו טעות גדולה להסיק מהמדד הסטטיסטי של יחס הסיכויים את המסקנה הרלוונטית במקרה הספציפי הזה.

במלים אחרות (וזה החלק האחרון בהקדמה הטרחנית, למי ששכח את הסגנון שלי), אני הולך לטעון שהפוסט הנ”ל הוא שקר סטטיסטי. אפילו נבזי במיוחד. בהקשר הזה השימוש במילה “שקר” עשוי לקומם אנשים. מעבר לנסיון שלי להיות דרמטי כדי למשוך לפוסט הזה יותר משני קוראים, אני מזכיר את הציטטה המפורסמת “יש שלושה סוגי שקרים: שקרים רגילים, שקרים מתועבים, וסטטיסטיקה” (המשפט מיוחס לבנג’מין ד’יזראלי וגם למרק טוויין, אין סטטיסטיקה שתכריע בעניין), וגם את הספר המצויין הזה שלעד יקבע את המיתוס שעם סטטיסטיקה אפשר לבסס כל טענה שהיא גם אם היא שקרית. כמובן שאני לא מייחס זדון או כוונה רעה כלשהי לכותב הפוסט. נהפוך הוא. אני חושב שה”שקר הסטטיסטי” הזה הוא נבזי במיוחד בגלל שהוא נעשה בכוונה טובה. ככל שמשהו שגוי נראה נכון יותר ומתאים יותר כך מדובר בהטעיה נבזית יותר. אני הולך להתרכז בעיקר בלהסביר מדוע מדובר בטעות. אביא שני טיעונים מרכזיים, ואסיים בדיון רחב יותר שיקשר בין המקרה הזה לשיטות מחקר בכלל ו”שקרים” סטטיסטיים בפרט.

בואו ניקח מקרה קיצוני. מקרה שלצערי קרה. מעט אנשים, אם בכלל, יכולים להצדיק את המקרה הזה, ורוב הטענות ששומעים בנוגע אליו הן שמדובר בטעות ובמקרה שהוא “יוצא מהכלל שמעיד על הכלל”. לטובת רכי הנפש שלא נכנסו ללינק מדובר במקרה בו פצצה אחת הרגה 25 אזרחים, רובם המכריע ילדים, כשהמטרה היתה ככל הנראה מחבל אחד שהיה במקום. איום ונורא. נניח לרגע שהדבר הנורא הזה היה הכלל (הטיעון שלי הולך בגישת ה”אד אבסורדום”). ולא רק שזה היה הכלל אלא שזה היה קורה 1000 פעמים. כלומר 1000 מחבלים הרוגים ו25000 אזרחים תמימים הרוגים. איך היה נראה המדד של יחס הסיכויים במקרה הזה? נשתמש בנתונים של הפוסט הקודם (יש בערך 25000 מחבלים ו1780000 אזרחים) ונקבל שאם אתה מחבל יש סיכוי של 4% להיהרג, ואם אתה אזרח יש סיכוי של 1.4% להיהרג אם אתה אזרח. יחס הסיכויים עומד על 2.8 בערך, שזה גדול מ1 (עם הסטטיסטיקאים הדקדקנים הסליחה. לא בדקתי מובהקות ורווח סמך. זו דוגמא להמחשת נקודה על מקרה קיצוני). לכאורה, אם נלך לפי ההגיון של הפוסט המקורי, המדד מראה שכלל ההריגה הקיצוני הזה עדיין עומד בקריטריון של פגיעה שמבחינה בין מחבלים לאזרחים. הייתכן?

כמובן אפשר לבוא ולומר שהנתון האמיתי הוא 28 ולא 2.8 ושזה הבדל גדול, ושבבית משפט השדה של דעת הציבור ראוי לשים סף בגובה… איך קובעים את הסף באמת? אבל האמת היא שמה שהדוגמה הקיצונית שלי מראה הוא שהמדד הזה פשוט לא טוב. הוא מביא לאבסורד. הוא פשוט לא מודד את מה שאנחנו רוצים למדוד. הוא לא אומר את מה שאנחנו חושבים שהוא אומר (לינק למשפט האלמותי מ”הנסיכה הקסומה” בהחלט במקום). מבחינה סטטיסטית הוא כמובן מוגדר היטב ומשתמשים בו בהמון מחקרים ובהמון הקשרים. זה מדד מצויין כשמשתמשים בו נכון. אין כאן בעיה בסטטיסטיקה. יש כאן בעיה בפרשנות. בעיה בשימוש בסטטיסטיקה. לא השתכנעתם? הנה הטיעון השני:

אם שמתם לב לאיך מחשבים את המדד הזה, אולי דגדג לכם משהו מוזר במחשבה. אני מתכוון לכך שהיינו צריכים להשתמש בנתונים גלובליים על כמות האזרחים והמחבלים הכוללת. מבחינה סטטיסטית יש בזה הרבה הגיון. בגישה בייזיאנית מבססים על דברים כאלה את ההסתברות הפריורית שלנו, בגישה שכיחותית זה בדיוק מגדיר את ההתפלגות של תכונה באוכלוסיה ולכן גם את התפלגות הדגימה שאם נסטה ממנה נסיק שיש קשר משמעותי בין דברים. אבל כשמעריכים את הסבירות (או המוסריות או החוקיות) של תקיפת יעד כלשהו במבצע צבאי השיקולים היחידים צריכים להיות הנתונים של המבצע עצמו. בהקשר שלנו – מה הסיכוי לפגוע במחבל בתקיפה ומה הסיכוי לפגוע באזרחים בתקיפה. המוסריות או החוקיות של פגיעה ב25 אזרחים ומחבל אחד אינה תלויה אם יש מחוץ לבניין הזה עוד 20000 מחבלים או עוד 40000 מחבלים ואינה תלויה בכמות האוכלוסיה האזרחית שנמצאת במרחק מאות מטרים ויותר מנקודת המבצע הספציפית. אני מקבל שבאופן היפותטי מבצע עשוי להיות ראוי גם מבחיר של 25 ל 1. אולי כי האחד הזה חשוב במיוחד אולי כי הוא “פצצה מתקתקת” או שלל שיקולים אחרים, למשל אי וודאות בנוגע לכמה אנשים ישנם בבניין. אני לא מנסה לקבוע כאן מה הם השיקולים הראויים, אני רק מדגיש שכל שיקול כזה אמור לקחת בחשבון רק את המעורבים בסיטואציה, ולא נתוני מאקרו כלליים.

כיוון שכך, ברור לגמרי שמדד שתלוי באופן כה מהותי בנתוני מאקרו, לא יכול לתפוס ולמדוד באופן מהימן את טיבן של החלטות שבמהותן אמורות להסתמך על נתוני “מיקרו” בלבד. זה חוזר ומדגיש את מה שאמרתי קודם – המדד שנבחר פשוט לא מתאר היטב את מה שהוא מתיימר לתאר, ולכן שום מבחן סטטיסטי שמתבסס על המדד הזה לא יכול להגיד כלום על השאלה שבנוגע אליה השתמשו במדד. המדד אולי נראה יפה ונראה מאד משכנע, וכמובן מגיע עם היסטוריה סטטיסטית עשירה בשימוש מועיל בו בהקשרים רבים ומגוונים. אבל לשאלה הספציפית שלנו הוא פשוט נתון חסר משמעות, ולכן שימוש בו בהקשר של השאלה הוא הטעיה סטטיסטית.

הטיעון המרכזי שלי, אם כן, הוא שהמדד הסטטיסטי לא מתאר נכונה את מה שהוא אומר שהוא מתאר. לקשר הזה בין המדד למשמעותו קוראים “תוקף המבנה” (construct validity). תוקף המבנה הוא לא מושג סטטיסטי טהור. הוא החוליה המקשרת בין עולם התופעות לבין מודל סטטיסטי שמתאר את אותו עולם. ולכן הוא החוליה החשובה ביותר כשמנסים להסיק מסקנות באמצעות ניתוח סטטיסטי של נתונים. במקרים רבים החוליה הזו טריוויאלית. אם רוצים למדוד קשר בין רמת ההכנסה ללחץ דם, מודדים הכנסה ומודדים לחץ דם ומשתמשים בסטטיסטיקה רלוונטית בהתאם לשאלת המחקר. תוקף המבנה כאן היה טריוויאלי – שאלת המחקר, כלומר עולם התופעות שלנו, ניתן כבר במונחים מדידים מבחינה מספרית. במאמר מוסגר (ארחיב עוד מעט) אציין שאני חושב שהעובדה שבהרבה מקרים עולם התופעות שלנו כבר מנוסח במונחים מדידים הוא הסיבה שאנשים נוטים להתעלם מתוקף המבנה, להמעיט בערכו, ולעשות טעויות. מנסיוני ולהערכתי האנשים שעושים פחות טעויות כאלה הם אנשים שבאו מעולם התוכן הרלוונטי. לכן כשמסתכלים על סילבוסים של קורסים של סטטיסטיקאים קוראים מעט יחסית על תוקף מבנה, אבל כשלומדים שיטות מחקר בפסיכולוגיה זה המושג המרכזי שלומדים. פסיכולוגים נדרשים לעתים קרובות לשאלות מהסגנון של “האם אנשים מוחצנים יותר מצליחים יותר בעבודתם”. ואז נשאלת השאלה איך מודדים מוחצנות. ואז, לכל מדד שמוצע עולות השאלות של תוקף מבנה. אי אפשר להתחמק מזה ואי אפשר שלא לפתח רגישות לנושא.

כאמור, שאלת תוקף המבנה אינה שאלה סטטיסטית במהותה. היא שאלה של חיבור בין עולם הנתונים לבין המשמעויות העולות מהנתונים. ולכן גם התשובות והטיעונים בנוגע לתוקף המבנה לעולם יהיו מעורבים – יהיו מבחנים סטטיסטיים שיעזרו לאשש טיעון על קיום תוקף מבנה, אבל תמיד ברקע צריך לבוא טיעון מהותי מעולם התופעות שישכנע אותנו שיש קשר בין המדד לבין המשמעות שמיחסים לו. זו הסיבה שבטיעונים שהבאתי (בעיקר בשני) התייחסתי לשאלת המשמעות ולשאלת “מתי ראוי שפעולה צבאית תיחשב מוסרית”. ברגע שהבנתי שהתשובה לשאלה הזו כרוכה בהסתכלות מדוקדקת במרכיבי הסיטאוציה הספציפית, אך אינה כרוכה בנתוני מאקרו קבועים, הסקתי שכל מדד סטטיסטי שתלוי באופן מהותי בנתוני המאקרו האלה, לא יכול לבטא במהותו את התופעה אותה אני רוצה לבטא.

כיוון שתוקף המבנה אינו שאלה סטטיסטית הוא מקור בלתי נדלה להטעיות סטטיסטיות נבזיות. כי את הסטטיסטיקה אפשר לעשות במדוייק. והנתונים יכולים להיות מרשימים מאד. לשימוש במדד יחס הסיכויים יש היסטוריה ארוכה ומועילה במחקרים רפואים, סוציולוגיים ואחרים. באמת שאפשר ללמוד ממנו המון בהמון הקשרים. ואז מרוב שאנחנו מתרשמים מהסטטיסטיקה המתוחכמת, הנתונים המקיפים והאינפוגרפיקה המרשימה, אנחנו שמים בצד את שאלת השאלות, שהיא אינה סטטיסטית במהותה, ובד”כ אינה מהווה שום בעיה כי תוקף המבנה הוא טריוויאלי במקרים רבים. זוהי שאלת השאלות כי בלעדיה הניתוח הסטטיסטי חסר משמעות. אבל הסיבות להתעלם ממנה הן רבות. לעתים הדיון בה מכריח העלאה של טיעונים קונטרוברסליים מעולם התוכן הרלוונטיים – בדיוק ויכוחים שאנחנו רוצים להימנע מהם באמצעות “הוכחה סטטיסטית”. לעתים פועלת כאן הטיית האישור (לדעתי זה מה שקורה במקרה הזה) – אנחנו כל כך רוצים להראות שהצבא שלנו הוא מוסרי, שברגע שיש מדד שנראה טוב ומבוסס על נתונים טובים ומוצג בצורה משכנעת, ושאומר (לכאורה) את מה שאנחנו רוצים להאמין בו, אנחנו שוכחים לבדוק את ה”לכאורה” הזה ששמתי בסוגריים. וזו אולי הסיבה שקראתי להטעייה הזו “שקר נבזי” – הסטטיסטיקה נראית מצויין, עם היסטוריה ארוכה של שימוש מוצלח ותאוריה סטטיסטית נרחבת ברקע, הנתונים נראים מצויין. המסקנות מוצגות בצורה מאירת עיניים. לכאורה כל הדברים הטובים קורים. וכשיש סיגנלים טובים כל כך מקצה לקצה כל כך קל ללכת שולל. כל כך מפתה לשכוח את הנקודה הקטנה והמעצבנת הזו של תוקף המבנה. פרט טכני שולי לכאורה, שבלעדיו שום ניתוח סטטיסטי לא שווה כלום.

שלא נדע עוד מלחמות.



תגובות

  1. טל גלילי כותב:

    טוב.

    1) תשדרג את הבלוג שלך בבקשה, תשנה את ה parmalinks שלך. ותתקין jetpack, ספציפית בשביל התגובות.

    2) האם הביקורת שלך איננה מה שצירפתי כתגובה של שי לעדן?
    באיזה אופן היא איננה זה?

  2. amit כותב:

    1) אני מוכן לתת לך גישה לאדמין ושתבצע את כל הקללות האלה בעצמך – חצי ממה שאמרת זה סינית בשבילי. אני מצויין בלפתח טכנולוגיות, אין לי מושג איך להשתמש בהן.
    2) לא ראיתי תגובה לשי לא בבלוג שלך ולא בפייסבוק.

  3. amit כותב:

    אה, טוב… עכשיו שיפרתי קצת את הבנת הנקרא שלי. התגובה של שי לעדן לא מדברת על תוקף מבנה, היא מדבר על מהימנות הנתונים ועל הגדרות של קטגוריות שונות. במיוחד להגדרת הקטגוריות יש השפעה על תוקף מבנה, אבל זה לא הטיעון המרכזי שלה להבנתי, מה גם שאני פסלתי באופן קטגורי את המדד בגלל תכונותיו (תלות מהותית במשתנים לא רלוונטיים) והגדרת קטגוריות זה עניין טכני במהותו שניתן לתיקון אחרי שמסכימים על הגדרות.

  4. YossiN כותב:

    קשה לי עם בחירת המילים שלך

    אם אתה כותב “אני לא מייחס זדון או כוונה רעה כלשהי לכותב הפוסט”
    אבל אתה משתמש במילה “שקר” (ואפילו “שקר נבזי”) ולא “כשל”
    או “הטעיות” ולא “הטיות”

    בבחירת המילים, אתה יוצר בפשטות האשמה ברורה כלפי הכותב

    אז בסדר, אני מניח שהוא כמוני מאוד רוצה לראות שצה”ל פעל באופן מוסרי וכד’. אבל לפי הניסוח שלך- זה לא בדיוק דיון מכובד באשר לשיטה הסטטיסטית הנכונה אלא כמעט טיעון לגופו של אדם.

    לא מתאים

  5. אוריאל כותב:

    נראה לי לא הבנת את כוונת כותב הפוסט…

    הוא כותב בתחילת הפוסט:
    “בזמן האחרון אני פוגש טענות רבות על כך שצהל תוקף פלסטינים ללא אבחנה ”
    כלומר הוא לא בא להוכיח שצה”ל הוא הכי מוסרי בעולם,
    אלא הוא פשוט בא להפריך את הטענה שצה”ל “סתם יורה לעבר אזרחים” ולא יורה במטרה לפגוע בלוחמים.
    וזאת הוא אכן עושה בהצלחה.

    (כלומר – אין בכך הוכחה לגבי כל פעולה של צה”ל בפרט, אלא הוכחה שככלל, פעולות צה”ל מכוונות ללוחמים)

    הטיעון שהבאת מתייחס לאיזושהי נקודה שבה צה”ל רוצה לבצע פעולה – וממילא עולה שאלת כמה אזרחים יש בסביבת אותה נקודה. אך הטענה אותה כותב הפוסט בה להפריך היא הטענה שצה”ל סתם יורה ללא אבחנה לנקודות שרירותיות ברצועת עזה, וממילא הטענה הנשללת מניחה שאין בכלל נקודה מסוימת בה צה”ל חפץ לפגוע.

הוספת תגובה