אם היה ספר חוקים לעבודה בתור דאטה אנליסט, החוק הראשון היה צריך להיות Do No Harm. כמו רופא שחוזר אחרי שבועת היפוקרטס, הייתי משביע אנליסטים לפני שהייתי מעניק להם את הלפטופ בעבודה. אני רוצה להאמין שהצגה מסולפת של נתונים נעשית בתום לב. הייתי שמח לחשוב שאנליסטים, סטטיסטיקאים ועיתונאים משתמשים בדאטה על מנת להעביר מסרים מדוייקים ולעורר דיון. לצערי, זה לא המצב.
הפיתוי לעשות מניפולציה לדרך בה אנחנו מציגים נתונים הוא גדול. לא פעם שמעתי על אנליסטים שנתבקשו לשנות את הדרך בה מידע הוצג כי זה מתאים יותר לאג'נדה מסויימת. הצורך במניפולציה בויזואליזציה עלול לגבור כשמנסים להציג הצלחה בפרויקט בעבודה, כשמנסים למצוא תימוכין לדרך פעולה וכשרוצים לשכנע אחרים לתמוך בעמדה מסויימת. כשאנחנו מאוד רוצים לשכנע, אנחנו עלולים להיגרר למניפולציות זולות.
אולי יגיע היום בו יאלצו את האנליסט להישבע כמו רופא או חובש. אבל נכון לעכשיו, כדי לשמור על יושרה בסיסית, חשוב להכיר את התרגילים בPlay book של המניפולטורים ולנסות להימנע מהם. אתמקד הפעם בנושא שעולה שוב ושוב בקורסי ויזואליזציה בתור טעות מספר אחת – מניפולציה של גרף עמודות.
רקע – למה גרף עמודות חייב להתחיל מ – 0
המוח שלנו טוב יותר בזיהוי אובייקטים ויזואליים והשוואה בינם במרחב (כמו עמודות בגרף) מזיהוי אובייקטים מופשטים (כמו המספר שמציג היכן מתחיל ציר Y או X). ככלל, כשאדם יראה גרף עמודות הוא יחפש את הפרופורציה בין העמודות השונות. כשאנחנו "משחקים" עם הפרופורציה, אנחנו יוצרים הטעייה ויזואלית.
כהרגלי, אמחיש באמצעות דוגמא:
נניח שאנחנו רוצים להציג את ההשפעה של העלאת מיסים על צריכת משקאות קלים לאדם בליטרים לשנה. נציג שתי עמודות, אחת בשנה לפני העלאת המס והשנייה בשנה אחרי העלאת המס:
במבט ראשון, נראה שיש כאן שינוי ענק. בהסתכלות מהירה הייתי אומר שעמודת 'לפני' גדולה מעמודת 'אחרי' בערך פי 3. כשבוחנים את הגרף בעין ביקורתית, ניתן לראות שציר הY מתחיל ב15 ולא מ0. זה יוצר את האשליה שהשינוי גדול מכפי שהוא בפועל. אדם שלא הבחין בנקודה ממנה מתחיל ציר הY עלול להתבלבל ולחשוב שכמות המשקאות שצורך אדם נחתכה בשני שליש. בפועל, השינוי הוא מ30 ל' בשנה ל20 ל' בשנה – כלומר, בדיוק בשליש. ההטעייה כאן ברורה. אבל האם אפשר לכמת אותה? האם אפשר לדעת בכמה הגרף הזה חוטא לאמת? מסתבר שאפשר.
מקדם השקר (Lie Factor)
'מקדם השקר' (Lie factor) הוא מדד שהומצא על ידי הסטטיסטיקאי אדוארד טאפט בשנת 1983 על מנת להמחיש בצורה מספרית את גודל ההטעייה בויזואליזצייה. החישוב מתבצע כך:
טאפט ממליץ על שמירה של מקדם שנע בין 0.95 ל1.05 על מנת לשמור על אמינות הויזואליזציה. אם נסתכל על הגרף שהצגתי למעלה, נוכל לחשב זאת כך:
החישוב יראה כך:
כלומר, יצרנו פה הטעייה שהיא יותר מפי 2 מהמקדם המומלץ על פי טאפט.
האם גרף עמודות חייב תמיד להתחיל מ0?
ויכוח ארוך שנים מתנהל בקרב מומחים לויזואליזציה של נתונים לגבי השאלה האם גרף עמודות חייב תמיד להתחיל מ0. יש הטוענים שבמצבים מסויימים, עיוות הפרופורציה הכרחי להעברת המסר בקונטקסט הנכון. אם אתם מתנגדים ל'חוק' שגרף עמודות צריך להתחיל מ0, דעו שרוב מומחי הויזואליזציה, בארץ ובעולם, נגדכם. הדעה המקובלת היא שאסור להתעסק עם ציר הY בגרף עמודות. אני לא מתיימר להכריע את הדיון כאן, אבל אנסה לתת את נקודת המבט שלי.
אני נמצא באסכולה שאומרת שאין תמיד ואין אף פעם. כל החלטה שכוללת בחירת ויזואליזציה מתאימה צריכה להתקבל על בסיס case by case. אבל, וזה אבל חשוב, בעיניים של 'האדם הסביר', גרף עמודות כמעט תמיד ייצג פרופורציה ולכן שינוי ציר הY יצור פרופורציה שמעוותת את המציאות.
במקרים המסויימים, בהם נרצה להציג שינוי שויזואלית נראה קטן, אך משמעותי ביחס לקונטקסט בו הוא נמצא יתכן ונצטרך לעשות התאמות מסויימות.
אמחיש עם דוגמא נוספת:
נניח וארצה להציג את הקפיצה בתקציב הביטחון של ממשלת ארצות הברית בשנת 2001, בעקבות מתקפת 11 בסטפמבר. אם אבחר בגרף עמודות ואדבוק בגישה השמרנית, אציג את הנתונים כך:
אין ספק שהגרף למעלה לא ממחיש את הקונטקסט המתאים. מהו אותו קונטקסט? ב4 השנים שלפני 2001, תקציב הביטחון היה בעלייה מתמדת, אך קטנה מאוד. ב2001 הממשל האמריקאי הקפיץ את התקציב בצורה משמעותית. כשמציגים את הנתונים תוך שמירה על פרופורציה ויזואלית מדוייקת, הקונטקסט הזה פשוט לא מספיק דרמטי וברור. המסר הולך לאיבוד.
האם זאת טעות להציג את הנתונים כך?
בכנות? כן. כנראה שגם זו טעות. התקציב לא שילש ולא הכפיל את עצמו בשנת 2001, אבל זה מה שהויזואליזציה שיצרתי מראה. מומחי ויזואליזציה יטענו, בצדק, שגרף עמודות הוא לא הבחירה המתאימה להצגת מגמה לאורך זמן. זאת בגלל העובדה שציינו קודם לכן – עמודות יוצרות אשליית פרופורציה. מה כן אפשר לעשות? אפשר לעבור לגרף קווי.
איזה מהגרפים מציג תמונה יותר מהימנה? גרף העמודות או הגרף הקווי? לטעמי, שימוש בגרף קווי הוא רק חצי פיתרון. התמקדות בטווח מסויים מחייב הוספה של הערת אזהרה או הצגה של הדאטה בצורתו המקורית, ללא הZoom In לצד ההצגה הממוקדת. פתרון נוסף ויותר אלגנטי יכול להיות הצגה של שיעור השינוי ולא ערכים מוחלטים. כמובן שמעבר לאחוז שינוי גורם לאיבוד המימד של הסכום הכולל, שיכול להיות מעניין ורלוונטי גם כן. כמו שאמרתי מוקדם יותר, כל החלטה על בחירה נכונה של ויזואליזציה צריכה להתקבל על בסיס Case by Case.
סיכום
אם תנסו לשקר עם נתונים תאבדו את האמון של הקולגות בכם. זה בסדר לטעות, זה לא בסדר להטעות. מקדם השקר יכול להיות כלי שימושי לבדיקה עצמית של הויזואליזציה שבניתם על מנת להציג לכם בצורה מספרית בכמה 'הגזמתם'. לעיתים צריך לעשות התאמות של הויזואליזציה ולהתמקד בתקופות וטווחים מסויימים על מנת להציג את הסיפור שמספר לנו הדאטה. אם מדובר בהצגת מגמה על פני תקופת זמן, עברו לגרף קווי והוסיפו הערת אזהרה בולטת שמדובר בזום-אין של הדאטה.
הדבר האחרון שאנחנו צריכים לשאוף להפוך אליו זה רובוטים של שליפת והצגת מידע. דאטה אנליסט טוב הוא מספר סיפורים, רק תדאגו שהסיפורים שלכם תמיד ישענו על עובדות מוצקות 😉 .
מעניין, החכמתי!