לפני בערך 20 שנה פרצו לי לבית. חזרתי הביתה אחרי יום עבודה ארוך והבית היה הפוך ומבולגן. לא נעים… אבל גם לא מפתיע. הוא היה הפוך ומבולגן גם כשיצאתי בבוקר לעבודה. וגם יום לפני כן, וגם בשבוע שלפני כן. למעשה, הספקתי להכין לעצמי ארוחת ערב, לקרוא אימיילים (כן, כבר היה אז דבר כזה), לנגן קצת בפסנתר, ורק אחרי שעתיים-שלוש שמתי לב שמשהו לא בסדר. מערכת הסטריאו לא היתה במקום. היא לא היתה בשום מקום בבית למעשה. וגם היה סימן של פריצה דרך המרפסת. מיד הלכתי לבדוק מה עוד נגנב. מצלמה יקרה (יחסית), מחשב נייד, מחשב נייח – כולם היו במקומם (אני מודה שלקח קצת זמן למצוא את המצלמה). זהו. מערכת סטריאו מגושמת וזולה (ובתוכה דיסק בעל ערך רגשי) זה כל הנזק. אני בטוח שהפורצים היו מאוכזבים מאד.

באלאגן

איך כל זה קשור לפרטיות? כל כך הרבה נכתב על הנושא ממגוון נקודות מבט (אתית, טכנולוגית וכו’). הבעיה ברורה, כל דבר שאנחנו משתמשים בו היום אוסף עלינו מידע. איפה היינו, על מה לחצנו, למי התקשרנו ועם מי דיברנו, מה קנינו, מה חיפשנו. מצלמות אבטחה (ואחרות) מכל עבר מצלמות אותנו. הנתונים נאגרים, ויש מי שמשתמש בהם. מה עושים?

אז בואו נכיר קצת את אויבי הפרטיות. מקובל לחשוב שאויבי הפרטיות הם מאגרי המידע. הם מוקד הדיון, למשל, כשמדובר על אבטחת מידע. עליהם מגינים מפני פריצות והם מוקד הדיון כשמדובר ברגולציה של מידע. כשחברות “סוחרות” בפרטיות שלנו הן בעצם מעבירות פריטים ממאגרי המידע שלהם לאחרים. האם פרטיות שווה מידע? לדעתי לא. לפני עידן התפוצצות המידע זה אכן היה כך. המשמעות של “פרטי” היתה בערך “משהו שלא ידוע לאחרים”. אבל אני טוען שהמשמעות האמיתית של פרטיות היא לא “לא ידוע לאחרים” אלא משהו שלך “שאחרים לא יכולים להשתמש בו”. אם מישהו יודע עליכם משהו אבל בדרך פלאית לא יכול להשתמש בידע הזה בשום צורה שהיא זה שקול ממש ל”לא ידוע”. כמובן שאם לא יודעים אז גם אי אפשר להשתמש. זו כמעט טאוטולוגיה. בעבר גם הכיוון ההפוך היה נכון – אם יודעים אפשר להשתמש. אבל עידן התפוצצות המידע שינה את המצב.

כשיש כל כך הרבה מידע מסביב, ומאגרי המידע מתפוצצים ממידע, לא כל דבר שיש בהם נגיש מספיק כך שאפשר לשלוף אותו ולהשתמש בו. לפעמים אנחנו יודעים משהו, אבל לא יודעים שהוא שם. כלומר לא יודעים שאנחנו יודעים. ולכן אי אפשר להשתמש בזה. אויבי הפרטיות אינם מאגרי המידע עצמם אלא אותן מערכות שמאפשרות לחפש ולשלוף מידע, למצוא בו תבניות, להסיק ממנו מסקנות. אלה האלגוריתמים ולא המאגרים. מידע שלא ניתן להסיק מהמאגרים כאילו לא נמצא בהם. נשברה המשוואה המסורתית של פרטיות שווה מידע. בואו נתמקד ונכיר קצת את האויבים האמיתיים של הפרטיות – האלגוריתמים.

אז איך עובדים אלגוריתמים לעיבוד מידע? להסקת מסקנות? נכון להיום, כל דבר שהוא קצת יותר מתוחכם מלחפש פריט מידע ספציפי לפי מפתחות ידועים מראש משתמש בסטטיסטיקה. ולעתים קרובות סטטיסטיקה מתוחכמת למדי. למעשה בעולם מרובה נתונים אי אפשר לזוז מילימטר בלי סטטיסטיקה, והסטטיסטיקה הזו מאפשרת להבין אודותיכם, לעתים על בסיס מעט מאד פרטי מידע, מה תקנו, לאן תסעו ומתי, ועם מי, ועוד ועוד. בלי להיכנס יותר מדי להיבטים הטכניים של איך האלגוריתמים האלה עובדים, אחד המושגים החשובים ביותר להבנתם הוא יחס אות לרעש.

אות, לצורך העניין, הוא כל פריט מידע חשוב, שידיעתו תעזור לנו לשפר את החלטתנו בנוגע לפעולה או מדיניות שנרצה להוציא אל הפועל כתוצאה מהמידע. רעש הוא כל פריט מידע שאינו קשור לתוצר (החלטה/מדיניות וכו’) אותו אנו רוצים לקבל מהמידע. א-פריורית אין לאלגוריתם שלנו שום מושג מהו אות ומהו רעש. פריטי מידע יכולים להיות רעש בסוג אחד של החלטה ואות בסוג אחר, ואחד האתגרים הגדולים ביותר של כל אלגוריתם סטטיסטי הוא להפריד אות מרעש. כשיש רק רעש, האלגוריתם לא יכול לתת יותר מניחוש אקראי ובלתי מושכל, ולא יעזור כמה גדול מאגר המידע העומד לרשותו. ככל שיש יותר אות, החלטתו תשתפר ותלך. ולכן מקובל להסתכל על היחס בין רמת ה”אות” במאגר לבין רמת ה”רעש”. כשהיחס שואף לאפס המערכת לא יכולה לנצל את המידע שבה.

באופן מסורתי, שמירה על הפרטיות משמעותה היתה מניעת אותות ממאגרי המידע. זה כמובן מקטין את יחס האות לרעש על ידי הקטנה המונה בשבר ההיפותטי של יחס אות לרעש. את המשחק הזה כבר הפסדנו. המערכות השונות קולטות אודותנו אותו מעשרות מקורות באופן שקשה לנו לשלוט איזה אות נמצא באיזה מאגר. אפשר כמובן קצת לשחק עם זה. לא לקנות באשראי למשל, יקטין את מידת ה”אות” במאגרי המידע אודות פעילותנו הצרכנית. אבל בד”כ הקטנת האות כרוכה בוויתור על הרבה שירותים שיש להם ערך עבורנו. זוהי אינה אסטרטגיה טובה לטווח רחוק. אז איך עוד אפשר לשלוט ביחס הזה?

כמובן, להגדיל את המכנה בשבר. להגדיל את ה”רעש”. אם הזמנתם פעם טיסה או מלון באינטרנט, שמתם לב בוודאי שלכמה ימים לפחות הפרסומות שנותנים לכם במגוון הערוצים (גוגל, פייסבוק ועוד) קשורים ליעד אליו חיפשתם טיסה. אבל מה אם תקדישו עוד 3 דקות, תחפשו, באופן פיקטיבי כמובן, טיסות ליעדים נוספים, ריהוט שאינכם צריכים, ודירה בעיר שאינכם מתכוונים לגור בה? כל המידע הזה הוא רעש מבחינת האלגוריתמים שמתאימים לכם פרסומות. הפרסומות שתקבלו כתוצאה מכך יהיו חסרות מיקוד, ובמילים אחרות, המערכת לא הצליחה לזהות את כוונותיכם האמיתיות. המידע קיים, אבל פרטיותכם נשמרה.

מידע עם המון רעש

פרסומות זה כמובן לא הדבר העיקרי שממנו דואגים כשדואגים לפרטיות (וחבל. פרסום הוא רעה חולה שהשפעתה הרבה יותר נרחבת ממה שנראה) אבל זו דוגמא טובה איך רעש משפיע על הגנת הפרטיות. כמובן אין כאן ציפיה שכל אחד ישקיע כך וכך מזמנו כדי לזרוע הטעיה ובלבול במאגרי מידע, לפעמים צריך הרבה פחות מזה. מי ששירת בצבא בטח שמע על חשיבות שבירת השגרה. אנחנו פועלים בתבניות. ולכן ניתן יהיה לזהות תבניות כאלה, אפילו על סמך מידע חלקי, במאגרי מידע. תשברו את התבניות האלה, זה יקשה על זיהוי התבניות. תהיו מודעים לתבניות שאתם יוצרים ותשברו אותן מפעם לפעם, תתנהגו קצת באופן לא רציונלי, לא מוכוון מטרה. לעתים זה כל מה שדרוש. ככל שתעשו יותר רעש, תפעלו בצורה פחות צפויה, כך יקשה על האלגוריתמים לזהות אתכם ולהסיק אודותיכם מידע בעל משמעות. מידע שאפשר לפעול על פיו. תחשבו על היחס אות לרעש. פחות אות במקום שאפשר, והרבה יותר רעש. זה לחלוטין בשליטתכם, וזה עקב אכילס של כל אויבי הפרטיות.

זוכרים את הפריצה לבית שלי מתחילת הפוסט? כשהבית מבולגן אפשר לגנוב ממנו פחות. אותו דבר המידע אודותיכם.



תגובות

  1. יונתן כותב:

    פוסט נהדר.
    הטריק הגדול ביותר שהשטן עשה היה לשכנע את בני האנוש שהוא לא קיים.
    הפוסט די מדוייק ונכון יותר למידע ה”טיפש” מהסוג שנאגר בעקבות שיטוטים באינטרנט ושנועד למקסם את המודעות בעת הגלישה. אבל בעידן הרשתות החברתיות אנשים משתפים באופן וולנטרי כל דבר שהם יכולים כל עוד הם יקבלו עוד קצת תשומת לב שתפריש אנדרופינים שיגרמו להרגשה נעימה של מקובלות חברתית וחשיבות בעולם טכנולוגי מנוכר.
    החל מהקשרים החברתיים וכיצד הכירו דרך ארוחת הצהריים ועד הרגשות שלהם וחוות הדעת שלהם לגבי נושאים שונים(פייסבוק כבר ביצעה מספר מחקרים שתפקידם שליטה ברגשות המשתמשים על ידי הכוונה של הפיד- אנשים מאושרים קונים יותר)
    בנימה אורוולית אופטימיזציה למטרת צריכה היא שימוש המידע של המאה ה-20 אבל אגירת מידע לצורך גירויים/ חיזוקים וחיוויים חיוביים או שליליים לצורך שליטה רגשית היא שימוש המידע של המאה ה-21.

  2. נעמי כותב:

    מאיר עיניים, מאפשר להדיוטות להבין קצת יותר בענין ה-big data – תודה 🙂

הוספת תגובה