PII-VisBench: בדיקת דליפת PII במודלי שפה וראייה
מחקר

PII-VisBench: בדיקת דליפת PII במודלי שפה וראייה

בנצ'מרק חדש בוחן כיצד נוכחות מקוונת משפיעה על חשיפת מידע אישי ב-VLMs – ממצאים מפתיעים

2 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • PII-VisBench בודק 4,000 שאילתות על 200 נבדקים ב-4 רמות נראות

  • 18 מודלי VLMs מראים סירוב גבוה יותר לנבדקים עם נראות נמוכה

  • חשיפת PII יורדת מ-9.10% ל-5.34% ככל שהנראות קטנה

  • פריצות ופרפרזות חושפות חולשות תלויי-דגם

PII-VisBench: בדיקת דליפת PII במודלי שפה וראייה

  • PII-VisBench בודק 4,000 שאילתות על 200 נבדקים ב-4 רמות נראות
  • 18 מודלי VLMs מראים סירוב גבוה יותר לנבדקים עם נראות נמוכה
  • חשיפת PII יורדת מ-9.10% ל-5.34% ככל שהנראות קטנה
  • פריצות ופרפרזות חושפות חולשות תלויי-דגם
בעולם שבו מודלי שפה וראייה (VLMs) חודרים לתחומים רגישי פרטיות כמו רפואה ומשפטים, חוקרים חושפים פירצה קריטית: הדגמים נוטים יותר לחשוף מידע מזהה אישי (PII) על אנשים בעלי נוכחות מקוונת גבוהה. PII-VisBench, בנצ'מרק חדש שפורסם ב-arXiv, בודק את הבטיחות לאורך ספקטרום הנראות המקוונת ומגלה דפוסים מדאיגים שדורשים התערבות מיידית. הבנצ'מרק כולל 4,000 שאילתות ייחודיות המבוססות על 200 נבדקים, המחולקים לארבע קטגוריות נראות: גבוהה, בינונית, נמוכה ואפסית – בהתאם להיקף המידע הזמין עליהם ברשת. החוקרים בדקו 18 מודלי VLMs פתוחי מקור, מגדלים בין 0.3 מיליארד ל-32 מיליארד פרמטרים. הם מדדו שני מדדים מרכזיים: שיעור סירוב לשאילתות חשיפת PII (Refusal Rate) ושיעור חשיפת PII בתגובות שאינן מסרבות (Conditional PII Disclosure Rate). הממצאים מראים דפוס עקבי: ככל שהנראות יורדת, הסירובים עולים והחשיפות יורדות – מ-9.10% בקטגוריה הגבוהה ל-5.34% בנמוכה. הדגמים חושפים יותר PII על נבדקים מפורסמים או בעלי נוכחות דיגיטלית עשירה. בנוסף, נצפתה הטרוגניות בין משפחות דגמים ובין סוגי PII שונים, מה שמעיד על חולשות ספציפיות. הבנצ'מרק מדגיש את החשיבות של התאמה אישית לבטיחות בהתאם לנראות מקוונת, בניגוד לבדיקות סטטיות קודמות שמתעלמות מגורם זה. בישראל, שבה חברות טק משלבות VLMs באפליקציות צרכניות, הממצאים רלוונטיים במיוחד – הם מצביעים על סיכונים גבוהים יותר לאנשים פומביים כמו מנהלים בכירים או משפיענים. פרפרזות ושיטות פריצה (jailbreak) חושפות כשלים תלויי-דגם, וקוראות לאימונים מותאמים אישית. עבור מנהלי עסקים, זה אומר לבדוק דגמים לא רק על פי גודל, אלא על התנהגות מול נראות נתונים. האם הדגם שלכם בטוח מספיק מול הלקוחות שלכם?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

המידע שתמסור ישמש ליצירת קשר ומתן שירותים. למידע נוסף ראה מדיניות פרטיות ותנאי שימוש

עוד כתבות שיעניינו אותך

לכל הכתבות
זיהוי עמימות הוראות 3D: פריצת דרך בבטיחות AI
מחקר
2 דקות

זיהוי עמימות הוראות 3D: פריצת דרך בבטיחות AI

החוקרים בנו את Ambi3D, מאגר הנתונים הגדול ביותר למשימה זו עם למעלה מ-700 סצנות 3D מגוונות וכ-22 אלף הוראות. ניתוח מראה שמודלי שפה גדולים 3D מתקדמים נכשלים בזיהוי אמין של עמימות. כדי להתמודד עם האתגר, הם מציעים את AmbiVer – מסגרת דו-שלבית שאוספת ראיות חזותיות ממספר זוויות ומנחה מודל שפה-ראייה לשיפוט העמימות. ניסויים מקיפים מוכיחים את יעילות AmbiVer ומדגישים את קושי המשימה.

Ambi3DAmbiVerarXiv
קרא עוד