השוואת בטיחות מודלי בינה מלאכותית: חשיפת פרויקט Cannes החשאי של מטא
לפי תחקיר מקיף שפרסם מגזין WIRED (מגזין הטכנולוגיה האמריקאי), חברת Meta (חברת הטכנולוגיה מטא) הפעילה מאות קבלני משנה עצמאיים שהתחזו לבני נוער כדי לבחון ולערער את מנגנוני הבטיחות של צ'אטבוטים מתחרים. הפרויקט, שנוהל תחת שם הקוד "Cannes" על ידי חברת הקבלן Covalen (חברת מיקור החוץ האירית), נועד לבצע השוואת בטיחות מודלי בינה מלאכותית מול מערכות מובילות כמו ChatGPT, Gemini ו-Character.AI על ידי הזנת עשרות אלפי פניות בנושאים רגישים ביותר.
מה זה השוואת בטיחות מודלי בינה מלאכותית?
המושג השוואת בטיחות מודלי בינה מלאכותית (AI safety benchmarking) מתייחס לתהליך שינוי והערכה שיטתי שנועד לבחון כיצד מערכות בינה מלאכותית שונות מגיבות לתרחישי קצה, תכנים פוגעניים או ניסיונות עקיפת מגבלות ("jailbreaking"). בהקשר עסקי, הערכה זו חיונית כדי להבטיח כי סוכני AI לעסקים המוטמעים בארגונים ומתקשרים עם לקוחות, לא יפיקו תגובות בלתי הולמות, פוגעניות או כאלו החושפות את העסק לתביעות משפטיות. לדוגמה, חברות מריצות סימולציות מבוקרות שבהן בוטים נשאלים שאלות מורכבות בנושאי אבטחה ופרטיות כדי למפות את נקודות התורפה של המודל. על פי נתוני הפרויקט שנחשפו ב-WIRED, סבב בדיקות יחיד שהושלם באוגוסט 2025 כלל מעל ל-45,000 שאילתות שהוזנו למערכות המתחרות ללא ידיעתן.
תחקיר WIRED: מאחורי פרויקט Cannes של מטא
לפי הדיווח המעמיק של מגזין WIRED, מאות קבלנים מטעם חברת Covalen הונחו ליצור פרופילים פיקטיביים של קטינים מתחת לגיל 18 במטרה להטות את מסנני הבטיחות של צ'אטבוטים מתחרים. קבלנים אלו השתמשו בחשבונות דואר אלקטרוני זמניים של Gmail ו-Outlook וסיסמאות משותפות כדי לגשת ל-ChatGPT (צ'אטבוט הבינה המלאכותית של OpenAI), ל-Gemini (צ'אטבוט הבינה המלאכותית של Google) ולפלטפורמת Character.AI (פלטפורמת הצ'אטבוטים האינטראקטיביים). הם שלחו למערכות אלו אלפי שאילתות כתובות ואף תמונות רגישות (כגון גלולות, סכינים, חבל תלייה ודיאגרמות רפואיות), והעתיקו את התגובות לקבצי אקסל ייעודיים לצורך השוואת בטיחות מודלי בינה מלאכותית של המתחרות.
התחקיר חושף כי מתוך 3,748 שאילתות שנבחנו באופן ישיר על ידי עיתונאי המגזין, מאות התמקדו בנושאים קשים ביותר כמו פגיעה עצמית, אנורקסיה ובולמיה, יחסים אסורים ותרופות. מטא הגנה על הפעילות בהצהרה רשמית ומסרה כי בדיקה והשוואה של תגובות צ'אטבוטים להבטחת חוויות בטוחות ומותאמות גיל הן פרקטיקה תעשייתית סטנדרטית ואחראית לשיפור המערכות, וכי הנתונים לא שימשו לאימון מודלי ה-AI שלה עצמה. מנגד, חברות כמו OpenAI, Google ו-Character.AI מסרו כי לא אישרו בדיקות צד-שלישי מסוג זה, וכי הפעילות האמורה מהווה הפרה של תנאי השימוש שלהן, האוסרים על ניסיונות עקיפת מסננים או שימוש בפלט לפיתוח מודלים מתחרים. לשילוב טכנולוגיות אלו בעסק שלכם בבטחה, מומלץ לפנות לתהליך של ייעוץ טכנולוגי מקצועי.
ההקשר הרחב: גבולות ה-Red Teaming בתעשיית ה-AI
בדיקות חדירות ובטיחות (המכונות לרוב "Red Teaming") הן חלק בלתי נפרד מפיתוח בינה מלאכותית אחראית. עם זאת, מומחים בתחום מצביעים על כך שפרויקט Cannes חרג מהמקובל. Rumman Chowdhury (רומן צ'ודהארי, מומחית לאתיקה בבינה מלאכותית ומייסדת ארגון Humane Intelligence) הסבירה ל-WIRED כי פרויקט רחב היקף וחשאי המבוסס על חשבונות פיקטיביים של ילדים אינו נחשב לסטנדרט מקובל בתעשייה, אלא נע ב"אזור אפור" שבה בקרת בטיחות משמשת כיסוי לפרקטיקות אנטי-תחרותיות שאינן שקופות.
ההשלכות לעסקים בישראל ומדיניות הפרטיות
עבור עסקים ישראליים המאמצים פתרונות בינה מלאכותית יוצרת במחלקות שירות הלקוחות, המכירות והתפעול, המקרה של מטא מדגיש את הצורך הבוער בניהול סיכונים ובניית תשתית בטוחה. בישראל, פגיעה בפרטיות קטינים או חשיפתם לתכנים לא הולמים באמצעות בוטים עסקיים עלולה להוביל להפרות חמורות של חוק הגנת הפרטיות, התשמ"א-1981, ותקנות אבטחת המידע של הרשות להגנת הפרטיות. הדבר נכון במיוחד כאשר מטמיעים בוט וואטסאפ עסקי הפונה לקהל הרחב ועלול להישאל שאלות בלתי צפויות.
מגזרים רגישים בישראל, כגון קליניקות רפואיות פרטיות, משרדי עורכי דין, חברות ביטוח ופינטק, מחויבים להבטיח כי המודלים שהם מטמיעים אינם פגיעים לעקיפת הגנות (Jailbreaking) ושומרים על סודיות מוחלטת של המידע העסקי והאישי. הסתמכות על מודלים ציבוריים ללא התאמה ייעודית, ניטור קבוע וסינון קלט/פלט עלולה לחשוף את הארגון לאחריות נזיקית ופגיעה קשה במוניטין. בעת בניית אוטומציה עסקית, מומלץ להקפיד על ניתוב מאובטח של המידע דרך שרתים המותאמים לתקני אבטחה מחמירים.
מה לעשות עכשיו: מדריך להתאמת בטיחות ה-AI בארגון שלכם
- הגדירו מדיניות בטיחות לקלט ופלט (Guardrails): אל תסתמכו אך ורק על הגנות ברירת המחדל של ספקיות ה-API. הטמיעו שכבת סינון נוספת המנטרת את השאילתות של המשתמשים ואת תשובות המודל לפני שהן מוצגות ללקוח.
- הפרידו בין סביבות פיתוח ואימון למידע רגיש: ודאו שכל מודל שפותח או עבר כוונון דק (Fine-Tuning) אינו ניזון ממידע אישי מזוהה (PII). הדבר קריטי במיוחד לעמידה בדיני הפרטיות הישראליים.
- בצעו מבחני חדירות מבוקרים משלכם: לפני השקת סוכן AI חדש לשירות לקוחות, בצעו סימולציות פנימיות עם תרחישי קצה המדמים פניות מורכבות או פרובוקטיביות, כדי לוודא שהבוט מפנה את המשתמש לנציג אנושי ולא מנסה לאלתר תשובות בנושאים מחוץ לטווח סמכותו.
- בחרו בפלטפורמות אוטומציה מאובטחות: לחיבור בין מערכות ה-CRM שלכם (כמו Zoho CRM) לבין מודלי השפה, השתמשו בפתרונות אוטומציה מאובטחים כמו N8N (פלטפורמת אוטומציה מבוססת קוד פתוח) המאפשרים שליטה מלאה בנתיבי המידע ובמדיניות שמירת הנתונים ללא שיתוף מידע עם צדדים שלישיים.
מבט קדימה
הפרשה המדווחת ב-WIRED ממחישה כי תחום הבטיחות בבינה מלאכותית אינו רק שאלה פילוסופית, אלא זירה תחרותית ומורכבת בעלת השלכות משפטיות ועסקיות עצומות. ככל שהטכנולוגיה מתפתחת, חברות שישקיעו באפיון ויישום נכון של סוכני AI מותאמים אישית ומאובטחים, יזכו ביתרון תחרותי יציב ואמין לאורך זמן מבלי לסכן את המוניטין העסקי שלהן.