התקפות שיחה רב-תוריות חושפות פרצות בדגמי AI מובילים
מחקר חדש מפתח כלי אוטומטי לייצור התקפות ג'יילברייק ומגלה הבדלים דרמטיים בעמידות מודלים כמו GPT ו-Gemini
✨תקציר מנהלים
נקודות עיקריות
צינור אוטומטי יצר 1,500 תרחישי ג'יילברייק מבוססי FITD
דגמי GPT: ASR עולה ב-32% עם היסטוריית שיחה
Gemini 2.5 Flash כמעט חסין להתקפות
Claude 3 Haiku עמיד חלקית
צורך דחוף בהגנות נגד מניפולציה נרטיבית
התקפות שיחה רב-תוריות חושפות פרצות בדגמי AI מובילים
- צינור אוטומטי יצר 1,500 תרחישי ג'יילברייק מבוססי FITD
- דגמי GPT: ASR עולה ב-32% עם היסטוריית שיחה
- Gemini 2.5 Flash כמעט חסין להתקפות
- Claude 3 Haiku עמיד חלקית
- צורך דחוף בהגנות נגד מניפולציה נרטיבית
שאלות ותשובות
שאלות נפוצות
אהבתם את הכתבה?
הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל
עוד כתבות שיעניינו אותך
לכל הכתבותEvoC2Rust: תרגום פרויקטי C מלאים ל-Rust בביצועים גבוהים
בעולם שבו מערכות בטיחות קריטיות דורשות קוד אמין יותר, תרגום מאגרי קוד C ותיקים ל-Rust הופך לצורך דחוף. EvoC2Rust מציגה פתרון אוטומטי מתקדם. קראו עכשיו על הביצועים המרשימים.
זיהוי עמימות הוראות 3D: פריצת דרך בבטיחות AI
החוקרים בנו את Ambi3D, מאגר הנתונים הגדול ביותר למשימה זו עם למעלה מ-700 סצנות 3D מגוונות וכ-22 אלף הוראות. ניתוח מראה שמודלי שפה גדולים 3D מתקדמים נכשלים בזיהוי אמין של עמימות. כדי להתמודד עם האתגר, הם מציעים את AmbiVer – מסגרת דו-שלבית שאוספת ראיות חזותיות ממספר זוויות ומנחה מודל שפה-ראייה לשיפוט העמימות. ניסויים מקיפים מוכיחים את יעילות AmbiVer ומדגישים את קושי המשימה.
TowerMind: סביבת בדיקה חדשה לסוכני LLM במשחקי RTS
בעידן שבו דגמי שפה גדולים הופכים לסוכני AI, TowerMind היא סביבת משחק הגנת מגדלים חדשה לבדיקת תכנון והחלטות. התוצאות חושפות פערים מול בני אדם. קראו עכשיו על הבנצ'מרק החדש! (112 מילים)
דגמי TRM על ARC-AGI-1: הטיות, תנאי זהות וחישוב בזמן בדיקה
דגמי TRM קטנים ורקורסיביים מבטיחים חשיבה מתקדמת במשימות ARC, אך ניתוח חדש חושף תלות חזקה באג'mנטציה וזהות משימה. קראו עכשיו!