זיהוי ניסיונות Jailbreak ב-LLM קליניים: מודל תכונות לשוניות אוטומטי
**זיהוי Jailbreak ב-LLM קליניים הוא זיהוי סטיות לשוניות שמרמזות שמשתמש מנסה להוציא מערכת הדרכה רפואית מהקשר מקצועי, רפואי או אתי. במחקר arXiv:2602.13321v1 החוקרים החליפו תיוג ידני של 4 תכונות (מקצועיות, רלוונטיות רפואית, אתיקה והסחת הקשר) במודלים מבוססי BERT שמנבאים את הציונים מהטקסט, ואז מזינים אותם למסווג שמעריך הסתברות ל-Jailbreak.** למרות שהמיקוד קליני, השיטה רלוונטית גם לעסקים בישראל שמפעילים מערכות שיחה בוואטסאפ או צ׳אט: תכונות ברות-פרשנות מאפשרות לקבוע ספים, לתעד ב-CRM (כמו Zoho) ולהפעיל זרימות ב-N8N שמנתבות שיחות חשודות לנציג אנושי. היתרון: לא “לרדוף” אחרי ניסוחי עקיפה, אלא למדוד שינויי התנהגות בשפה.
קרא עוד