חשים את העוצמה אך לא את המקור: אינטרוספקציה חלקית במודלי שפה
מחקר חדש שחזר את תוצאות Anthropic ומצא: מודלים קטנים יותר מזהים מושגים מוזרקים – אך רק באופן שביר ומצומצם
✨תקציר מנהלים
נקודות עיקריות
שחזור ניסוי Anthropic ב-Llama-3.1-8B: 20% זיהוי מושגים מוזרקים
אינטרוספקציה שבירה: קורסת במבחנים פשוטים כמו רב-ברירה
אינטרוספקציה חלקית: 70% דיוק בסיווג עוצמת וקטור
מודלים מחשבים ייצוגים פנימיים, אך דיווחים רגישים לפרומפט
שאלות ותשובות
שאלות נפוצות
אהבתם את הכתבה?
הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל
עוד כתבות שיעניינו אותך
לכל הכתבותSMT פוגשת ILP: למידת חוקים עם אילוצים מספריים
תכנות לוגי אינדוקטיבי (ILP) משתלב עם SMT כדי להתגבר על מגבלות מספריות. קראו על הגישה המודולרית החדשה עם PyGol ו-Z3.
סנדבוקס עמיד בפני תקלות: ביטחון אוטונומי לסוכני קוד AI
מודלי שפה גדולים הופכים לסוכנים אוטונומיים, אך עם סיכונים גבוהים. מחקר חדש מציג סנדבוקס עמיד בפני תקלות עם יירוט 100% והשהייה מינימלית. קראו כיצד זה משנה את חוקי המשחק בביטחון AI. קראו עכשיו!
MaRS: ניהול זיכרון חכם לסוכנים גנרטיביים
סוכנים גנרטיביים מתקשים בניהול זיכרון ארוך טווח? מחקר חדש מציג MaRS ו-FiFA – פתרון חכם שמאזן ביצועים ופרטיות. קראו על התוצאות המרשימות. (48 מילים)
Memoria: מסגרת זיכרון סוכני לשיחות AI מותאמות
Memoria מציגה זיכרון סוכני ל-LLM, המשלב סיכומים וגרף ידע להתאמה אישית ארוכת טווח. פתרון מעשי לעסקים. קראו עכשיו! (112 מילים)