חשים את העוצמה אך לא את המקור: אינטרוספקציה חלקית במודלי שפה

16 בדצמבר 2025

2 דקות

מ־arXiv cs.AI

חשים את העוצמה אך לא את המקור: אינטרוספקציה חלקית במודלי שפה

מחקר חדש ב-arXiv חושף: מודלי שפה כמו Llama-3.1 מזהים מושגים מוזרקים ב-20% הצלחה, אך היכולת שבירה. הם מצטיינים בסיווג עוצמה (70%). קראו על אינטרוספקציה חלקית במודלים.

Anthropic Meta-Llama-3.1-8B-Instruct arXiv:2512.12411v1

קרא עוד