אבחון אמינות LLM כשופט באמצעות תורת תגובת פריט

3 בפברואר 2026

2 דקות

מ־arXiv cs.AI

אבחון אמינות LLM כשופט באמצעות תורת תגובת פריט

בעידן שבו מודלי שפה גדולים (LLM) הפכו לשופטים אוטומטיים להערכת תוכן ותוצרים, עולה השאלה: האם הם באמת יציבים ואמינים ככלי מדידה? חוקרים מציגים מסגרת אבחון חדשה מבוססת IRT. קראו עכשיו על ההשלכות העסקיות.

LLM-as-a-Judge Item Response Theory Graded Response Model

קרא עוד