מחקר
6 דקות
מ־arXiv cs.AI
VeRA להערכת מודלי שפה: איך מונעים “שינון מבחנים” עם וריאנטים מאומתים
**VeRA הוא מנגנון שממיר שאלות בנצ'מרק ל"מפרט בר־הרצה" שמייצר וריאציות חדשות עם תשובות מאומתות אוטומטית. לפי arXiv:2602.13217v1, מבעיה אחת אפשר ליצור מספר בלתי מוגבל של גרסאות מתויגות נכון כמעט בלי עלות שולית ובלי מתייגים אנושיים.** המשמעות לעסקים בישראל: במקום לבדוק מודל שפה על סט קבוע שמזמין שינון וזיהום, אפשר לייצר בכל שבוע מאות תרחישים חדשים (למשל פניות שירות ב-WhatsApp בעברית) ולוודא שהמודל מסווג נכון, יוצר כרטיס ב-Zoho CRM ומכבד כללי מדיניות. כך אתם מודדים יכולת אמיתית—ומקטינים סיכון לתקלות אחרי החלפת מודל או שינוי פרומפט.
קרא עוד