מחקר
4 דקות
מ־arXiv cs.AI
בנצ'מרק BrowseComp-V³: בדיקה חדשה לסוכני גלישה AI
חוקרים השיקו את BrowseComp-V³, בנצ'מרק חדש לבדיקת סוכני גלישה רב-מודליים ב-AI. 300 שאלות מאתגרות חושפות שמודלים מתקדמים מצליחים רק ב-36%. גלו את ההשלכות לעסקים ישראליים.
קרא עוד