מחקר
2 דקות
מ־arXiv cs.AI
AstroReason-Bench: בנצ'מרק חדש לבדיקת סוכני AI בתכנון חלל
בעידן שבו סוכני AI מבטיחים לפתור כל בעיה, מתברר שהם נכשלים דווקא בתחומים הכי קריטיים כמו תכנון משימות חלל. חוקרים מפרסמים את AstroReason-Bench – בנצ'מרק חדש לבדיקת סוכני LLM. קראו עכשיו!
קרא עוד