מחקר1 בינואר 20262 דקות·מ־arXiv cs.AIסוכני LLM עם למידת חיזוק משפרים שיתוף פעולה פי 3מודלי שפה גדולים מתקשים בשיתוף פעולה, אך מסגרת חדשה עם למידת חיזוק משיגה פי 3 מהירות ו-98.7% עקביות. קראו על GRPO ועל התוצאות המרשימות במחקר חדש. קראו עכשיו המלצות לעסקים.GRPODec-POMDPCTDEקרא עוד