סינתזה נתונים בקנה מידה לסוכני שימוש במחשב עם סינון צעדים
מחקר

סינתזה נתונים בקנה מידה לסוכני שימוש במחשב עם סינון צעדים

חוקרים מפתחים שיטה חדשה להפקת נתוני אימון איכותיים מסוכני AI רועשים, כולל מאגר WebSTAR חדשני

2 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • פיתוח צינור סינתזה שמסנן רעש ממסלולים רועשים של סוכני AI.

  • יצירת WebSTAR: 13.3K מסלולים ו-100K צעדים מדורגים.

  • אימון Qwen-2.5-7B על WebSTAR עלה על SOTA ב-15% ב-WebVoyager.

  • WebSCORE ו-StepRM: כלים חדשים לתגמול יעיל בקנה מידה.

סינתזה נתונים בקנה מידה לסוכני שימוש במחשב עם סינון צעדים

  • פיתוח צינור סינתזה שמסנן רעש ממסלולים רועשים של סוכני AI.
  • יצירת WebSTAR: 13.3K מסלולים ו-100K צעדים מדורגים.
  • אימון Qwen-2.5-7B על WebSTAR עלה על SOTA ב-15% ב-WebVoyager.
  • WebSCORE ו-StepRM: כלים חדשים לתגמול יעיל בקנה מידה.
בעידן שבו סוכני שימוש במחשב (CUAs) מבטיחים להפוך את המחשבים לעוזרים אוטונומיים מושלמים, אתגר מרכזי נותר: איסוף נתוני אימון איכותיים. אינטראקציה עם ממשקי משתמש גרפיים (GUI) יקרה ומסובכת, ומאגרי הנתונים הקיימים מבוססים על הדגמות אנושיות שאינן מדרגיות. כעת, מחקר חדש מציג צינור סינתזה נתונים שמתגבר על רעש במסלולים של סוכנים חזקים כמו מודל ה-computer-use-preview של OpenAI. השיטה המרכזית היא סינון ברמת צעד, שמעריך כל פעולה בנפרד ומשמר רק צעדים נכונים, לצד שדרוג חשיבה לשיפור תכנון. באמצעות צינור זה, נבנה WebSTAR – מאגר של 13.3 אלף מסלולים ו-100 אלף צעדים מדורגים ועשירים בחשיבה, שנוצרו סינתטית. אימון מודלי Qwen-2.5-VL-Instruct בגודל 7B ו-32B על WebSTAR הוביל לשיפור משמעותי: המודל 7B עלה על מודל SOTA פתוח UI-TARS-1.5-7B ביותר מ-15% במבחן WebVoyager, באמצעות כוונון על נתונים מפוקחים בלבד. בנייה על סינון ברמת צעד יצרה גם WebSCORE, מאגר צעדים מדורגים, ועל בסיסו StepRM – מודל תגמול מולטימודלי 7B שזוקק מ-o4-mini ומתאים לאיכות הדירוג שלו אך יעיל בהרבה ליישום בקנה מידה גדול. תוצאות אלה ממצבות את סינון ברמת צעד כעיקרון מפתח לאימון CUAs מדרגי. לעסקים ישראלים בתחום הטכנולוגיה, פריצת דרך זו פירושה יכולת לפתח סוכנים אוטונומיים זולים יותר, שמבצעים משימות דיגיטליות מורכבות ללא צורך בהדגמות אנושיות יקרות. בהשוואה לשיטות קיימות, השיטה החדשה מפחיתה רעש ומשפרת תכנון, מה שמאיץ פיתוח יישומים כמו אוטומציה של אתרי אינטרנט. המחקר מדגיש את הפוטנציאל של נתונים סינתטיים באימון סוכני AI, ומציע כלים פרקטיים כמו WebSTAR, WebSCORE ו-StepRM לקידום CUAs חזקים ויעילים. מה תכנון העסק שלכם להטמעת סוכנים כאלה?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

המידע שתמסור ישמש ליצירת קשר ומתן שירותים. למידע נוסף ראה מדיניות פרטיות ותנאי שימוש

עוד כתבות שיעניינו אותך

לכל הכתבות
השראת IIT למודעות ב-LLMs: מסגרת תגמול חדשה
מחקר
2 דקות

השראת IIT למודעות ב-LLMs: מסגרת תגמול חדשה

האם מודלי שפה גדולים יכולים לפתח 'מודעות' דמוית אנושית? חוקרים מציגים מסגרת למידה מבוססת תגמול בהשראת תיאוריית המידע המשולב (IIT)... קראו עכשיו את הפרטים המלאים! (112 מילים)

Integrated Information TheoryLLMsAGI
קרא עוד
AutoRefine: שיפור סוכני LLM מתמשך מניסיון
מחקר
3 דקות

AutoRefine: שיפור סוכני LLM מתמשך מניסיון

בעולם שבו סוכני דגמי שפה גדולים נתקלים במשימות חדשות ללא למידה מניסיון, AutoRefine משנה את חוקי המשחק עם חילוץ דפוסי ניסיון דואליים ותחזוקה רציפה. תוצאות: 98.4% ב-ALFWorld ועד 27.1% ב-TravelPlanner. קראו עכשיו!

AutoRefineALFWorldScienceWorld
קרא עוד