בעידן שבו רובוטים ומשחקי בינה מלאכותית דורשים החלטות מורכבות המשלבות בחירות דיסקרטיות ופרמטרים רציפים, אתגר מרכזי ניצב בפני חוקרי למידת מכונה: איך למדל ולנתב מרחב פעולות היברידי ביעילות? מחקר חדש מציג את CHDP – מסגרת מדיניות דיפוזיה שיתופית היברידית שמתייחסת לבעיה כמשחק שיתופי מלא ומביאה תוצאות מרשימות.
השיטה מבוססת על שני סוכנים שיתופיים: אחד אחראי על מדיניות דיפוזיה דיסקרטית והשני על מדיניות דיפוזיה רציפה. המדיניות הרציפה מותנית בייצוג הפעולה הדיסקרטית, מה שמאפשר מודלינג מפורש של התלות ביניהן. עיצוב שיתופי זה ממנף את הכוח הביטוי של מדיניותי הדיפוזיה כדי לתפוס תפוצות מורכבות במרחבי הפעולות שלהן, בהתאם לדיווח החוקרים.
כדי למנוע קונפליקטים בעדכון המדיניות המקבילי, CHDP משתמשת בשיטת עדכון רציפה שמעודדת הסתגלות הדדית. בנוסף, לשיפור המדרגיות במרחב פעולות דיסקרטי ממדי גבוה, נבנה מילון קודים שמפה את מרחב הפעולות למרחב סמוי בעל ממד נמוך. מיפוי זה מאפשר ללמידה במרחב קומפקטי ומבנה.
החוקרים עיצבו מנגנון הנחיה מבוסס פונקציית Q שמיישר את ייצוגי מילון הקודים עם ייצוג המדיניות הדיסקרטית במהלך האימון. במבחני מרחב פעולות היברידי מאתגרים, CHDP עלתה על שיטת מצב האמנות בשיעור הצלחה של עד 19.3%, מה שמדגיש את הפוטנציאל שלה.
מסגרת זו פותחת אפשרויות חדשות בפיתוח סוכני AI מתקדמים בתחומי רובוטיקה ובקרת משחקים. עבור מנהלי עסקים ישראליים בתעשיית ההייטק והאוטומציה, CHDP יכולה להאיץ פיתוח מערכות חכמות יותר, תוך התמודדות עם אתגרי מורכבות גבוהה. כיצד תשלבו גישות כאלה בפרויקטים הבאים?