מערכת ניהול KV אדפטיבית לשרות LLM ארוכי-הקשר שמבטיחה עמידה ב-SLO.

מה השיפורים העיקריים?

עד 66% עמידה ב-SLO, 38% פחות latency ופי 3.3 תפוקה.

מתי משתמשים במנגנון החירום?

תחת עומס כבד, כדי לדחות בקשות גדולות זמנית.

מערכת ניהול KV אדפטיבית לשרות LLM ארוכי-הקשר שמבטיחה עמידה ב-SLO.

מה השיפורים העיקריים?

עד 66% עמידה ב-SLO, 38% פחות latency ופי 3.3 תפוקה.

מתי משתמשים במנגנון החירום?

תחת עומס כבד, כדי לדחות בקשות גדולות זמנית.

ORBITFLOW: ניהול KV חכם ל-LLM ארוך-הקשר

בעידן שבו מודלי שפה גדולים (LLM) מטפלים בהקשרים ארוכים ומשתנים, אתגר ניהול הזיכרון הופך למכשול מרכזי. אורכי הבקשות והרכב האצווה משתנים במהלך יצירת הטוקנים, מה שגורם לתנודות דרמטיות בכמות הזיכרון הנדרשת בזמן אמת. העברת מטמוני KV לזיכרון המארח מגבילה שימוש יעיל, אך אסטרטגיות קבועות מראש אינן מתאימות לשינויים המהירים, ומובילות להעברות תכופות מ-CPU ל-GPU שגורמות לעיכובים ולחריגות מיעדי SLO. כדי להתגבר על כך, מציגים החוקרים את ORBITFLOW – מערכת ניהול מטמוני KV דקה-גרגירית ואדפטיבית שמבטיחה עמידה ביעדי זמן תגובה בשרות LLM ארוכי-הקשר. ORBITFLOW משתמשת בפתרון ILP קל משקל כדי לקבוע אילו שכבות של מטמוני KV ישמרו על ה-GPU עבור כל בקשה, תוך כיבוד מגבלות זיכרון. המערכת מעדכנת באופן רציף את מיקומי ה-KV בהתבסס על משוב בזמן אמת, כאשר התוכנית הנוכחית הופכת לא אופטימלית במהלך יצירת הטוקנים. תחת עומס כבד, ORBITFLOW מפעילה מנגנון חירום שדוחה זמנית בקשות גדולות, ומבטיחה שמירה על עמידה כללית ב-SLO. גישה זו מאפשרת התאמה דינמית לצרכים משתנים. בניסויים, ORBITFLOW שיפרה את העמידה ביעדי SLO עבור TPOT ו-TBT ב-66% ו-48% בהתאמה, כפי שמדווחים החוקרים. היא גם הפחיתה את זמן התגובה הפרצנטילי 95 ב-38%, והגבירה את התפוקה פי 3.3 בהשוואה לשיטות העברה קיימות. תוצאות אלה מדגימות יתרון משמעותי בשרות תחת עומס גבוה. משמעות ORBITFLOW היא בשיפור יעילות שרתים למודלים ארוכי-הקשר, מה שחשוב לספקי שירותי ענן ולחברות AI. בהשוואה לאסטרטגיות סטטיות, היא מפחיתה העברות מיותרות ומשפרת חוויית משתמש. בישראל, שבה חברות כמו Mobileye ו-Wiz משקיעות ב-AI, טכנולוגיה כזו יכולה להאיץ פיתוח יישומים מקומיים. עבור מנהלי עסקים, ORBITFLOW מצביעה על מגמה של ניהול זיכרון חכם יותר, שיאפשר שירות LLM יציב יותר בקנה מידה גדול. כיצד זה ישפיע על עלויות התשתית שלכם?

ORBITFLOW: שירות LLM ארוך-הקשר עם ניהול KV חכם

✨תקציר מנהלים

נקודות עיקריות

ORBITFLOW: שירות LLM ארוך-הקשר עם ניהול KV חכם

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

עוד כתבות שיעניינו אותך

PatientVLM פוגש DocVLM: דיאלוג AI לאבחון רפואי יעיל

Medical SAM3: מודל בסיסי חדש לסגמנטציה מבוססת פרומפטים בהדמיה רפואית

האם מודלי AI מבינים עובדי בניין? מחקר חדש

בחירת מודלי שפה למדעי החברה: קטן, פתוח ואימות

ORBITFLOW: שירות LLM ארוך-הקשר עם ניהול KV חכם

✨תקציר מנהלים

נקודות עיקריות

ORBITFLOW: שירות LLM ארוך-הקשר עם ניהול KV חכם

שאלות ותשובות

שאלות נפוצות

מהי ORBITFLOW?

מה השיפורים העיקריים?

מתי משתמשים במנגנון החירום?

אהבתם את הכתבה?

עוד כתבות שיעניינו אותך

PatientVLM פוגש DocVLM: דיאלוג AI לאבחון רפואי יעיל

Medical SAM3: מודל בסיסי חדש לסגמנטציה מבוססת פרומפטים בהדמיה רפואית

האם מודלי AI מבינים עובדי בניין? מחקר חדש

בחירת מודלי שפה למדעי החברה: קטן, פתוח ואימות