מהי טכנולוגיית Multi-Token Prediction (MTP) וכיצד היא מסייעת לטלפונים ניידים?

טכנולוגיית Multi-Token Prediction (MTP) היא שיטת חישוב המאפשרת למודל שפה גדול לחזות ולייצר מספר מילים (טוקנים) במקביל במחזור חישוב יחיד. בטלפונים ניידים כמו סדרת Pixel 9 של חברת Google, הטכנולוגיה מאפשרת להריץ מודלים כמו Gemini Nano v3 בצורה מהירה ב-50% יותר בהשוואה לשיטות הרצה מסורתיות. היא פותרת את צוואר הבקבוק של רוחב הפס של הזיכרון ומצמצמת את השחיקה של סוללת המכשיר מבלי לפגוע באיכות הפלט הנדרש.

כמה זיכרון חוסכת הארכיטקטורה החדשה של Google במחשוב קצה?

הארכיטקטורה החדשה, המכונה Zero-copy architecture, חוסכת כ-130MB מזיכרון ה-RAM הדינמי בכל הרצה של מודל ה-AI המקומי. חיסכון דרמטי זה מושג על ידי כך שראש החיזוי פונה ישירות למנגנון הזיכרון הקיים (KV cache) של מודל הבסיס הקפוא, במקום ליצור ולנהל זיכרון והיסטוריית שיחה נפרדים כפי שקורה בשימוש במודלי טיוטה עצמאיים ומסורתיים.

מה היתרון של שימוש במודל בסיס קפוא (Frozen Backbone) עבור מפתחים ועסקים?

השימוש במודל בסיס קפוא מבטיח כי כל הגדרות הבטיחות, התאימות לאחור והיכולות המקוריות של מודל Gemini Nano v3 נשמרות ללא שינוי. עבור מפתחים ועסקים, המשמעות היא שאין צורך לבצע כוונון עדין (Fine-tuning) מורכב ומלכלך למודלים שונים לכל משימה חדשה. פתרון ה-MTP המשולב משמש כרכיב אופטימיזציה עצמאי ומהיר לחלוטין.

מחקר

האצת מודלי בינה מלאכותית על המכשיר: החידוש של גוגל ב-MTP

טכנולוגיית חיזוי מרובה טוקנים חדשה ב-Gemini Nano v3 חוסכת זיכרון ומאיצה ביצועים ב-Pixel

צוות אוטומציות AI

26 ביוני 2026

4 דקות קריאה

מבוסס על כתבה שלGoogle Research ↗תרגום, סיכום והקשר עסקי על-ידי המערכתאיך אנחנו עובדים

✨תקציר מנהלים

Key Takeaways

טכנולוגיית Multi-Token Prediction (MTP) משפרת את מהירות הרצת המודלים המקומיים ב-Pixel ב-50% ומעלה.
הארכיטקטורה החדשה חוסכת 130MB מזיכרון ה-RAM הדינמי של הטלפון על ידי שימוש ישיר ב-KV cache.
מודל Gemini Nano v3 המוקפא (Frozen) שומר על דיוק מלא והגדרות הבטיחות ללא צורך בכוונון עדין נוסף.|
דיוק חיזוי הטוקנים משתפר בעד 55% במשימות בעלות מבנה מוגדר מראש כגון תשובות מהירות וסיכומי הודעות.

האצת מודלי בינה מלאכותית על המכשיר: החידוש של גוגל ב-MTP

טכנולוגיית Multi-Token Prediction (MTP) משפרת את מהירות הרצת המודלים המקומיים ב-Pixel ב-50% ומעלה.
הארכיטקטורה החדשה חוסכת 130MB מזיכרון ה-RAM הדינמי של הטלפון על ידי שימוש ישיר ב-KV cache.
מודל Gemini Nano v3 המוקפא (Frozen) שומר על דיוק מלא והגדרות הבטיחות ללא צורך בכוונון...
דיוק חיזוי הטוקנים משתפר בעד 55% במשימות בעלות מבנה מוגדר מראש כגון תשובות מהירות וסיכומי...

כיצד טכנולוגיית MTP מאפשרת האצת מודלי בינה מלאכותית על המכשיר?

חברת Google (חברת הטכנולוגיה Google) חשפה פריצת דרך חשובה בתחום המחשוב הנייד, עם שילוב טכנולוגיית Multi-Token Prediction (טכנולוגיית חיזוי מרובה טוקנים או MTP) במודל Gemini Nano v3 (מודל ה-AI המקומי Gemini Nano v3) על גבי מכשירי Pixel 9 (סדרת הטלפונים Pixel 9 של גוגל) ו-Pixel 10. פיתוח זה מאפשר האצת מודלי בינה מלאכותית על המכשיר ישירות, תוך חיסכון של 130MB בזיכרון ה-RAM ומהירות עיבוד גבוהה ב-50% עבור תכונות כמו סיכומי התראות וניסוח טקסטים בזמן אמת.

מה זה Multi-Token Prediction?

Multi-Token Prediction (טכנולוגיית חיזוי מרובה טוקנים) הוא שיטת עבודה המאפשרת למודל שפה גדול לייצר מספר מילים או חלקי מילים (Tokens) במקביל במהלך מחזור חישוב יחיד, בניגוד לשיטה המסורתית המייצרת טוקן בודד בכל פעם (Autoregressive generation). בהקשר עסקי, יישום זה מאפשר הרצת אפליקציות בינה מלאכותית מקומיות על גבי חומרה מוגבלת במהירות שאינה נופלת מזו של שרתי ענן מרוחקים. לדוגמה, במקום להמתין שניות ארוכות לניסוח הודעה, המשתמש מקבל מענה מהיר ומיידי על גבי המכשיר הנייד. לפי נתוני מחקר שפרסמה החברה, הוספת ראש חיזוי ייעודי שיפרה את קבלת הטוקנים הנכונים בעד 55% במשימות בעלות מבנה טקסט צפוי מראש.

האצת מודלי בינה מלאכותית על המכשיר: המעבר לשיטה משולבת

על פי הדיווח הרשמי של Google Research (מחלקת המחקר של גוגל), מודלים מסורתיים של בינה מלאכותית הפועלים על טלפונים ניידים נתקלים בצוואר בקבוק משמעותי: רוחב הפס של הזיכרון וצריכת האנרגיה הסוללתית. כדי להתגבר על כך, פותחה בעבר שיטה בשם Speculative Decoding (פענוח ספקולטיבי), המפצלת את העבודה בין מודל קטן ומהיר המייצר טיוטה (Drafter), למודל גדול ומדויק המאמת אותה (Verifier). עם זאת, הרצת מודל טיוטה נפרד גובה "מס זיכרון" כפול, שכן הוא זקוק לניהול היסטוריית שיחה נפרדת ומשאבי מערכת ייחודיים.

החידוש הנוכחי של Google DeepMind (חטיבת הבינה המלאכותית של גוגל) מציג פיתוח המכונה Zero-copy architecture (ארכיטקטורה ללא העתקת זיכרון). בשיטה זו, במקום להריץ מודל טיוטה נפרד לחלוטין, המפתחים מקפיאים את מודל הבסיס Gemini Nano v3 ומוסיפים לו ראש Transformer (ארכיטקטורת הרשת העצבית Transformer) קל-משקל בלבד. ראש זה פונה ישירות ל-KV cache (מנגנון הזיכרון הדינמי Key-Value Cache) של מודל הבסיס הקיים. פיתוח זה חוסך את זמן השהיית הטעינה הראשונית ומקטין את נפח הזיכרון הדינמי ב-130MB לכל מופע הרצה. יישום של פתרונות סוכני AI המבוססים על עיבוד מקומי כזה הופך כעת ליעיל, חסכוני ומהיר בהרבה מבעבר.

ההקשר הטכנולוגי והרחבת הקיבולת במכשירים ניידים

לפי מאמר המחקר שפורסם, בעוד שבדגמים קודמים כמו Gemma 4 (משפחת המודלים הפתוחים Gemma 4) טכנולוגיית MTP הוטמעה כבר בשלבי אימון המודל הראשוניים, האתגר הגדול ב-Gemini Nano היה להטמיע את השיפור על גבי מודל קיים ופרוס בשטח (Retrofitting). הגישה של שמירת מודל הבסיס במצב "קפוא" (Frozen backbone) מבטיחה כי יכולות המודל המקוריות והגדרות הבטיחות שלו אינן נפגעות או משתנות, והפלט הסופי נשאר זהה לחלוטין לזה של מודל הבסיס המקורי.

במבחני ביצועים שנערכו על מכשירי סדרת Pixel 9, הראתה הארכיטקטורה החדשה תוצאות מרשימות ביותר. במשימות מורכבות של מעקב אחר הנחיות (Instruction following), כמו סיכום מידע מורכב או שכתוב טקסטים תחת מגבלות מורכבות, מודל ה-MTP המשולב עקף בצורה דרמטית מודלים נפרדים שעברו כוונון עדין (Fine-tuned drafters). בנוסף, הטכנולוגיה תורמת ישירות להארכת חיי הסוללה של המכשיר הנייד, כיוון שנדרשים פחות מחזורי עיבוד בקרב המעבדים הראשיים של הטלפון על מנת לאמת את הניבויים המוצעים על ידי המערכת.

השלכות הרגולציה וההתפתחות העסקית בישראל

עבור עסקים, חברות סטארט-אפ ומנהלי טכנולוגיות בישראל, ההתקדמות בתחום של האצת מודלי בינה מלאכותית על המכשיר מהווה זרז משמעותי לפיתוח יישומים מאובטחים. לפי חוק הגנת הפרטיות הישראלי, חלה חובה מחמירה על ארגונים להגן על מידע רגיש של משתמשים ולקוחות. שליחת נתונים אישיים כמו היסטוריית שיחות, סיכומי פגישות רפואיות או מידע פיננסי לשרתי ענן חיצוניים עלולה לחשוף עסקים לסיכוני אבטחה ולקנסות רגולטוריים כבדים.

היכולת להריץ מודלים חזקים ומדויקים מקומית על טלפונים ניידים של עובדים או לקוחות פותרת את החסם הזה לחלוטין. ארגונים ישראליים במגזר הבריאות, הפיננסים והמשפט יכולים כעת להטמיע כלים מתקדמים לניתוח טקסט, סיכום אוטומטי של אינטראקציות, ואף הפעלת עוזרים דיגיטליים ישירות על מכשיר הקצה, תוך שמירה מלאה על פרטיות המידע בתוך גבולות המכשיר הפיזי של המשתמש.

מה לעשות עכשיו

מיפוי משימות לעיבוד מקומי: זהו אילו תהליכים בארגון שלכם כוללים טיפול במידע רגיש של לקוחות (כמו פרטי אשראי או שיחות תמיכה). שקלו להעביר משימות אלו לעיבוד מקומי על גבי מכשירי קצה באמצעות מודלים ייעודיים כמו Gemini Nano או Gemma, במקום להסתמך על APIs חיצוניים.
שילוב פתרונות אוטומציה היברידיים: חברו בין מנועי עיבוד מקומיים למערכות הליבה של הארגון. שימוש ב-פתרונות אוטומציה מותאמים מאפשר לסנכרן את המידע המעובד במכשיר ישירות למערכות ניהול הלקוחות הארגוניות כמו Zoho CRM בצורה בטוחה ומבוקרת.
בניית מודלי טיוטה ייעודיים: אם אתם מפתחים אפליקציות מובייל מורכבות, בחנו שילוב של טכנולוגיות פענוח ספקולטיבי (Speculative Decoding) או ארכיטקטורות Zero-Copy כדי להוריד את זמני ההשהיה (Latency) של היישומים שלכם ב-50% לפחות, תוך חיסכון בצריכת ה-RAM של מכשירי המשתמשים.

מבט קדימה אל עתיד מחשוב הקצה

צוותי הפיתוח של Google Research ו-DeepMind כבר בוחנים שלבים מתקדמים יותר הכוללים "פענוח מקביל" (Parallel decoding) המאפשר למודל לחקור מספר נתיבי חיזוי בו-זמנית, כמו גם "הקלה באימות" (Verification leniency) עבור מקרים שבהם אין חשיבות להתאמה מושלמת של כל אות ותו. האצת מודלי בינה מלאכותית על המכשיר היא אינה מגמה חולפת, אלא הבסיס לדור הבא של יישומי AI מהירים ובטוחים שיעצבו מחדש את האינטראקציה העסקית שלכם עם הלקוחות במכשירים הניידים שלהם.

שאלות ותשובות

FAQ

הכתבה הוכנה על-ידי המערכת בליווי בינה מלאכותית: תרגום, סיכום והוספת הקשר עסקי ישראלי מתוך פרסום מקורי של Google Research. קראו על תהליך העריכה שלנו. קישור למקור המקורי.

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד מ־Google Research

כל הכתבות מ־Google Research

גוגל מציגה את TabFM: מודל יסוד לנתונים טבלאיים שישנה את ה-CRM

מחקר

לפני 12 שעות

4 דקות

מ־Google Research

גוגל מציגה את TabFM: מודל יסוד לנתונים טבלאיים שישנה את ה-CRM

חברת Google (גוגל) הציגה את TabFM (מודל יסוד לנתונים טבלאיים), פתרון בינה מלאכותית בשיטת Zero-Shot המאפשר ביצוע משימות סיווג ורגרסיה על נתונים מובנים ללא צורך באימון מודל מותאם אישית או אופטימיזציה מורכבת של היפר-פרמטרים. המודל פותח על ידי חוקרי Google Research (זרוע המחקר של גוגל) ואומן על מאות מיליוני נתונים סינתטיים המבוססים על מודלים סיבתיים מבניים. במבחני ביצועים שנערכו במערכת המדדים TabArena (פלטפורמת הערכה למודלים טבלאיים), המודל השיג תוצאות מובילות בהשוואה לאלגוריתמים מסורתיים כמו XGBoost (אלגוריתם למידת מכונה מבוסס עצי החלטה). המודל משוחרר כקוד פתוח ומשולב ישירות בתוך Google Cloud BigQuery לשימוש מהיר באמצעות פקודות SQL פשוטות.

Google TabFM TimesFM

קרא עוד

אחזור ידע במודלי שפה: כיצד תהליכי חשיבה משפרים דיוק עובדתי?

מחקר

לפני 6 ימים

4 דקות

מ־Google Research

אחזור ידע במודלי שפה: כיצד תהליכי חשיבה משפרים דיוק עובדתי?

מחקר חדש של Google Research (זרוע המחקר של גוגל) חושף כי הפעלת מנגנוני חשיבה (Reasoning) במודלים כמו Gemini-2.5 (מודל השפה של גוגל) משפרת באופן עקבי את היכולת לבצע אחזור ידע במודלי שפה. החוקרים זיהו שני מנגנונים: באפר חישובי וצימוד עובדתי, המאפשרים למודל לאחזר עובדות פשוטות מתוך הזיכרון הפנימי ללא צורך בחישובים מורכבים או בחיפוש חיצוני. עם זאת, המחקר מזהיר כי הזיה בודדת בשלבי הביניים של החשיבה פוגעת דרמטית בדיוק התשובה הסופית.

Zorik Gekhman Jonathan Herzig Gemini-2.5

קרא עוד

מיפוי סביבתי באמצעות בינה מלאכותית: מפיקסלים לתכנון שיקום הטבע

מחקר

16 ביוני 2026

4 דקות

מ־Google Research

מיפוי סביבתי באמצעות בינה מלאכותית: מפיקסלים לתכנון שיקום הטבע

גוגל חשפה פריצת דרך בפרויקט Earth AI המאפשרת מעבר ממפות פיקסלים למידע וקטורי מפורט ברזולוציה של תת-מטר. המערכת שפותחה בשיתוף אוניברסיטת אוקספורד, מאפשרת מיפוי מדויק של גדרות חיות, קירות אבן וחורשות קטנות המהווים כלי קריטי לשיקום אקולוגי ולחישובי פחמן. עבור המגזר העסקי בישראל, טכנולוגיה זו מציעה הזדמנויות משמעותיות בתחומי הביטוח, הנדל״ן והחקלאות המדייקת, תוך התחשבות במגבלות חוק הגנת הפרטיות הישראלי.

Google Earth AI Google Earth Engine Leverhulme Centre for Nature Recovery

קרא עוד

אימות מחיקת מידע ממודלי בינה מלאכותית: פריצת הדרך של גוגל

מחקר

10 ביוני 2026

5 דקות

מ־Google Research

אימות מחיקת מידע ממודלי בינה מלאכותית: פריצת הדרך של גוגל

חוקרי Google Research הציגו בוועידת AISTATS 2026 מסגרת עבודה מהפכנית בשם Regularized f-Divergence Kernel Tests, המיועדת לבצע אימות מחיקת מידע ממודלי בינה מלאכותית. השיטה החדשה מתגברת על כשלי הבדיקות הדו-מדגמיות המסורתיות (כמו MMD), ומאפשרת למבקרים חיצוניים לזהות דליפות מידע מקומיות ברמת דיוק חסרת תקדים. באמצעות שימוש במדדי שונות מתקדמים כמו Hockey-stick divergence ורגולריזציה של ליבות, המערכת מזהה הפרות פרטיות תוך שימוש בכמה אלפי דגימות בלבד בהשוואה למיליוני דגימות שנדרשו בעבר בשיטות כמו DP-Auditorium. פיתוח זה מעניק לעסקים הפועלים תחת רגולציות פרטיות מחמירות כלי מתמטי מוכח להבטחת עמידה בדרישות החוק.

AISTATS 2026 Mónica Ribero Antonin Schrab

קרא עוד

עוד כתבות שיעניינו אותך

לכל הכתבות

מחקר

לפני 12 שעות

4 דקות

מ־Google Research

גוגל מציגה את TabFM: מודל יסוד לנתונים טבלאיים שישנה את ה-CRM

Google TabFM TimesFM

קרא עוד

אימון מיומנויות של סוכני AI: הכירו את SkillOpt של מיקרוסופט

מחקר

לפני 16 שעות

4 דקות

מ־Microsoft Research

אימון מיומנויות של סוכני AI: הכירו את SkillOpt של מיקרוסופט

מחקר חדש של Microsoft Research (זרוע המחקר של מיקרוסופט) מציג את SkillOpt (מערכת אופטימיזציה למיומנויות סוכני AI), גישה חדשנית ההופכת את תהליך כתיבת הפרומפטים לאימון פרמטרי מבוקר. המערכת שומרת על משקלי מודל השפה קפואים, ומאמנת שכבת מיומנויות טקסטואלית חיצונית באמצעות לולאת משוב המנתחת הצלחות וכישלונות. במבחני ביצועים מול מודלים מובילים כמו GPT-5.5, המערכת הציגה שיפור ממוצע של 23.5 נקודות במשימות מורכבות, ואיפשרה למודלים קטנים וזולים כמו Qwen3.5-4B לעקוף את ביצועי הבסיס של מודלים גדולים בהרבה ללא מיומנויות מותאמות.

SkillOpt GPT-5.5 Qwen3.5-4B

קרא עוד

הכנת נתונים לבינה מלאכותית: הבסיס למהפכת ה-AI בעסקים

מחקר

לפני 20 שעות

4 דקות

מ־MIT Technology Review

הכנת נתונים לבינה מלאכותית: הבסיס למהפכת ה-AI בעסקים

מחקרים של חברת Reltio ושותפותיה מראים כי מודלי AI בחקלאות יכולים לשפר יבולים ב-26% ולצמצם שימוש במים ב-41%. עם זאת, ללא תשתית נתונים מאוחדת ונקייה (Data Readiness), מודלים אלו מייצרים המלצות שגויות והזיות מזיקות. הפער נובע מכך שמערכות רבות ניזונות מנתוני IoT ומקורות מידע מבוזרים שאינם מסונכרנים. כדי ליהנות מפירות הבינה המלאכותית, עסקים חייבים להשקיע קודם כל בבניית 'מקור אמת יחיד' המקשר בין לקוחות, ספקים ועלויות.

Reltio Wilbur-Ellis SAP

קרא עוד

השפעת הבינה המלאכותית על שוק העבודה: דוח חושף מציאות מפתיעה

מחקר

אתמול

4 דקות

מ־TechCrunch

השפעת הבינה המלאכותית על שוק העבודה: דוח חושף מציאות מפתיעה

על פי דוח משותף של Ramp ו-Revelio Labs המנתח 22,000 חברות, השפעת הבינה המלאכותית על שוק העבודה מציגה מציאות מפתיעה: חברות המוגדרות כמשקיעות כבדות ב-AI (הוצאה חודשית ממוצעת של 30 דולר לפחות לעובד) רשמו עלייה של 10.2% במצבת כוח האדם שלהן לרוחב מחלקות שונות כמו הנדסה, שיווק ומכירות. בנוסף, למרות שחוקרי Goldman Sachs מדווחים כי ה-AI ביטלה כ-16,000 משרות בחודש בשנה האחרונה, בחברות הטכנולוגיה המובילות חל גידול של 12% בגיוס עובדים מתחילים (ג'וניורים). הנתונים מוכיחים כי השקעה מתמשכת ב-AI מהווה מנוע להתרחבות הארגון ולא רק לצמצום עלויות.

Ramp Revelio Labs Goldman Sachs

קרא עוד