מהי טכנולוגיית Multi-Token Prediction (MTP) וכיצד היא מסייעת לטלפונים ניידים?

טכנולוגיית Multi-Token Prediction (MTP) היא שיטת חישוב המאפשרת למודל שפה גדול לחזות ולייצר מספר מילים (טוקנים) במקביל במחזור חישוב יחיד. בטלפונים ניידים כמו סדרת Pixel 9 של חברת Google, הטכנולוגיה מאפשרת להריץ מודלים כמו Gemini Nano v3 בצורה מהירה ב-50% יותר בהשוואה לשיטות הרצה מסורתיות. היא פותרת את צוואר הבקבוק של רוחב הפס של הזיכרון ומצמצמת את השחיקה של סוללת המכשיר מבלי לפגוע באיכות הפלט הנדרש.

כמה זיכרון חוסכת הארכיטקטורה החדשה של Google במחשוב קצה?

הארכיטקטורה החדשה, המכונה Zero-copy architecture, חוסכת כ-130MB מזיכרון ה-RAM הדינמי בכל הרצה של מודל ה-AI המקומי. חיסכון דרמטי זה מושג על ידי כך שראש החיזוי פונה ישירות למנגנון הזיכרון הקיים (KV cache) של מודל הבסיס הקפוא, במקום ליצור ולנהל זיכרון והיסטוריית שיחה נפרדים כפי שקורה בשימוש במודלי טיוטה עצמאיים ומסורתיים.

מה היתרון של שימוש במודל בסיס קפוא (Frozen Backbone) עבור מפתחים ועסקים?

השימוש במודל בסיס קפוא מבטיח כי כל הגדרות הבטיחות, התאימות לאחור והיכולות המקוריות של מודל Gemini Nano v3 נשמרות ללא שינוי. עבור מפתחים ועסקים, המשמעות היא שאין צורך לבצע כוונון עדין (Fine-tuning) מורכב ומלכלך למודלים שונים לכל משימה חדשה. פתרון ה-MTP המשולב משמש כרכיב אופטימיזציה עצמאי ומהיר לחלוטין.

מחקר

האצת מודלי בינה מלאכותית על המכשיר: החידוש של גוגל ב-MTP

טכנולוגיית חיזוי מרובה טוקנים חדשה ב-Gemini Nano v3 חוסכת זיכרון ומאיצה ביצועים ב-Pixel

צוות אוטומציות AI

26 ביוני 2026

4 דקות קריאה

מבוסס על כתבה שלGoogle Research ↗תרגום, סיכום והקשר עסקי על-ידי המערכתאיך אנחנו עובדים

✨תקציר מנהלים

נקודות עיקריות

טכנולוגיית Multi-Token Prediction (MTP) משפרת את מהירות הרצת המודלים המקומיים ב-Pixel ב-50% ומעלה.
הארכיטקטורה החדשה חוסכת 130MB מזיכרון ה-RAM הדינמי של הטלפון על ידי שימוש ישיר ב-KV cache.
מודל Gemini Nano v3 המוקפא (Frozen) שומר על דיוק מלא והגדרות הבטיחות ללא צורך בכוונון עדין נוסף.|
דיוק חיזוי הטוקנים משתפר בעד 55% במשימות בעלות מבנה מוגדר מראש כגון תשובות מהירות וסיכומי הודעות.

האצת מודלי בינה מלאכותית על המכשיר: החידוש של גוגל ב-MTP

טכנולוגיית Multi-Token Prediction (MTP) משפרת את מהירות הרצת המודלים המקומיים ב-Pixel ב-50% ומעלה.
הארכיטקטורה החדשה חוסכת 130MB מזיכרון ה-RAM הדינמי של הטלפון על ידי שימוש ישיר ב-KV cache.
מודל Gemini Nano v3 המוקפא (Frozen) שומר על דיוק מלא והגדרות הבטיחות ללא צורך בכוונון...
דיוק חיזוי הטוקנים משתפר בעד 55% במשימות בעלות מבנה מוגדר מראש כגון תשובות מהירות וסיכומי...

כיצד טכנולוגיית MTP מאפשרת האצת מודלי בינה מלאכותית על המכשיר?

חברת Google (חברת הטכנולוגיה Google) חשפה פריצת דרך חשובה בתחום המחשוב הנייד, עם שילוב טכנולוגיית Multi-Token Prediction (טכנולוגיית חיזוי מרובה טוקנים או MTP) במודל Gemini Nano v3 (מודל ה-AI המקומי Gemini Nano v3) על גבי מכשירי Pixel 9 (סדרת הטלפונים Pixel 9 של גוגל) ו-Pixel 10. פיתוח זה מאפשר האצת מודלי בינה מלאכותית על המכשיר ישירות, תוך חיסכון של 130MB בזיכרון ה-RAM ומהירות עיבוד גבוהה ב-50% עבור תכונות כמו סיכומי התראות וניסוח טקסטים בזמן אמת.

מה זה Multi-Token Prediction?

Multi-Token Prediction (טכנולוגיית חיזוי מרובה טוקנים) הוא שיטת עבודה המאפשרת למודל שפה גדול לייצר מספר מילים או חלקי מילים (Tokens) במקביל במהלך מחזור חישוב יחיד, בניגוד לשיטה המסורתית המייצרת טוקן בודד בכל פעם (Autoregressive generation). בהקשר עסקי, יישום זה מאפשר הרצת אפליקציות בינה מלאכותית מקומיות על גבי חומרה מוגבלת במהירות שאינה נופלת מזו של שרתי ענן מרוחקים. לדוגמה, במקום להמתין שניות ארוכות לניסוח הודעה, המשתמש מקבל מענה מהיר ומיידי על גבי המכשיר הנייד. לפי נתוני מחקר שפרסמה החברה, הוספת ראש חיזוי ייעודי שיפרה את קבלת הטוקנים הנכונים בעד 55% במשימות בעלות מבנה טקסט צפוי מראש.

האצת מודלי בינה מלאכותית על המכשיר: המעבר לשיטה משולבת

על פי הדיווח הרשמי של Google Research (מחלקת המחקר של גוגל), מודלים מסורתיים של בינה מלאכותית הפועלים על טלפונים ניידים נתקלים בצוואר בקבוק משמעותי: רוחב הפס של הזיכרון וצריכת האנרגיה הסוללתית. כדי להתגבר על כך, פותחה בעבר שיטה בשם Speculative Decoding (פענוח ספקולטיבי), המפצלת את העבודה בין מודל קטן ומהיר המייצר טיוטה (Drafter), למודל גדול ומדויק המאמת אותה (Verifier). עם זאת, הרצת מודל טיוטה נפרד גובה "מס זיכרון" כפול, שכן הוא זקוק לניהול היסטוריית שיחה נפרדת ומשאבי מערכת ייחודיים.

החידוש הנוכחי של Google DeepMind (חטיבת הבינה המלאכותית של גוגל) מציג פיתוח המכונה Zero-copy architecture (ארכיטקטורה ללא העתקת זיכרון). בשיטה זו, במקום להריץ מודל טיוטה נפרד לחלוטין, המפתחים מקפיאים את מודל הבסיס Gemini Nano v3 ומוסיפים לו ראש Transformer (ארכיטקטורת הרשת העצבית Transformer) קל-משקל בלבד. ראש זה פונה ישירות ל-KV cache (מנגנון הזיכרון הדינמי Key-Value Cache) של מודל הבסיס הקיים. פיתוח זה חוסך את זמן השהיית הטעינה הראשונית ומקטין את נפח הזיכרון הדינמי ב-130MB לכל מופע הרצה. יישום של פתרונות סוכני AI המבוססים על עיבוד מקומי כזה הופך כעת ליעיל, חסכוני ומהיר בהרבה מבעבר.

ההקשר הטכנולוגי והרחבת הקיבולת במכשירים ניידים

לפי מאמר המחקר שפורסם, בעוד שבדגמים קודמים כמו Gemma 4 (משפחת המודלים הפתוחים Gemma 4) טכנולוגיית MTP הוטמעה כבר בשלבי אימון המודל הראשוניים, האתגר הגדול ב-Gemini Nano היה להטמיע את השיפור על גבי מודל קיים ופרוס בשטח (Retrofitting). הגישה של שמירת מודל הבסיס במצב "קפוא" (Frozen backbone) מבטיחה כי יכולות המודל המקוריות והגדרות הבטיחות שלו אינן נפגעות או משתנות, והפלט הסופי נשאר זהה לחלוטין לזה של מודל הבסיס המקורי.

במבחני ביצועים שנערכו על מכשירי סדרת Pixel 9, הראתה הארכיטקטורה החדשה תוצאות מרשימות ביותר. במשימות מורכבות של מעקב אחר הנחיות (Instruction following), כמו סיכום מידע מורכב או שכתוב טקסטים תחת מגבלות מורכבות, מודל ה-MTP המשולב עקף בצורה דרמטית מודלים נפרדים שעברו כוונון עדין (Fine-tuned drafters). בנוסף, הטכנולוגיה תורמת ישירות להארכת חיי הסוללה של המכשיר הנייד, כיוון שנדרשים פחות מחזורי עיבוד בקרב המעבדים הראשיים של הטלפון על מנת לאמת את הניבויים המוצעים על ידי המערכת.

השלכות הרגולציה וההתפתחות העסקית בישראל

עבור עסקים, חברות סטארט-אפ ומנהלי טכנולוגיות בישראל, ההתקדמות בתחום של האצת מודלי בינה מלאכותית על המכשיר מהווה זרז משמעותי לפיתוח יישומים מאובטחים. לפי חוק הגנת הפרטיות הישראלי, חלה חובה מחמירה על ארגונים להגן על מידע רגיש של משתמשים ולקוחות. שליחת נתונים אישיים כמו היסטוריית שיחות, סיכומי פגישות רפואיות או מידע פיננסי לשרתי ענן חיצוניים עלולה לחשוף עסקים לסיכוני אבטחה ולקנסות רגולטוריים כבדים.

היכולת להריץ מודלים חזקים ומדויקים מקומית על טלפונים ניידים של עובדים או לקוחות פותרת את החסם הזה לחלוטין. ארגונים ישראליים במגזר הבריאות, הפיננסים והמשפט יכולים כעת להטמיע כלים מתקדמים לניתוח טקסט, סיכום אוטומטי של אינטראקציות, ואף הפעלת עוזרים דיגיטליים ישירות על מכשיר הקצה, תוך שמירה מלאה על פרטיות המידע בתוך גבולות המכשיר הפיזי של המשתמש.

מה לעשות עכשיו

מיפוי משימות לעיבוד מקומי: זהו אילו תהליכים בארגון שלכם כוללים טיפול במידע רגיש של לקוחות (כמו פרטי אשראי או שיחות תמיכה). שקלו להעביר משימות אלו לעיבוד מקומי על גבי מכשירי קצה באמצעות מודלים ייעודיים כמו Gemini Nano או Gemma, במקום להסתמך על APIs חיצוניים.
שילוב פתרונות אוטומציה היברידיים: חברו בין מנועי עיבוד מקומיים למערכות הליבה של הארגון. שימוש ב-פתרונות אוטומציה מותאמים מאפשר לסנכרן את המידע המעובד במכשיר ישירות למערכות ניהול הלקוחות הארגוניות כמו Zoho CRM בצורה בטוחה ומבוקרת.
בניית מודלי טיוטה ייעודיים: אם אתם מפתחים אפליקציות מובייל מורכבות, בחנו שילוב של טכנולוגיות פענוח ספקולטיבי (Speculative Decoding) או ארכיטקטורות Zero-Copy כדי להוריד את זמני ההשהיה (Latency) של היישומים שלכם ב-50% לפחות, תוך חיסכון בצריכת ה-RAM של מכשירי המשתמשים.

מבט קדימה אל עתיד מחשוב הקצה

צוותי הפיתוח של Google Research ו-DeepMind כבר בוחנים שלבים מתקדמים יותר הכוללים "פענוח מקביל" (Parallel decoding) המאפשר למודל לחקור מספר נתיבי חיזוי בו-זמנית, כמו גם "הקלה באימות" (Verification leniency) עבור מקרים שבהם אין חשיבות להתאמה מושלמת של כל אות ותו. האצת מודלי בינה מלאכותית על המכשיר היא אינה מגמה חולפת, אלא הבסיס לדור הבא של יישומי AI מהירים ובטוחים שיעצבו מחדש את האינטראקציה העסקית שלכם עם הלקוחות במכשירים הניידים שלהם.

שאלות ותשובות

שאלות נפוצות

הכתבה הוכנה על-ידי המערכת בליווי בינה מלאכותית: תרגום, סיכום והוספת הקשר עסקי ישראלי מתוך פרסום מקורי של Google Research. קראו על תהליך העריכה שלנו. קישור למקור המקורי.

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד מ־Google Research

כל הכתבות מ־Google Research

אחזור ידע במודלי שפה: כיצד תהליכי חשיבה משפרים דיוק עובדתי?

מחקר

אתמול

4 דקות

מ־Google Research

אחזור ידע במודלי שפה: כיצד תהליכי חשיבה משפרים דיוק עובדתי?

מחקר חדש של Google Research (זרוע המחקר של גוגל) חושף כי הפעלת מנגנוני חשיבה (Reasoning) במודלים כמו Gemini-2.5 (מודל השפה של גוגל) משפרת באופן עקבי את היכולת לבצע אחזור ידע במודלי שפה. החוקרים זיהו שני מנגנונים: באפר חישובי וצימוד עובדתי, המאפשרים למודל לאחזר עובדות פשוטות מתוך הזיכרון הפנימי ללא צורך בחישובים מורכבים או בחיפוש חיצוני. עם זאת, המחקר מזהיר כי הזיה בודדת בשלבי הביניים של החשיבה פוגעת דרמטית בדיוק התשובה הסופית.

Zorik Gekhman Jonathan Herzig Gemini-2.5

קרא עוד

מיפוי סביבתי באמצעות בינה מלאכותית: מפיקסלים לתכנון שיקום הטבע

מחקר

16 ביוני 2026

4 דקות

מ־Google Research

מיפוי סביבתי באמצעות בינה מלאכותית: מפיקסלים לתכנון שיקום הטבע

גוגל חשפה פריצת דרך בפרויקט Earth AI המאפשרת מעבר ממפות פיקסלים למידע וקטורי מפורט ברזולוציה של תת-מטר. המערכת שפותחה בשיתוף אוניברסיטת אוקספורד, מאפשרת מיפוי מדויק של גדרות חיות, קירות אבן וחורשות קטנות המהווים כלי קריטי לשיקום אקולוגי ולחישובי פחמן. עבור המגזר העסקי בישראל, טכנולוגיה זו מציעה הזדמנויות משמעותיות בתחומי הביטוח, הנדל״ן והחקלאות המדייקת, תוך התחשבות במגבלות חוק הגנת הפרטיות הישראלי.

Google Earth AI Google Earth Engine Leverhulme Centre for Nature Recovery

קרא עוד

אימות מחיקת מידע ממודלי בינה מלאכותית: פריצת הדרך של גוגל

מחקר

10 ביוני 2026

5 דקות

מ־Google Research

אימות מחיקת מידע ממודלי בינה מלאכותית: פריצת הדרך של גוגל

חוקרי Google Research הציגו בוועידת AISTATS 2026 מסגרת עבודה מהפכנית בשם Regularized f-Divergence Kernel Tests, המיועדת לבצע אימות מחיקת מידע ממודלי בינה מלאכותית. השיטה החדשה מתגברת על כשלי הבדיקות הדו-מדגמיות המסורתיות (כמו MMD), ומאפשרת למבקרים חיצוניים לזהות דליפות מידע מקומיות ברמת דיוק חסרת תקדים. באמצעות שימוש במדדי שונות מתקדמים כמו Hockey-stick divergence ורגולריזציה של ליבות, המערכת מזהה הפרות פרטיות תוך שימוש בכמה אלפי דגימות בלבד בהשוואה למיליוני דגימות שנדרשו בעבר בשיטות כמו DP-Auditorium. פיתוח זה מעניק לעסקים הפועלים תחת רגולציות פרטיות מחמירות כלי מתמטי מוכח להבטחת עמידה בדרישות החוק.

AISTATS 2026 Mónica Ribero Antonin Schrab

קרא עוד

גוגל חושפת את טכנולוגיית Agentic RAG לעסקים: דיוק חסר תקדים ל-AI

מחקר

16 ביוני 2026

4 דקות

מ־Google Research

גוגל חושפת את טכנולוגיית Agentic RAG לעסקים: דיוק חסר תקדים ל-AI

גוגל מציגה את Agentic RAG, ארכיטקטורת רב-סוכנים חדשה המשולבת בפלטפורמת Gemini Enterprise. בניגוד למערכות RAG מסורתיות המחזירות תשובות חלקיות כאשר המידע מבוזר, המנגנון החדש פועל בצורה איטרטיבית. המערכת מחלקת את השאילתה בין סוכנים מומחים (כמו סוכן תכנון וסוכן ניסוח מחדש) ומשתמשת ב'סוכן הקשר מספק' המבצע בקרת איכות קפדנית על תוצאות החיפוש. בבדיקות של גוגל על מאגר המידע FramesQA, המערכת הגיעה ל-90.1% דיוק בחיפושים מורכבים חוצי-מאגרים, תוך שמירה על מהירות מענה כמעט זהה (פגיעה של 3% בלבד בלייטנסי). הטכנולוגיה, הזמינה כעת בגרסת תצוגה מקדימה, פותחת עידן חדש של אמינות ודיוק עבור סוכני AI בארגונים.

Google Cloud Gemini Enterprise Agent Platform FramesQA

קרא עוד

עוד כתבות שיעניינו אותך

לכל הכתבות

טכנולוגיית מעקב שחקנים וניתוח נתונים: קטאר כמעבדת פיפ"א

מחקר

לפני 16 שעות

4 דקות

מ־Wired

טכנולוגיית מעקב שחקנים וניתוח נתונים: קטאר כמעבדת פיפ"א

על פי דיווח של מגזין WIRED (מגזין טכנולוגיה אמריקאי), מדינת קטאר הפכה למעבדת הניסויים הטכנולוגית המרכזית של FIFA (פדרציית הכדורגל הבינלאומית) לפיתוח טכנולוגיית מעקב שחקנים וניתוח נתונים המשמשת במונדיאל 2026. הניסויים, שהחלו בגביע הערב ב-2021, הציגו לעולם פיתוחים כמו הכדור המחובר של Adidas (תאגיד ספורט גרמני) המשדר נתונים בקצב של 500 הרץ, מערכת אופסייד חצי-אוטומטית, ומצלמות גוף לשופטים שנבחנו בגביע הבין-יבשתי ב-2024. טכנולוגיות אלו מאיצות את קבלת ההחלטות במגרש מרמת דקות לרמת אלפיות השנייה, ומספקות לשחקנים גישה ישירה למפות חום ומדדי ביצוע מיד לאחר המשחק באמצעות אפליקציה ייעודית.

FIFA Adidas FIFPRO

קרא עוד

מחקר

אתמול

4 דקות

מ־Google Research

אחזור ידע במודלי שפה: כיצד תהליכי חשיבה משפרים דיוק עובדתי?

Zorik Gekhman Jonathan Herzig Gemini-2.5

קרא עוד

פריצת דרך בבינה מלאכותית: טכנולוגיית קשב דליל למודלי שפה של Subquadratic

מחקר

19 ביוני 2026

4 דקות

מ־MIT Technology Review

פריצת דרך בבינה מלאכותית: טכנולוגיית קשב דליל למודלי שפה של Subquadratic

חברת הסטארט-אפ Subquadratic מציגה פריצת דרך מתמטית בארכיטקטורת מודלי השפה בעזרת פיתוח מודל SubQ המבוסס על מנגנון קשב דליל דינמי. על פי הערכה עצמאית של חברת Appen, המודל החדש מציג מהירות עיבוד גבוהה פי 56 מטכנולוגיית FlashAttention, תוך שמירה על רמת דיוק של 98% במבחני שליפת מידע מחלון הקשר עצום של 12 מיליון טוקנים. בנוסף, החברה מדווחת על הפחתת עלויות דרמטית של הפעלת המודל - 8 דולרים בלבד בהשוואה ל-2,600 דולר במודלים מובילים מקבילים עבור משימות ארוכות. אף על פי שהמודל טרם שוחרר לציבור הרחב ומבוסס בחלקו על משקולות מודל Qwen הסיני, התוצאות מציבות חלופה מבטיחה לארכיטקטורת ה-Transformer המסורתית.

Subquadratic SubQ Alex Whedon

קרא עוד

אמון הציבור בבינה מלאכותית: רק 16% מהציבור מביעים אופטימיות

מחקר

17 ביוני 2026

4 דקות

מ־TechCrunch

אמון הציבור בבינה מלאכותית: רק 16% מהציבור מביעים אופטימיות

סקר מקיף של מכון Pew Research (מכון מחקר אמריקאי מוביל) משנת 2026 חושף כי רק 16% מהמבוגרים בארה"ב מאמינים כי לבינה מלאכותית תהיה השפעה חיובית על החברה ב-20 השנים הבאות, בעוד ש-40% צופים השפעה שלילית. עם זאת, נתוני השימוש חושפים מציאות הפוכה: כ-44% מהנשאלים משתמשים כיום ב-ChatGPT של OpenAI (חברת בינה מלאכותית אמריקאית) – נתון שהכפיל את עצמו מאז 2023. הדו"ח מציג פער ניכר בין החשש הציבורי מקצב הפיתוח המהיר ומהיעדר רגולציה ממשלתית (67% ספקנים), לבין הטמעת הכלים הללו בפועל בחיי היומיום ובעבודה.

Pew Research OpenAI ChatGPT

קרא עוד