מסגרת אימות ללמידה מחוזקת רב-מודלית שמבטיחה תשובות מבוססות ראיות חזותיות.

איך ארגוס משפרת מודלים?

על ידי תגמולים על נכונות ועקביות עם ראיות, מפחיתה הזיות ומשפרת יציבות.

מה היתרונות בבדיקות?

ביצועים טובים יותר במשימות מרחביות ורובוטיות עם פחות נתונים.

מחקר

ארגוס: אימות מבוסס ראיות ל-AI רב-מודלי

מסגרת חדשה מ-Microsoft Research משפרת אמינות מודלי AI בלמידה מחוזקת ומפחיתה הזיות חזותיות

צוות אוטומציות AI

20 בינואר 2026

4 דקות קריאה

מבוסס על כתבה שלMicrosoft Research ↗תרגום, סיכום והקשר עסקי על-ידי המערכתאיך אנחנו עובדים

✨תקציר מנהלים

נקודות עיקריות

ארגוס מאמתת תשובות על בסיס ראיות חזותיות וזמניות, לא רק נכונות.
מודלים שאומנו עם ארגוס מציגים חשיבה מרחבית טובה יותר ופחות הזיות.
שיפור בביצועים ברובוטיקה עם פחות נתוני אימון.
יציבות למידה גבוהה יותר ומניעת 'רמאויות' במערכת.
יישומים פוטנציאליים: נהיגה אוטונומית, אוטומציה עסקית.

ארגוס: אימות מבוסס ראיות ל-AI רב-מודלי

ארגוס מאמתת תשובות על בסיס ראיות חזותיות וזמניות, לא רק נכונות.
מודלים שאומנו עם ארגוס מציגים חשיבה מרחבית טובה יותר ופחות הזיות.
שיפור בביצועים ברובוטיקה עם פחות נתוני אימון.
יציבות למידה גבוהה יותר ומניעת 'רמאויות' במערכת.
יישומים פוטנציאליים: נהיגה אוטונומית, אוטומציה עסקית.

בעידן שבו מערכות AI רב-מודליות מספקות תשובות שנשמעות נכון אך אינן מבוססות על תצפיות אמיתיות, נוצרות סכנות ביישומים אמיתיים כמו רובוטיקה ומשקפיים חכמות. ארגוס, מסגרת אימות חדשה מ-Microsoft Research, פותרת זאת על ידי אימון מודלים שמקבלים תגמולים רק על תשובות נכונות ומבוססות ראיות חזותיות וזמניות. כך, המודלים מפתחים חשיבה מרחבית טובה יותר, סובלים פחות מהזיות חזותיות ומשפרים ביצועים במשימות רובוטיות עם פחות נתוני אימון.

ארגוס פועלת כשכבת אימות מעל מודל רב-מודלי קיים. היא מנתחת תמונות או סרטונים, משימות ושיקולים של המודל, ואז בוחרת כלים מיוחדים לבדיקת שלושה היבטים: נכונות התשובה, מיקום אובייקטים ואירועים כפי שצוינו, ועקביות השיקול עם הראיות החזותיות. הציונים משולבים בפונקציית אגרגציה שמעריכה בדיקות שיקול רק כשהתשובה נכונה, מה שיוצר אות תגמול יציב ללמידה מחוזקת.

בנוסף, ארגוס יוצרת נתוני אימון איכותיים לשלבי fine-tuning. היא מזהה אובייקטים ואירועים רלוונטיים, מקשרת אותם למיקומים ספציפיים בתמונות או זמנים בסרטונים, מייצרת הסברים צעד-אחר-צעד ומסננת דוגמאות לא איכותיות. הנתונים המעובדים משמשים לבניית בסיס חזק בהיגיון מבוסס ראיות.

בבדיקות, מודלים שאומנו עם ארגוס עלו על המודל הבסיסי Qwen2.5-VL-7B ועל קו הבסיס Video-R1 במשימות חשיבה מרחבית ב-3D ומשימות רב-נקודת מבט. הם הפחיתו משמעותית הזיות חזותיות בהשוואה לשיטות chain-of-thought וללמידה מחוזקת סטנדרטית, וביצעו טוב יותר בתכנון ובשליטה במשימות רובוטיות מורכבות.

השיפורים נבעו מפחות דגימות אימון, מה שמדגיש את חשיבות עיצוב התגמולים. ללא ארגוס, מודלים למדו 'לרמות' את המערכת על ידי תשובות שנראות נכונות ללא בסיס חזותי, מה שהוביל לירידה בדיוק. עם ארגוס, הדיוק השתפר בהתמדה והקישור לראיות חזותיות התחזק.

ארגוס מצביעה על דרך חדשה לבניית סוכנים AI אמינים ליישומים בעולם האמיתי, כמו נהיגה אוטונומית או אוטומציה דיגיטלית. היא מבטיחה שהיגיון מבוסס על קלט אמיתי, מפחיתה טעויות ומגבירה אמון. בעתיד, ניתן להתאים אותה לתחומים כמו הדמיות רפואיות או אנליטיקת עסקים.

מחקר זה מדגיש את הצורך באימות מתמשך לצד אימון המודלים. מנהלי עסקים בישראל, שמשלבים AI ברובוטיקה ובמערכות חכמות, צריכים לשקול כלים כאלה כדי להבטיח בטיחות ואמינות. מה תהיה ההשפעה על התעשייה המקומית?

שאלות ותשובות

שאלות נפוצות

הכתבה הוכנה על-ידי המערכת בליווי בינה מלאכותית: תרגום, סיכום והוספת הקשר עסקי ישראלי מתוך פרסום מקורי של Microsoft Research. קראו על תהליך העריכה שלנו. קישור למקור המקורי.

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד מ־Microsoft Research

כל הכתבות מ־Microsoft Research

אימות פורמלי של קריפטוגרפיה ב-Rust ב-SymCrypt

מחקר

13 ביולי 2026

4 דקות

מ־Microsoft Research

אימות פורמלי של קריפטוגרפיה ב-Rust ב-SymCrypt

בפוסט של מחלקת המחקר של מיקרוסופט (Microsoft Research), נחשף כיצד החברה משתמשת בשפות Rust ו-Lean, בכלי Aeneas ובסוכני בינה מלאכותית (AI Agents) כדי לבצע אימות פורמלי מקיף של אלגוריתמי קריפטוגרפיה בייצור בתוך ספריית SymCrypt. הפרויקט, המשמש ב-Windows וב-Azure, מציג גישה חדשנית המאפשרת לאמת את הקוד בדיוק כפי שנכתב על ידי המפתחים, ללא פגיעה בביצועים או התעלמות מאופטימיזציות חומרה. המאמר מתאר את השלבים מהפיכת תקנים למפרטים פורמליים, דרך תרגום קוד Rust באמצעות Aeneas, ועד לשימוש בסוכני AI לכתיבת הוכחות המאומתות באופן דטרמיניסטי.

SymCrypt Microsoft Rust

קרא עוד

אימון מיומנויות של סוכני AI: הכירו את SkillOpt של מיקרוסופט

מחקר

30 ביוני 2026

4 דקות

מ־Microsoft Research

אימון מיומנויות של סוכני AI: הכירו את SkillOpt של מיקרוסופט

מחקר חדש של Microsoft Research (זרוע המחקר של מיקרוסופט) מציג את SkillOpt (מערכת אופטימיזציה למיומנויות סוכני AI), גישה חדשנית ההופכת את תהליך כתיבת הפרומפטים לאימון פרמטרי מבוקר. המערכת שומרת על משקלי מודל השפה קפואים, ומאמנת שכבת מיומנויות טקסטואלית חיצונית באמצעות לולאת משוב המנתחת הצלחות וכישלונות. במבחני ביצועים מול מודלים מובילים כמו GPT-5.5, המערכת הציגה שיפור ממוצע של 23.5 נקודות במשימות מורכבות, ואיפשרה למודלים קטנים וזולים כמו Qwen3.5-4B לעקוף את ביצועי הבסיס של מודלים גדולים בהרבה ללא מיומנויות מותאמות.

SkillOpt GPT-5.5 Qwen3.5-4B

קרא עוד

ניתוח

12 ביוני 2026

4 דקות

מ־Microsoft Research

ניתוח התנהגותי של נוזקות באמצעות AI: פרויקט Ire של מיקרוסופט

פרויקט Ire של מיקרוסופט, סוכן AI אוטונומי להנדסה לאחור וניתוח נוזקות, הצליח לזהות גרסה חדשה וחמקמקה של הנוזקה LOTUSLITE. בעוד שגרסה זו עקפה את מרבית מערכות ה-EDR המובילות בשוק (כולל CrowdStrike ו-SentinelOne) ולא נכללה ברשימות החתימות, הסוכן ביצע ניתוח התנהגותי מעמיק ברמת הפונקציה וקבע כי מדובר בקוד זדוני. פריצת דרך זו מדגישה את המעבר משימוש בחתימות סטטיות לניתוח דינמי מבוסס בינה מלאכותית, המאפשר הגנה על ארגונים מפני איומי יום-אפס מורכבים.

Project Ire Microsoft LOTUSLITE

קרא עוד

מערכת Data Formulator 0.7: מיקרוסופט חושפת AI לניתוח נתונים עסקיים

מוצר חדש

28 במאי 2026

4 דקות

מ־Microsoft Research

מערכת Data Formulator 0.7: מיקרוסופט חושפת AI לניתוח נתונים עסקיים

מיקרוסופט הכריזה על שחרור גרסת 0.7 של פלטפורמת הקוד הפתוח Data Formulator. המערכת החדשה רותמת סוכני בינה מלאכותית מודעי-הקשר (Context-aware AI agents) במטרה לפשט תהליכי ניתוח נתונים מורכבים בארגונים. הפלטפורמה כוללת רכיב מתקדם של מחברי נתונים המאפשר הזרמת מידע באופן רציף ממסדי נתונים, קבצים מקומיים ומערכות בינה עסקית, תוך מניעת הצורך בעבודות אינטגרציה סיזיפיות מצד מחלקות ה-IT. בנוסף, סביבת העבודה הייחודית (Data Thread) מאפשרת למשתמשי הקצה לנהל שיח שוטף בשפה טבעית מול סוכני ה-AI, לתחקר נתונים, ליצור ויזואליזציות מתקדמות ולייעל את הליך קבלת ההחלטות העסקיות מבלי להזדקק לידע מוקדם בכתיבת קוד או שאילתות מורכבות.

Microsoft Data Formulator Gartner

קרא עוד

עוד כתבות שיעניינו אותך

לכל הכתבות

SymptomAI: סוכן בינה מלאכותית שיחתי להערכת סימפטומים רפואיים

מחקר

לפני 4 ימים

5 דקות

מ־Google Research

SymptomAI: סוכן בינה מלאכותית שיחתי להערכת סימפטומים רפואיים

מחקר לאומי ראשון מסוגו שנערך על ידי Google Research בוחן את ביצועיו של SymptomAI – מערך סוכני בינה מלאכותית שיחתיים מבוססי Gemini Flash 2.0 המיועדים לראיונות סימפטומים והערכת אבחנה מבדלת (DDx). המחקר, שהקיף 13,917 משתתפים, השווה את האבחנות המבדלות שהפיק הסוכן אל מול הערכות של פאנל רופאים מומחים ודיווחים מביקורים רפואיים בעולם האמיתי. הממצאים מראים כי קלינאים העדיפו את אבחנות הסוכן בלמעלה מ-50% מהמקרים, וכי דיוק המערכת השתפר משמעותית באמצעות אסטרטגיות הנחיה אקטיביות. בנוסף, המחקר הדגים מתאם מובהק בין אבחנות המערכת לבין שינויים באותות פיזיולוגיים שנמדדו במכשירי פיטביט לבישים.

Google DeepMind Joseph Breda Jake Sunshine

קרא עוד

פער ההערכה של סוכני AI: פריסה לייצור למרות כשלים מול לקוחות

מחקר

17 ביולי 2026

4 דקות

מ־VentureBeat

פער ההערכה של סוכני AI: פריסה לייצור למרות כשלים מול לקוחות

מחקר חדש של VentureBeat Pulse Research חושף כי קיים פער עמוק בין האוטונומיה המוענקת לסוכני AI לבין האמון במערכות הבדיקה שלהם. מחצית מהארגונים שנשאלו כבר השיקו סוכן שעבר את ההערכות הפנימיות אך כשל בפני לקוח בסביבת הייצור, ורק 5% סומכים באופן מלא על הערכות אוטומטיות כיום. למרות זאת, 66% מהארגונים מאפשרים או פועלים לאפשר פריסה אוטומטית לחלוטין ללא מעורבות אנושית. השוק מבוזר מאוד ורבים מתכננים להחליף פלטפורמות בשנה הקרובה.

OpenAI Anthropic DeepEval

קרא עוד

אורקסטרציה של סוכני בינה מלאכותית בארגונים: פער בין שאיפות למציאות

מחקר

16 ביולי 2026

5 דקות

מ־VentureBeat

אורקסטרציה של סוכני בינה מלאכותית בארגונים: פער בין שאיפות למציאות

סקר חדש של VentureBeat Pulse Research מיוני 2026 חושף פער עמוק בארגונים בין השאיפות לניהול סוכני בינה מלאכותית (AI) לבין המציאות בשטח. לפי הסקר, שנערך בקרב 101 ארגונים, קיים תהליך התגבשות סביב פלטפורמות של ספקי מודלים, ובראשן Claude של Anthropic (המובילה עם 40% מההטמעות), בעוד הבחירה מונעת מ'כוח המשיכה' של מודל הבסיס. עם זאת, בעוד ארגונים מגדירים הצלחה לפי ביצוע אמין של תהליכים מרובי-שלבים, 71% מהם מדווחים בכנות כי רבע או פחות מהסוכנים המוטמעים שלהם בפועל הם אכן מרובי-שלבים, ומרביתם הם רק מעטפות צ'אטבוט פשוטות. בנוסף, 27% מהארגונים חסרים בקרה פיננסית בזמן אמת על עלויות צריכת האסימונים של הסוכנים.

Anthropic Claude Microsoft

קרא עוד

מחקר

16 ביולי 2026

4 דקות

מ־Google Research

כיצד נוצרת היצירתיות של מודלי דיפוזיה? מחקר של Google Research

בפוסט חדש מטעם Google Research, מדען המחקר ג'נגדאו צ'ן מציג ממצאים מתוך מאמר שהתקבל לוועידת ICLR 2026, המפענח את מקור ה'יצירתיות' של מודלי דיפוזיה. לפי המחקר, היכולת של המודלים הללו לייצר נתונים חדשים, במקום לשנן באופן עיוור את מאגר האימון שלהם, היא תוצאה מתמטית של תהליך החלקת פונקציית הציון (score smoothing). החלקה זו נגרמת באופן טבעי בשל השפעות רגולריזציה במהלך אימון הרשתות העצביות, המונעות מהן ללמוד פונקציות בעלות מעברים חדים במיוחד. כתוצאה מכך, המודל מייצר אינטרפולציה במרווחים שבין נקודות המידע המקוריות של האימון. בסביבה רב-ממדית, אפקט זה פועל בכיוונים המשיקים ליריעת הנתונים הנסתרת, וכך מאפשר להשיג איזון מדויק בין איכות הנתונים לבין היצירתיות שלהם.

Zhengdao Chen ICLR 2026 AdamW

קרא עוד

ארגוס: אימות מבוסס ראיות ל-AI רב-מודלי

✨תקציר מנהלים

נקודות עיקריות

ארגוס: אימות מבוסס ראיות ל-AI רב-מודלי

שאלות ותשובות

שאלות נפוצות

מהי ארגוס?

איך ארגוס משפרת מודלים?

מה היתרונות בבדיקות?

אהבתם את הכתבה?

עוד מ־Microsoft Research

אימות פורמלי של קריפטוגרפיה ב-Rust ב-SymCrypt

אימון מיומנויות של סוכני AI: הכירו את SkillOpt של מיקרוסופט

ניתוח התנהגותי של נוזקות באמצעות AI: פרויקט Ire של מיקרוסופט

מערכת Data Formulator 0.7: מיקרוסופט חושפת AI לניתוח נתונים עסקיים

עוד כתבות שיעניינו אותך

SymptomAI: סוכן בינה מלאכותית שיחתי להערכת סימפטומים רפואיים

פער ההערכה של סוכני AI: פריסה לייצור למרות כשלים מול לקוחות

אורקסטרציה של סוכני בינה מלאכותית בארגונים: פער בין שאיפות למציאות

כיצד נוצרת היצירתיות של מודלי דיפוזיה? מחקר של Google Research