Skip to main content
Automaziot AI logo
  • Home
  • Blog
  • About
  • Contact
(646) 760-4854Book a Free Consultation
Automaziot AI - AI Automation and Intelligent Agents for Business

AI Automation Experts. We help businesses streamline operations and scale faster with intelligent agents and workflow automation.

USA(646) 760-4854Israel HQ+972-3-7630715info@automaziot.ai
Israel HQ: Ahad Ha'Am 9, Tel Aviv

Quick Links

  • Home
  • About
  • Contact
  • Case Studies
  • Glossary

Our Solutions

  • Lead Management
  • WhatsApp AI Agent
  • Business Automation
  • Smart CRM
  • Automated Scheduling
  • Sales & Support
  • WhatsApp Commerce
  • AI Agents
  • Tech Consulting

Stay Updated

Get the latest insights on AI automation delivered to your inbox.

FacebookInstagramLinkedIn

This site uses Google Analytics and Vercel Analytics to improve your experience. For full details, see our Privacy Policy

© 2026 Automaziot AI. All rights reserved.

Privacy PolicyTerms of ServiceAccessibilityEditorial Policy
סוכני AI בעבודה: בנצ'מרק Apex-Agents חושף כשלים
האם סוכני AI מוכנים לעבודה? בנצ'מרק חדש מעלה ספקות
ביתחדשותהאם סוכני AI מוכנים לעבודה? בנצ'מרק חדש מעלה ספקות
מחקר

האם סוכני AI מוכנים לעבודה? בנצ'מרק חדש מעלה ספקות

מחקר מ-Mercor בודק מודלים מובילים במשימות אמיתיות מייעוץ, בנקאות השקעות ומשפט – ומגלה כישלון חלקי

צוות אוטומציות AIצוות אוטומציות AI
22 בינואר 2026
4 דקות קריאה

תגיות

MercorApex-AgentsBrendan FoodyGemini 3 FlashGPT-5.2OpenAI

נושאים קשורים

#סוכני AI#בנצ'מרקי AI#אוטומציית עבודה#למידת מכונה#מקצועות יוקרה
מבוסס על כתבה שלTechCrunch ↗·תרגום, סיכום והקשר עסקי על-ידי המערכתאיך אנחנו עובדים

✨תקציר מנהלים

Key Takeaways

  • מודלים מובילים כמו Gemini 3 Flash מגיעים ל-24% דיוק במשימות ייעוץ, בנקאות ומשפט

  • האתגר העיקרי: חשיבה רב-דומיינית על פני כלים כמו Slack ו-Google Drive

  • שיפור מהיר צפוי, כמו מתמחה שמשתפר משנה לשנה

  • הבנצ'מרק Apex-Agents פתוח לאתגר לצוותי AI

האם סוכני AI מוכנים לעבודה? בנצ'מרק חדש מעלה ספקות

  • מודלים מובילים כמו Gemini 3 Flash מגיעים ל-24% דיוק במשימות ייעוץ, בנקאות ומשפט
  • האתגר העיקרי: חשיבה רב-דומיינית על פני כלים כמו Slack ו-Google Drive
  • שיפור מהיר צפוי, כמו מתמחה שמשתפר משנה לשנה
  • הבנצ'מרק Apex-Agents פתוח לאתגר לצוותי AI

בעידן שבו מנכ"ל מיקרוסופט סאטיה נאדלה ניבא לפני כמעט שנתיים ש-AI יחליף עבודות ידע, השינוי במקצועות הלבנים הצווארון מגיע לאט. מודלים מתקדמים מצטיינים במחקר מעמיק ותכנון סוכני, אך רוב העבודה המשרדית נשארה ללא שינוי. כעת, מחקר חדש מחברת Mercor, ענקית נתוני אימון, חושף תשובות למסתורין הזה דרך בנצ'מרק חדש בשם Apex-Agents.

הבנצ'מרק בוחן כיצד מודלי AI מובילים מתמודדים עם משימות עבודה משרדית אמיתיות מתחומי ייעוץ, בנקאות השקעות ומשפט. לפי הדיווח, אפילו המודלים הטובים ביותר הצליחו לענות נכון על פחות מרבע מהשאלות. רוב הפעמים, המודלים סיפקו תשובה שגויה או לא סיפקו תשובה כלל. חוקר המחקר, ברנדן פודי, מציין כי הנקודה החלשה העיקרית היא איתור מידע על פני דומיינים מרובים – משהו חיוני לעבודת ידע אנושית.

פודי מסביר: "שינוי גדול בבנצ'מרק הזה הוא שבנינו סביבה שלמה, המדמה את אופן העבודה בשירותים מקצועיים אמיתיים". במציאות, אנשי מקצוע פועלים על פני Slack, Google Drive ומספר כלים נוספים. עבור סוכני AI רבים, חשיבה רב-דומיינית כזו עדיין בלתי יציבה. התרחישים נלקחו ממקצוענים אמיתיים בשוק המומחים של Mercor, שגם הגדירו את הסטנדרט להצלחה. השאלות, שפורסמו בפומבי ב-Hugging Face, מדגימות מורכבות גבוהה.

דוגמה: בשאלת משפט, במהלך 48 הדקות הראשונות של תקלה בייצור באיחוד האירופי, צוות ההנדסה של Northstar ייצא קבצי לוגים עם נתוני אישיים לאמריקה. האם זה עומד במדיניות החברה ובסעיף 49? התשובה נכונה היא כן, אך דורשת ניתוח מעמיק של מדיניות החברה וחוקי פרטיות האיחוד. משימות כאלה מדמות עבודה אמיתית, ואם LLM יצליח בהן באופן אמין, הוא יוכל להחליף עורכי דין רבים.

פודי אומר: "זה כנראה הנושא הכי חשוב בכלכלה". הבנצ'מרק משקף עבודה אמיתית. לעומת זאת, בנצ'מרק GDPVal של OpenAI בודק ידע כללי על פני מקצועות רבים, בעוד Apex-Agents מתמקד בביצוע משימות מתמשכות במקצועות ערך גבוה ספציפיים. התוצאה קשה יותר, אך קרובה יותר לשאלה אם העבודות הללו ניתנות לאוטומציה.

בדיקות הראו כי Gemini 3 Flash הוביל עם 24% דיוק ב-one-shot, אחריו GPT-5.2 עם 23%. Opus 4.5, Gemini 3 Pro ו-GPT-5 השיגו כ-18%. אף מודל לא מוכן להחליף בנקאי השקעות, אך חלקם קרובים יותר. תחום ה-AI ידוע בשבירת בנצ'מרקים מאתגרים, וכעת Apex-Agents פתוח לאתגר לצוותי AI.

פודי מציין שיפור מהיר: "כרגע זה כמו מתמחה שמצליח פעם ברבע, אבל בשנה שעברה זה היה 5-10%. שיפור כזה משנה הכל במהירות". עבור מנהלי עסקים ישראלים, זה אומר לבחון סוכני AI למשימות ספציפיות, אך לא להחליף צוותים מלאים עדיין. השקעה בפיתוח יכולה להאיץ אימוץ.

הבנצ'מרק הזה מעלה שאלה: מתי סוכני AI יהיו מוכנים באמת? עסקים צריכים להתכונן – לבדוק כלים, לאמן עובדים ולהשקיע באימון מותאם.

שאלות ותשובות

FAQ

רוצים ליישם את זה בעסק שלכם?

באוטומציות AI אנחנו בונים סוכני AI ואוטומציות לעסקים בישראל. ראו את השירותים הרלוונטיים:

  • אוטומציה לעסקיםחיבור מערכות, חשבוניות ודשבורדים
  • בוט וואטסאפ לעסקWhatsApp Business API בישראל
  • סוכני AI לעסקיםסוכנים שמטפלים בלידים, שיחות ו-CRM
  • ניהול לידים אוטומטימענה מיידי, ניקוד וסינון אוטומטי

הכתבה הוכנה על-ידי המערכת בליווי בינה מלאכותית: תרגום, סיכום והוספת הקשר עסקי ישראלי מתוך פרסום מקורי של TechCrunch. קראו על תהליך העריכה שלנו. קישור למקור המקורי.

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד מ־TechCrunch

כל הכתבות מ־TechCrunch
איסוף נתוני אימון לרובוטים: צוואר הבקבוק הבא של ה-AI נחשף
חדשות
לפני שעה
4 דקות
·מ־TechCrunch

איסוף נתוני אימון לרובוטים: צוואר הבקבוק הבא של ה-AI נחשף

חברת XDOF (סטארטאפ אמריקאי המפתח תשתיות נתונים לרובוטיקה) נחשפת עם גיוס של 70 מיליון דולר מקרנות כמו a16z ו-Thrive Capital במטרה לפתור את מחסור הנתונים החמור המעכב את פיתוח הרובוטיקה התבונית. בעוד שמודלי שפה מאומנים על טקסט דיגיטלי, בינה מלאכותית פיזית דורשת נתוני אינטראקציה אמיתיים שאינם קיימים ברשת. XDOF מציעה פירמידת נתונים מקיפה המשלבת הפעלה מרחוק ומערכות ניקוי ותיוג, שכבר משרתת כ-20 לקוחות מובילים בתעשייה כולל מעבדות AI מובילות, ומספקת פתרון לצוואר בקבוק קריטי זה.

XDOFOpenAIPhilippe Wu
קרא עוד
חוות שרתים לבינה מלאכותית: מרוץ ההשקעות הענק בהודו
חדשות
לפני 3 שעות
4 דקות
·מ־TechCrunch

חוות שרתים לבינה מלאכותית: מרוץ ההשקעות הענק בהודו

ענקית הפנסיה הקנדית CPP Investments (קרן השקעות הפנסיה של קנדה) נכנסת למרוץ תשתיות הבינה המלאכותית בהודו עם השקעה של עד 70 מיליארד רופי (כ-741 מיליון דולר) במפעילת חוות השרתים CtrlS (מפעילת חוות שרתים הודית). במסגרת העסקה, CPP תרכוש 8.2% מהחברה ותקים מיזם משותף לפיתוח קמפוסים של חוות שרתים לבינה מלאכותית ומחשוב ענן בהיקף "היפר-סקייל" (Hyperscale). המהלך מצטרף להשקעות ענק של חברות כמו Meta (ענקית המדיה החברתית האמריקאית) ו-AirTrunk (חברת תשתיות חוות שרתים), המאיצות את בניית התשתיות הפיזיות הנדרשות לעומסי עבודה של AI. עבור עסקים, צמיחה זו צפויה להוזיל את עלויות המחשוב ולשפר את ביצועי הכלים האוטומטיים ברחבי העולם.

CPP InvestmentsCtrlSAirTrunk
קרא עוד
תרגום שמע בזמן אמת: DeepL רוכשת את הסטארט-אפ Mixhalo
חדשות
לפני 3 שעות
4 דקות
·מ־TechCrunch

תרגום שמע בזמן אמת: DeepL רוכשת את הסטארט-אפ Mixhalo

חברת הבינה המלאכותית הגרמנית DeepL (דיפאיל) רכשה את הסטארט-אפ האמריקאי Mixhalo (מיקסהאלו), המתמחה בהזרמת שמע בזמן אמת, במטרה לשלב את פתרונות תרגום הקול שלה באירועים המוניים וכנסים פיזיים. Mixhalo, שנוסדה ב-2016 וגייסה מעל 39 מיליון דולר, מביאה עמה טכנולוגיה ייחודית המאפשרת הזרמת שמע ללא שיהוי ישירות למכשירים הניידים של הקהל. הרכישה תאפשר ל-DeepL להציע פתרונות תרגום שמע בזמן אמת באירועים חיים, ותחרה ישירות מול פלטפורמות כמו Wordly AI. בעקבות הרכישה, DeepL פותחת משרד חדש באזור מפרץ סן פרנסיסקו להרחבת פעילותה בארצות הברית.

DeepLMixhaloJarek Kutylowski
קרא עוד
אימוץ מודל קלוד במגזר העסקי: כיצד העימות עם הממשל משרת את אנתרופיק?
ניתוח
לפני 17 שעות
5 דקות
·מ־TechCrunch

אימוץ מודל קלוד במגזר העסקי: כיצד העימות עם הממשל משרת את אנתרופיק?

מאבק משפטי ורגולטורי חדש בין ממשל טראמפ לחברת הבינה המלאכותית אנתרופיק (Anthropic) עשוי דווקא להגביר את הפופולריות שלה במגזר העסקי. לאחר שהממשל דרש לחסום גישת זרים למודלים החדשים Mythos 5 ו-Fable 5 בשל חששות אבטחה ויכולות כתיבת קוד מתקדמות, נאלצה החברה להסירם זמנית מהשוק. עם זאת, נתוני חברת Ramp המבוססים על מעל 70,000 עסקים מראים כי אנתרופיק עקפה לראשונה את OpenAI בנתח מנויי ה-AI העסקיים, והגיעה ל-41% בחודש מאי. הילה זו של מודל 'מסוכן ומאובטח מדי' מושכת ארגונים המעוניינים לשלב מודלי שפה חזקים, ומדגישה את הצורך של עסקים ישראליים בבניית תשתית מרובת מודלים גמישה וחסינה מפני שינויי רגולציה.

AnthropicOpenAIRamp
קרא עוד

עוד כתבות שיעניינו אותך

לכל הכתבות
מיפוי סביבתי באמצעות בינה מלאכותית: מפיקסלים לתכנון שיקום הטבע
מחקר
לפני 21 שעות
4 דקות
·מ־Google Research

מיפוי סביבתי באמצעות בינה מלאכותית: מפיקסלים לתכנון שיקום הטבע

גוגל חשפה פריצת דרך בפרויקט Earth AI המאפשרת מעבר ממפות פיקסלים למידע וקטורי מפורט ברזולוציה של תת-מטר. המערכת שפותחה בשיתוף אוניברסיטת אוקספורד, מאפשרת מיפוי מדויק של גדרות חיות, קירות אבן וחורשות קטנות המהווים כלי קריטי לשיקום אקולוגי ולחישובי פחמן. עבור המגזר העסקי בישראל, טכנולוגיה זו מציעה הזדמנויות משמעותיות בתחומי הביטוח, הנדל״ן והחקלאות המדייקת, תוך התחשבות במגבלות חוק הגנת הפרטיות הישראלי.

Google Earth AIGoogle Earth EngineLeverhulme Centre for Nature Recovery
קרא עוד
שילוב בינה מלאכותית במסרים שיווקיים פוגע באמון הלקוחות
מחקר
לפני 23 שעות
4 דקות
·מ־TechCrunch

שילוב בינה מלאכותית במסרים שיווקיים פוגע באמון הלקוחות

סקר חדש של חברת WordPress VIP חושף כי 60% מהצרכנים בארה"ב מרגישים רתיעה ממותגים המשתמשים במילה "AI" במסרים השיווקיים שלהם. בעוד שחברות ממהרות לבצע אופטימיזציה למנועי חיפוש מבוססי בינה מלאכותית, פער האמון הולך וגדל: 86% מהצרכנים אינם נותנים אמון מלא בתשובות ה-AI ומעדיפים מקורות מידע מקוריים ואנושיים. המחקר מדגיש את החשיבות ההולכת וגוברת של שמירה על שקיפות וייחוס מקורות (Attribution) ברשת האינטרנט, המרגישה כיום 'פחות אנושית' עבור 74% מהגולשים. עבור עסקים ישראליים, הממצאים מהווים תמרור אזהרה מפני שיווק-יתר טכנולוגי ומדגישים את הצורך בשימור החיבור האנושי בקדמת הבמה, לצד שילוב אוטומציות חכמות מאחורי הקלעים.

WordPress VIPAutomatticBrian Alvey
קרא עוד
פענוח תצלומי לוויין באמצעות בינה מלאכותית: מהפכת עיבוד הנתונים בחלל
מחקר
לפני 2 ימים
4 דקות
·מ־TechCrunch

פענוח תצלומי לוויין באמצעות בינה מלאכותית: מהפכת עיבוד הנתונים בחלל

פריצת דרך היסטורית נרשמה באפריל 2026, כאשר לוויין התצפית Yam-9 של חברת Loft Orbital הצליח לזהות ולפענח עצמים על פני כדור הארץ באופן עצמאי לחלוטין. באמצעות שימוש במעגל מחשוב קצה המבוסס על מעבד Nvidia Jetson Orin AGX ומעטפת התוכנה NAVI-Orbital שפותחה על ידי מעבדת JPL של נאס"א, הלוויין הריץ את מודל השפה-חזותי (VLM) מסוג Gemma 3 של Google DeepMind. פיתוח זה מאפשר ניתוח וסינון ראשוני של נתונים חזותיים מורכבים ישירות בחלל, ומקטין דרמטית את הצורך בהורדת נפחי מידע גולמי עצומים לקרקע. עבור עסקים ותעשיות בישראל כגון חקלאות מדויקת וביטחון מולדת, פריצת הדרך מסמנת מעבר לעיבוד נתונים מהיר, חסכוני ומבוזר המבוסס על בינה מלאכותית.

Loft OrbitalNASAJPL
קרא עוד
אימות מחיקת מידע ממודלי בינה מלאכותית: פריצת הדרך של גוגל
מחקר
לפני 6 ימים
5 דקות
·מ־Google Research

אימות מחיקת מידע ממודלי בינה מלאכותית: פריצת הדרך של גוגל

חוקרי Google Research הציגו בוועידת AISTATS 2026 מסגרת עבודה מהפכנית בשם Regularized f-Divergence Kernel Tests, המיועדת לבצע אימות מחיקת מידע ממודלי בינה מלאכותית. השיטה החדשה מתגברת על כשלי הבדיקות הדו-מדגמיות המסורתיות (כמו MMD), ומאפשרת למבקרים חיצוניים לזהות דליפות מידע מקומיות ברמת דיוק חסרת תקדים. באמצעות שימוש במדדי שונות מתקדמים כמו Hockey-stick divergence ורגולריזציה של ליבות, המערכת מזהה הפרות פרטיות תוך שימוש בכמה אלפי דגימות בלבד בהשוואה למיליוני דגימות שנדרשו בעבר בשיטות כמו DP-Auditorium. פיתוח זה מעניק לעסקים הפועלים תחת רגולציות פרטיות מחמירות כלי מתמטי מוכח להבטחת עמידה בדרישות החוק.

AISTATS 2026Mónica RiberoAntonin Schrab
קרא עוד