בחירת מטרות של מודלי שפה: למה GPT ו-Claude לא חושבים כמו אנשים

8 במרץ 2026

6 דקות

מ־arXiv cs.AI

בחירת מטרות של מודלי שפה: למה GPT ו-Claude לא חושבים כמו אנשים

**בחירת מטרות על ידי מודל שפה אינה שקולה לשיקול דעת אנושי.** מחקר חדש ב-arXiv מצא כי GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5 ו-Centaur סטו באופן משמעותי מהדרך שבה בני אדם בוחרים מטרות במשימת למידה פתוחה. לפי הדיווח, בני אדם חקרו בהדרגה והפגינו שונות, בעוד שמודלים רבים נצמדו לפתרון יחיד או הציגו ביצועים חלשים. עבור עסקים בישראל, המשמעות ברורה: אפשר להשתמש ב-AI כדי להציע אפשרויות, לדרג פניות ולבצע פעולות דרך WhatsApp, CRM ו-N8N — אבל לא כדאי למסור לו לבדו החלטות על תיעדוף, הקצאת משאבים או שינוי מטרה עסקית. המודל צריך לפעול בתוך מסגרת בקרה אנושית.

GPT-5 Gemini 2.5 Pro Claude Sonnet 4.5

קרא עוד

Perplexity Computer לעסקים: למה מודלים מרובים משנים עבודה

ניתוח

9 במרץ 2026

6 דקות

מ־TechCrunch

Perplexity Computer לעסקים: למה מודלים מרובים משנים עבודה

**Perplexity Computer הוא סוכן מחשב בענן שמפעיל 19 מודלי AI כדי לבצע משימות מורכבות דרך מערכת אחת.** לפי הדיווח, הכלי זמין במסלול Max ב-200 דולר לחודש וממחיש מגמה חשובה: השוק עובר ממודל יחיד לשכבת תזמור שבוחרת אוטומטית איזה מנוע מתאים למחקר, קוד, ניתוח מסמכים או ויזואליזציה. עבור עסקים בישראל, הערך האמיתי אינו במספר המודלים אלא ביכולת לחבר אותם לתהליך עסקי סגור עם WhatsApp Business API, Zoho CRM ו-N8N. ההמלצה המעשית היא להתחיל בפיילוט של 14-30 יום על תהליך אחד, עם KPI ברור, בדיקת הרשאות ורגולציה, ושקיפות מלאה לגבי עלויות, מודלים ושמירת נתונים.

Perplexity Perplexity Computer Perplexity Max

קרא עוד

PlotChain לקריאת גרפים הנדסיים: בנצ'מרק דטרמיניסטי שמבדיל בין MLLM טוב למצוין

ניתוח

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

PlotChain לקריאת גרפים הנדסיים: בנצ'מרק דטרמיניסטי שמבדיל בין MLLM טוב למצוין

PlotChain הוא בנצ'מרק דטרמיניסטי שמודד עד כמה מודלים מולטימודליים (MLLMs) מצליחים לקרוא גרפים הנדסיים ולהחזיר ערכים מספריים מדויקים ב-JSON, במקום להסתפק ב-OCR או תיאור חופשי. לפי ה-preprint (arXiv:2602.13232v1), המאגר כולל 15 משפחות ו-450 גרפים עם אמת מידה שמחושבת ישירות מתהליך היצירה, ובנוסף “נקודות בדיקה” (cp_) שמאפשרות לאתר איפה המודל נכשל. התוצאות מדגישות פערים: Gemini 2.5 Pro מגיע ל-80.42% pass-rate בשדות, GPT‑4.1 ל-79.84% ו-Claude Sonnet 4.5 ל-78.21%, בעוד GPT‑4o ב-61.59%. המשימות השבריריות ביותר הן בתחום התדר: bandpass עד 23% ו-FFT מאתגר. לעסקים בישראל שמקבלים דוחות כ-PDF ב-WhatsApp, זו תזכורת לבנות פיילוט עם טולרנסים, QA וזרימה מחוברת ל-N8N ו-Zoho CRM.

PlotChain Gemini 2.5 Pro GPT-4.1

קרא עוד

סוכן מחקר מכירות AI ב-Dynamics 365: בנצ'מרק חדש

מוצר חדש

20 בפברואר 2026

5 דקות

מ־arXiv cs.AI

סוכן מחקר מכירות AI ב-Dynamics 365: בנצ'מרק חדש

**סוכן מחקר המכירות ב-Dynamics 365 הוא AI שמנתח נתוני CRM חיים ומספק תובנות מדויקות.** הוא עלה על Claude ו-GPT בבנצ'מרק חדש. לעסקים ישראלים, זה אומר חיסכון של 20 שעות שבועיות בניתוח מכירות, עם התאמה לחוק הגנת הפרטיות.

Microsoft Dynamics 365 Sales Sales Research Agent Sales Research Bench

קרא עוד

מחקר

13 בפברואר 2026

4 דקות

מ־arXiv cs.AI

סוכני LLM משתנים בעצמם: פער 55% בדיוק

סוכני LLM לא עקביים: מחקר חדש מראה פער של 55% בדיוק בין משימות עקביות ללא. בדקו את הכלים שלכם עכשיו!

Llama 3.1 70B GPT-4o Claude Sonnet 4.5

קרא עוד

GameDevBench: בדיקת סוכני AI בפיתוח משחקים

מחקר

12 בפברואר 2026

4 דקות

מ־arXiv cs.AI

GameDevBench: בדיקת סוכני AI בפיתוח משחקים

GameDevBench חושף: סוכני AI מתקשים בפיתוח משחקים מולטימדיאליים, עם הצלחה של 54.5% בלבד. בנצ'מרק חדש עם 132 משימות מורכבות. גלו כיצד לשפר עם משוב ויזואלי.

GameDevBench Claude Sonnet 4.5

קרא עוד