TOPIC

GSM8K

כל החדשות והניתוחים שלנו בנושא GSM8K — מתורגמים ומסוכמים ממקורות מובילים בעולם, עם הקשר עסקי ישראלי. 11 כתבות.

TATRA להתאמת פרומפטים ללא דאטה: מה זה נותן לעסקים

מחקר

8 במרץ 2026

6 דקות

מ־arXiv cs.AI

TATRA להתאמת פרומפטים ללא דאטה: מה זה נותן לעסקים

**TATRA היא שיטה לבניית פרומפטים דינמיים לכל בקשה בודדת, בלי סט אימון מתויג ובלי חיפוש איטרטיבי יקר.** לפי המאמר ב-arXiv, היא מייצרת דוגמאות few-shot בזמן אמת ומשיגה תוצאות חזקות בסיווג טקסט ואף ביצועים מובילים ב-GSM8K וב-DeepMath. עבור עסקים בישראל, המשמעות היא אפשרות לבנות תהליכי AI יציבים יותר גם בלי צוות דאטה גדול: למשל חיבור בין WhatsApp Business API, ‏Zoho CRM ו-N8N שמעשיר כל פנייה בהקשר שונה. זה רלוונטי במיוחד לענפים כמו ביטוח, נדל"ן ומרפאות, שבהם הקלט בעברית רועש ולא אחיד, וכל טעות ניתוב עולה בזמן, בכסף ולעיתים גם באובדן ליד.

TATRA GitHub GSM8K

קרא עוד

סנדבאגינג במודלי שפה: איך פרומפטים מסתירים יכולות

מחקר

8 במרץ 2026

6 דקות

מ־arXiv cs.AI

סנדבאגינג במודלי שפה: איך פרומפטים מסתירים יכולות

**סנדבאגינג במודלי שפה הוא הורדת ביצועים מכוונת בזמן הערכה, ולא בהכרח חוסר יכולת אמיתי.** מחקר חדש ב-arXiv מצא שפרומפטים שעברו אופטימיזציה אדברסרית הורידו את דיוק GPT-4o-mini באריתמטיקה מ-97.8% ל-4.0% — ירידה של 93.8 נקודות אחוז. עבור עסקים בישראל, המשמעות ברורה: מבחן חד-פעמי למודל לפני חיבור ל-WhatsApp, ל-Zoho CRM או לזרימת עבודה ב-N8N כבר לא מספיק. צריך לבדוק מודלים בכמה סביבות, עם כמה נוסחי פרומפט, ולמדוד גם השפעה עסקית בפועל כמו זמן תגובה, איכות סיווג לידים ושיעור שגיאות. אחרת, החלטות רכש והטמעה עלולות להתבסס על תמונה חלקית.

Claude-3.5-Haiku GPT-4o-mini Llama-3.3-70B

קרא עוד

אמינות AI לסוכנים אוטונומיים: איך למדוד לפני פרודקשן

מחקר

8 במרץ 2026

6 דקות

מ־arXiv cs.AI

אמינות AI לסוכנים אוטונומיים: איך למדוד לפני פרודקשן

**רמת אמינות למערכת AI היא מדד פריסה שמגדיר באיזו רמת ביטחון אפשר לסמוך על פלט המודל במשימה מסוימת.** מחקר חדש ב-arXiv מציע לחשב את המדד גם עבור מערכות קופסה שחורה, באמצעות self-consistency sampling ו-conformal calibration, עם סטייה של עד 1/(n+1) מרמת היעד וחיסכון של כ-50% בעלויות API. עבור עסקים בישראל, המשמעות ברורה: לפני שמעלים סוכן AI ל-WhatsApp, ל-CRM או לתהליך אוטומציה, צריך לקבוע סף אמינות מעשי לכל משימה. זה רלוונטי במיוחד למשרדי עורכי דין, סוכני ביטוח, מרפאות וחנויות אונליין, שבהם שגיאה של המודל אינה רק בעיית איכות אלא סיכון תפעולי ורגולטורי.

GPT-4.1 GPT-4.1-nano GSM8K

קרא עוד

RUMAD לוויסות ויכוח מרובה-סוכנים: יותר דיוק בפחות טוקנים

מחקר

8 במרץ 2026

6 דקות

מ־arXiv cs.AI

RUMAD לוויסות ויכוח מרובה-סוכנים: יותר דיוק בפחות טוקנים

**RUMAD הוא מנגנון בקרה למערכי ויכוח מרובה-סוכנים שמחליט בזמן אמת מי משתתף בדיון, כמה מידע עובר בין הסוכנים, ואיך לצמצם עלות בלי לפגוע בדיוק.** לפי המאמר, השיטה הפחיתה יותר מ-80% מעלות הטוקנים ואף שיפרה דיוק לעומת מודל יחיד וכמה שיטות Multi-Agent Debate קיימות. עבור עסקים בישראל, המשמעות אינה רק אקדמית: אם אתם בונים תהליך עם כמה סוכני AI לניתוח פניות, מסמכים או לידים, בקרה דינמית יכולה להפוך מערכת יקרה ולא יציבה לזרימת עבודה מדידה. החיבור המעשי הוא בין AI Agents, WhatsApp Business API, Zoho CRM ו-N8N — כדי להפעיל עוד בדיקות רק כאשר יש הצדקה עסקית אמיתית.

RUMAD PPO MMLU

קרא עוד

דיסטילציית CoT יעילה עם GRPO: קיצור הסבר בלי לאבד דיוק

מחקר

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

דיסטילציית CoT יעילה עם GRPO: קיצור הסבר בלי לאבד דיוק

**דיסטילציית Chain-of-Thought (CoT) יעילה מאפשרת ללמד מודל קטן לבצע נימוק רב-שלבי כמו מודל גדול, אבל להוציא תשובה קצרה שמתאימה לערוצי שירות ומכירה.** לפי arXiv:2602.17686v1, קוריקולום בן 3 שלבים (מסיכות מבניות, אופטימיזציה עם GRPO, ושכתוב ממוקד של מקרי כשל) העלה את הדיוק של Qwen2.5-3B-Base ב-11.29% והקטין את אורך הפלט ב-27.4% על GSM8K. לעסקים בישראל זה מתרגם ישירות לעלויות טוקנים ולחוויית לקוח, במיוחד בשירות ב-WhatsApp. ההמלצה המעשית: להפריד בין “נימוק חיצוני” קצר ללקוח לבין לוג מלא ב-Zoho CRM, ולהפעיל את הזרימה דרך N8N כדי למדוד זמן תגובה ושיעור פתרון בפנייה ראשונה.

Qwen2.5-3B-Base GSM8K GRPO

קרא עוד

VeRA להערכת מודלי שפה: איך מונעים “שינון מבחנים” עם וריאנטים מאומתים

מחקר

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

VeRA להערכת מודלי שפה: איך מונעים “שינון מבחנים” עם וריאנטים מאומתים

**VeRA הוא מנגנון שממיר שאלות בנצ'מרק ל"מפרט בר־הרצה" שמייצר וריאציות חדשות עם תשובות מאומתות אוטומטית. לפי arXiv:2602.13217v1, מבעיה אחת אפשר ליצור מספר בלתי מוגבל של גרסאות מתויגות נכון כמעט בלי עלות שולית ובלי מתייגים אנושיים.** המשמעות לעסקים בישראל: במקום לבדוק מודל שפה על סט קבוע שמזמין שינון וזיהום, אפשר לייצר בכל שבוע מאות תרחישים חדשים (למשל פניות שירות ב-WhatsApp בעברית) ולוודא שהמודל מסווג נכון, יוצר כרטיס ב-Zoho CRM ומכבד כללי מדיניות. כך אתם מודדים יכולת אמיתית—ומקטינים סיכון לתקלות אחרי החלפת מודל או שינוי פרומפט.

VeRA McKinsey Gartner

קרא עוד

SELFCEST: קלונים מקבילים משפרים חשיבה במודלי AI

מחקר

19 בפברואר 2026

5 דקות

מ־arXiv cs.AI

SELFCEST: קלונים מקבילים משפרים חשיבה במודלי AI

**SELFCEST משפרת מודלי AI עם קלונים מקבילים תחת תקציב חישוב קבוע.** מאמר חדש ב-arXiv מראה שיפור 25% במתמטיקה ו-QA. לעסקים ישראלים, זה אומר תגובות מהירות יותר בוואטסאפ ו-Zoho, חיסכון ₪2,000+ חודשי.

SELFCEST arXiv:2602.13262 agentic RL

קרא עוד

פרדוקס הפרלקסיות: מדוע קוד מדחס טוב יותר ממתמטיקה ב-LLM

מחקר

19 בפברואר 2026

5 דקות

מ־arXiv cs.AI

פרדוקס הפרלקסיות: מדוע קוד מדחס טוב יותר ממתמטיקה ב-LLM

**פרדוקס הפרלקסיות בדחיסת פרומפטים: סינטקס קוד נשמר, מספרים מתמטיים נמחקים.** מחקר חדש מאמת על בנצ'מרקים מרובים ומציג TAAC שחוסך 22% בעלויות עם 96% איכות. לעסקים ישראלים: אופטימיזציה חיונית לאוטומציה ב-N8N ו-Zoho CRM, חיסכון ₪2,000+ לחודש.

HumanEval MBPP HumanEval+

קרא עוד

PREGU: היגיון חלקי מונחה אי ודאות במודלי שפה

מחקר

21 בינואר 2026

2 דקות

מ־arXiv cs.AI

PREGU: היגיון חלקי מונחה אי ודאות במודלי שפה

מודלי שפה גדולים מתקשים בהיגיון רב-שלבי? PREGU משנה את זה על ידי מעקב אחר אנטרופיה ושיפור ממוקד. תוצאות מרשימות בבנצ'מרקים. קראו עכשיו!

PREGU Soft Reasoning LLaMA-3-8B

קרא עוד

מטבוליזם דיגיטלי: ניתוק לוגיקה מעובדות במודלי AI

מחקר

19 בינואר 2026

2 דקות

מ־arXiv cs.AI

מטבוליזם דיגיטלי: ניתוק לוגיקה מעובדות במודלי AI

מודלי שפה גדולים סובלים משזירת פרמטרים שגורמת להזיות. חוקרים מציעים 'מטבוליזם דיגיטלי' עם RLCP לשכחה מכוונת של עובדות, מה שיוצר ליבת היגיון טהורה. קראו עכשיו! (112 מילים)

Qwen2.5-0.5B RLCP GSM8K

קרא עוד

גילוי: נתוני CoT שגויים משפרים חשיבה של מודלי שפה

מחקר

31 בדצמבר 2025

3 דקות

מ־arXiv cs.AI

גילוי: נתוני CoT שגויים משפרים חשיבה של מודלי שפה

מחקר חדש מוכיח: שרשראות CoT סינתטיות שגויות משפרות חשיבה של מודלי שפה יותר מנתונים אנושיים. גלו מדוע חלוקת נתונים קובעת. קראו עכשיו!

arXiv:2512.22255 Qwen Llama

קרא עוד