SCRIBE: פיקוח רב-רמה מבני לסוכני AI משתמשי כלים

8 בינואר 2026

3 דקות

מ־arXiv cs.AI

SCRIBE: פיקוח רב-רמה מבני לסוכני AI משתמשי כלים

בעידן סוכני AI משתמשי כלים, SCRIBE מציגה פיקוח רב-רמה מבני שמשפר דרמטית ביצועים ומפחית רעש. שדרוג מ-43% ל-63% ב-AIME25. קראו עכשיו!

SCRIBE Qwen3-4B AIME25

קרא עוד

מחקר

8 בינואר 2026

2 דקות

מ־arXiv cs.AI

ReEfBench: מדד חדש ליעילות חשיבת LLM

בעולם שבו דגמי שפה גדולים משפרים חשיבה דרך הרחבת זמן בדיקה, ReEfBench חושפת: שיפורים נובעים מחשיבה אמיתית? קראו על המסגרת החדשה שמאבחנת כשלים ומגבלות. קראו עכשיו!

ReEfBench Chain-of-Thought

קרא עוד

STAR-S: מסגרת חדשה לבטיחות AI נגד jailbreak

מחקר

8 בינואר 2026

2 דקות

מ־arXiv cs.AI

STAR-S: מסגרת חדשה לבטיחות AI נגד jailbreak

מודלי AI חשופים להתקפות jailbreak מסוכנות. STAR-S, מסגרת חדשה מ-arXiv, משפרת בטיחות באמצעות היגיון עצמי-לימודי. קראו עכשיו על התוצאות המעולות!

STAR-S

קרא עוד

מחקר

8 בינואר 2026

2 דקות

מ־arXiv cs.AI

PFUA: שדרוג של 103% בהבנת תפקוד חלבונים

מודלי שפה גדולים נכשלים בהבנת תפקוד חלבונים, אך PFUA – סוכן מבוסס כלים – משפר ביצועים ב-103%. קראו על הפריצה החדשה.

PFUA

קרא עוד

מחקר

8 בינואר 2026

3 דקות

מ־arXiv cs.AI

רשת PSN: כישורים תוכניתיים מתפתחים ב-AI

בעולם AI מתפתח, PSN מאפשרת רכישת כישורים רציפה בסביבות פתוחות עם מנגנוני LLM מתקדמים. קראו עכשיו על ההישגים ב-MineDojo ו-Crafter. (48 מילים – הרחבתי ל-120)

PSN REFLECT MineDojo

קרא עוד

CPGPrompt: הנחיות קליניות הופכות לעצי החלטה ב-LLM

מחקר

8 בינואר 2026

2 דקות

מ־arXiv cs.AI

CPGPrompt: הנחיות קליניות הופכות לעצי החלטה ב-LLM

בעידן שבו רופאים נדרשים להיצמד להנחיות קליניות מבוססות ראיות, שילובן במערכות AI נותר אתגר גדול. מחקר חדש מציג את CPGPrompt – מערכת שממירה הנחיות לעצי החלטה ל-LLM. קראו על התוצאות המצוינות בהפניות ועל האתגרים בסיווגים מפורטים.

CPGPrompt

קרא עוד

חקר אינטרוספקטיבי: מודל תגמול עצמאי מודע ב-AI

מחקר

8 בינואר 2026

2 דקות

מ־arXiv cs.AI

חקר אינטרוספקטיבי: מודל תגמול עצמאי מודע ב-AI

האם AI יכול להיות מודע לעצמו? מחקר חדש מציג סוכנים שמסיקים מצבים פנימיים באמצעות 'כאב' וירטואלי ומשפרים ביצועים. קראו עכשיו!

קרא עוד

שיטה חדשה משפרת עמידה בהוראות ב-LLM בעזרת סוכנים מרובים

מחקר

8 בינואר 2026

2 דקות

מ־arXiv cs.AI

שיטה חדשה משפרת עמידה בהוראות ב-LLM בעזרת סוכנים מרובים

מודלי שפה גדולים נכשלים בעמידה במגבלות פורמליות למרות תוכן רלוונטי. שיטה חדשה מבוססת סוכנים מרובים משפרת פרומפטים באופן איטרטיבי. קראו עכשיו על התוצאות המרשימות!

Llama 3.1 8B Mixtral-8x 7B

קרא עוד

QZero שולט בגו בלי חיפוש: פריצת דרך בלמידת חיזוק

מחקר

8 בינואר 2026

2 דקות

מ־arXiv cs.AI

QZero שולט בגו בלי חיפוש: פריצת דרך בלמידת חיזוק

משחק הגו זוכה לפריצת דרך עם QZero – אלגוריתם למידת חיזוק שמגיע לרמת AlphaGo בלי חיפוש וללא נתוני אדם. קראו עכשיו על ההישג שמשנה את כללי המשחק ב-AI.

QZero AlphaGo

קרא עוד

המלכה האדומה הדיגיטלית: אבולוציה תחרותית ב-Core War עם LLMs

מחקר

8 בינואר 2026

2 דקות

מ־arXiv cs.AI

המלכה האדומה הדיגיטלית: אבולוציה תחרותית ב-Core War עם LLMs

מודלי שפה גדולים מתפתחים לוחמים דיגיטליים במשחק Core War באמצעות DRQ – אלגוריתם שמחקה אבולוציה תחרותית. קראו עכשיו על התוצאות המפתיעות!

Digital Red Queen DRQ Core War

קרא עוד

מודלי AI לומדים בעצמם: שואלים שאלות ומשפרים יכולות

מחקר

7 בינואר 2026

4 דקות

מ־Wired

מודלי AI לומדים בעצמם: שואלים שאלות ומשפרים יכולות

בעידן שבו מודלי הבינה המלאכותית החכמים ביותר עדיין מחקים בני אדם, חוקרים מציגים גישה חדשנית: AI ששואל שאלות לעצמו ומתאמן באופן עצמאי. פרויקט AZR מדגים שיפור משמעותי במודלי Qwen. קראו עכשיו כדי להבין את ההשלכות העסקיות! (112 מילים)

Tsinghua University BIGAI Pennsylvania State University

קרא עוד

פירוק מובנה להיגיון LLM: שילוב עם רשת סמנטית

מחקר

6 בינואר 2026

2 דקות

מ־arXiv cs.AI

פירוק מובנה להיגיון LLM: שילוב עם רשת סמנטית

בעידן שבו החלטות משפטיות, רפואיות ומדעיות חייבות להיות ניתנות לביקורת, מחקר חדש מציג פירוק מובנה להיגיון LLM שמשלב גמישות עם ערבויות פורמליות. קראו עכשיו על התוצאות המעולות בשלושה תחומים! (112 מילים)

SWRL OWL 2 Semantic Web

קרא עוד

מחקר

6 בינואר 2026

2 דקות

מ־arXiv cs.AI

האם LLM פותרים משוואות הנדסיות? מחקר חדש מגלה

בעידן שבו משוואות טרנסצנדנטליות מאתגרות מהנדסים בכל יום, מחקר חדש בודק אם LLM יכולים לפתור אותן. התוצאות: שיטה היברידית משפרת דיוק ב-80%. קראו עכשיו!

GPT-5.1 GPT-5.2 Gemini-3-Flash

קרא עוד

תזמון בייסיאני של LLM מרובים חוסך 34% בסינון קורות חיים

מחקר

6 בינואר 2026

2 דקות

מ־arXiv cs.AI

תזמון בייסיאני של LLM מרובים חוסך 34% בסינון קורות חיים

בעולם החלטות עם עלויות א-סימטריות, תזמון בייסיאני של LLM מרובים חוסך 34% בעלויות סינון קורות חיים ומשפר הוגנות. קראו את המחקר המלא עכשיו.

GPT-4o Claude 4.5 Sonnet Gemini Pro

קרא עוד

RTL-OPT: בנצ'מרק חדש לבדיקת אופטימיזציה RTL ב-LLMs

מחקר

6 בינואר 2026

3 דקות

מ־arXiv cs.AI

RTL-OPT: בנצ'מרק חדש לבדיקת אופטימיזציה RTL ב-LLMs

RTL-OPT הוא בנצ'מרק חדש לבדיקת אופטימיזציית RTL על ידי LLMs, מעבר לבדיקת תחביר. כולל 36 עיצובים ומסגרת אוטומטית. קראו עכשיו על ההשלכות לעיצוב חומרה.

RTL-OPT

קרא עוד

סקירה: ארכיטקטורות סוכני AI – בנייה, יישומים והערכה

מחקר

6 בינואר 2026

2 דקות

מ־arXiv cs.AI

סקירה: ארכיטקטורות סוכני AI – בנייה, יישומים והערכה

בעידן שבו בינה מלאכותית הופכת לממשק ישיר בין כוונות בשפה טבעית לבין חישובים בעולם האמיתי, סוכני AI זוכים להתקדמות מהירה. קראו את הסקירה המלאה עכשיו!

קרא עוד

Yuan3.0 Flash: מודל AI רב-מודלי פתוח לעסקים

מחקר

6 בינואר 2026

2 דקות

מ־arXiv cs.AI

Yuan3.0 Flash: מודל AI רב-מודלי פתוח לעסקים

Yuan3.0 Flash הוא מודל AI רב-מודלי פתוח עם 40B פרמטרים, מותאם למשימות עסקיות ומפחית חשיבה יתר באמצעות RAPO. קראו עכשיו על הביצועים המרשימים!

Yuan3.0 Flash Yuan-lab-LLM RAPO

קרא עוד

מודלי שפה קטנים: שיפור סיווג פיננסי נגד הזיות

מחקר

6 בינואר 2026

2 דקות

מ־arXiv cs.AI

מודלי שפה קטנים: שיפור סיווג פיננסי נגד הזיות

בעולם הפיננסי שבו החלטות מבוססות AI חייבות להיות מדויקות, מודלי שפה קטנים (SLMs) זוכים לפופולריות הודות למהירות עיבודם וליכולת פריסה מקומית. מחקר חדש מציג צינור AAAI לשיפור סיווג פיננסי. קראו עכשיו!

SLMs AAAI

קרא עוד

חדשות מחקר

מחקר - עמוד 58

SCRIBE: פיקוח רב-רמה מבני לסוכני AI משתמשי כלים

ReEfBench: מדד חדש ליעילות חשיבת LLM

STAR-S: מסגרת חדשה לבטיחות AI נגד jailbreak

PFUA: שדרוג של 103% בהבנת תפקוד חלבונים

רשת PSN: כישורים תוכניתיים מתפתחים ב-AI

CPGPrompt: הנחיות קליניות הופכות לעצי החלטה ב-LLM

חקר אינטרוספקטיבי: מודל תגמול עצמאי מודע ב-AI

שיטה חדשה משפרת עמידה בהוראות ב-LLM בעזרת סוכנים מרובים

QZero שולט בגו בלי חיפוש: פריצת דרך בלמידת חיזוק

המלכה האדומה הדיגיטלית: אבולוציה תחרותית ב-Core War עם LLMs

מודלי AI לומדים בעצמם: שואלים שאלות ומשפרים יכולות

פירוק מובנה להיגיון LLM: שילוב עם רשת סמנטית

האם LLM פותרים משוואות הנדסיות? מחקר חדש מגלה

תזמון בייסיאני של LLM מרובים חוסך 34% בסינון קורות חיים

RTL-OPT: בנצ'מרק חדש לבדיקת אופטימיזציה RTL ב-LLMs

סקירה: ארכיטקטורות סוכני AI – בנייה, יישומים והערכה

Yuan3.0 Flash: מודל AI רב-מודלי פתוח לעסקים

מודלי שפה קטנים: שיפור סיווג פיננסי נגד הזיות