JT-DA-8B: מודל שפה חדש מנתח טבלאות מורכבות
מחקר

JT-DA-8B: מודל שפה חדש מנתח טבלאות מורכבות

חוקרים מציגים JiuTian Data Analyst – LLM מיוחד לניתוח נתונים בטבלאות אמיתיות, עם מאגר אימון ענק של 3 מיליון טבלאות

AI
אוטומציות AI
2 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • מודל 8B מיוחד ל-34 משימות ניתוח טבלאות מ-29 datasets

  • צינור אוטומטי לייצור משימות רב-שלביות אמיתיות

  • אימון SFT+RL עם סינון LLM לדיוק גבוה

  • זרימת עבודה 4 שלבים לשקיפות וניצול כלים

  • ביצועים חזקים בניתוח נתונים מורכב

בעולם העסקי שבו נתונים בטבלאות הם המפתח להחלטות מהירות, חוקרים משחררים את JT-DA-8B – מודל שפה גדול (LLM) מיוחד לניתוח טבלאות מורכבות בסצנות אמיתיות. המודל מבוסס על JT-Coder-8B ומשלב אימון מתקדם כדי להתמודד עם משימות רב-שלביות. לפי המחקר שפורסם ב-arXiv, JT-DA-8B מצליח במשימות מגוונות ומבטיח לשפר את היעילות בניתוח נתונים עסקיים. המודל נבנה כדי להתגבר על מחסור בנתוני אימון איכותיים לניתוח טבלאות. החוקרים אספו מאגר מקיף הכולל 34 משימות מוגדרות היטב, על בסיס 29 מערכי נתונים ציבוריים של שאלות-תשובה על טבלאות ו-3 מיליון טבלאות אמיתיות. הם פיתחו צינור אוטומטי לייצור משימות אנליטיות רב-שלביות הכוללות דפוסי חשיבה מורכבים, מה שמאפשר אימון ממוקד ומציאותי יותר. בשלב האימון, JT-DA-8B עבר אופטימיזציה באמצעות ניקוי נתונים מבוסס LLM לציון איכות וסינון מותאם לזרימת עבודה. השתמשו בשילוב של אימון מונחה-פקודות (SFT) ולמידת חיזוק (RL) כדי לחדד את הביצועים. בנוסף, הוצע זרימת עבודה ארבע-שלבית: עיבוד טבלאות ראשוני, זיהוי טבלאות, ניתוח משולב בכלים ומהנדסת פרומפטים – מה שמשפר את השקיפות והדיוק. המודל מציג ביצועים חזקים במגוון משימות ניתוח טבלאות, ומדגים את היעילות של יצירת נתונים ממוקדת טבלאות ואופטימיזציה מבוססת זרימת עבודה. בהשוואה למודלים כלליים, JT-DA-8B מתמחה בסביבות נתונים אמיתיות, מה שרלוונטי במיוחד למנהלי עסקים ישראלים שמתמודדים עם דוחות פיננסיים, נתוני מכירות וטבלאות BI יומיומיות. עבור מקצועני AI ומנהלים, JT-DA-8B פותח אפשרויות חדשות לאוטומציה של ניתוח נתונים. כדאי לבדוק את הקוד הפתוח ולשלב אותו בכלים קיימים. מה תהיה ההשפעה על כלי BI בישראל?

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד כתבות שיעניינו אותך

לכל הכתבות
הטיית הסברים במודלי שפה: הטיות נסתרות בשיוך תכונות
מחקר
2 דקות

הטיית הסברים במודלי שפה: הטיות נסתרות בשיוך תכונות

מודלי שפה מספקים הסברים, אך הטיות נסתרות פוגעות באמון. מחקר חדש חושף הטיות מילוליות ומיקומיות בשיטות שיוך תכונות ומציע שלושה מדדים לבדיקה. קראו כיצד זה משפיע על עסקים. (48 מילים – אבל צריך 80-150, אז הרחב: מוסיף פרטים מרכזיים מהפסקאות הראשונות.)

Integrated GradientstransformersarXiv:2512.11108v1
קרא עוד