בעידן שבו מודלי שפה גדולים (LLM) משנים את עולם העסקים, הסוד להצלחתם טמון באיכות ובגיוון של מאגרי הנתונים לאחר האימון. אולם, בעוד שהמודלים עצמם נבחנים בקפידה, הנתונים שמזינים אותם נותרים תיבת נעילה – הרכב לא שקוף, מקורות לא ידועים וללא הערכה שיטתית. חוסר שקיפות זה פוגע בשחזור תוצאות ומעיב על הקשר הסיבתי בין מאפייני הנתונים להתנהגות המודלים. כדי לגשר על הפער, מציגים החוקרים את OpenDataArena (ODA) – פלטפורמה הוליסטית ופתוחה להערכת ערך הנתונים הבסיסי.
ODA בונה מערכת מקיפה על ארבעה עמודי תווך מרכזיים: ראשית, צינור אימון והערכה מאוחד שמבטיח השוואות הוגנות ופתוחות בין מודלים שונים כמו Llama ו-Qwen ובתחומים מגוונים. שנית, מסגרת ציון רב-ממדית שמאפיינת את איכות הנתונים לאורך עשרות צירים שונים. שלישית, חוקר אינטראקטיבי של קווי יוחסין של נתונים שמדמיין את שושלת מאגרי הנתונים ומפרק את המקורות הרכיביים. ולבסוף, ערכת כלים בקוד פתוח מלא לאימון, הערכה וציון שמטפחת מחקר נתונים.
ניסויים נרחבים ב-ODA כוללים יותר מ-120 מאגרי אימון אימון בתחומים מרובים על פני 22 בנצ'מרקים, מאומתים על ידי יותר מ-600 ריצות אימון ו-40 מיליון נקודות נתונים מעובדות. הניתוח חושף תובנות לא טריוויאליות: איזונים מובנים בין מורכבות הנתונים לביצועי משימות, זיהוי כפילויות בבנצ'מרקים פופולריים דרך מעקב קו יוחסין, ומפת יחסי קרבה בין מאגרי נתונים.
הפלטפורמה מדגישה את הצורך בשינוי ממאגרי נתונים על בסיס ניסוי וטעייה למדע עקרוני של AI ממוקד נתונים. ODA מאפשרת לסקור חוקי ערבוב נתונים והרכב אסטרטגי של מודלים בסיסיים, עם רלוונטיות ישירה למנהלי עסקים ישראלים המפתחים פתרונות AI. השקיפות הזו יכולה להאיץ חדשנות מקומית ולהפחית סיכונים בהשקעות במודלים.
ODA משחררת את כל התוצאות, הכלים והקונפיגורציות כדי להפוך את ההערכה נגישה לכולם. במקום להרחיב רק לוחות תוצאות, היא סוללת את הדרך למחקרים קפדניים יותר. מה תפקיד הנתונים באסטרטגיית ה-AI שלכם?