בעולם שבו עיצוב מודלי למידת עמוקה דורש מומחיות אנושית או ניסוי וטעייה אינסופיים, מגיעה NN-Caption – פלטפורמת חיפוש ארכיטקטורות נוירוניות (NAS) מונחה LLM שמייצרת מודלי תיאור תמונות מוכנים להרצה. הפלטפורמה משלבת מקודדי CNN מבוססי גביות סיווג מ-LEMUR עם מקודדי רצף כמו LSTM, GRU או טרנספורמר, תחת אילוצי Net API מחמירים. באמצעות DeepSeek-R1-0528-Qwen3-8B כגנרטור ראשי, NN-Caption מציעה תבנית פרומפט ומדגימה ארכיטקטורות שנוצרו.
החוקרים בדקו עשרות מודלי תיאור תמונות שנוצרו על ידי ה-LLM, ומצאו כי יותר ממחציתם התאמנו בהצלחה והפיקו כתוביות משמעותיות. ההערכה נערכה על מסד הנתונים MS COCO באמצעות מדד BLEU-4. ניתוח הראה כי שימוש ב-5 קטעי קוד מודלים במקום 10 בפרומפט הוביל לשיעור הצלחה מעט גבוה יותר. בנוסף, דווחו דינמיקות אימון, כולל התקדמות דיוק הכתוביות לאורך אפוקות, וה-BLEU-4 הגבוה ביותר שהושג.
NN-Caption מדגימה את הפוטנציאל של חיפוש ארכיטקטורות נוירוניות מונחה LLM: המודל לא רק מציע ארכיטקטורות אלא גם פרמטרי היפר-אימון ושיטות אימון. הפלטפורמה משלבת יצירת קוד מבוססת פרומפט עם הערכה אוטומטית, ומוסיפה עשרות מודלי תיאור תמונות חדשים למסד LEMUR הפתוח לשם בדיקות השוואתיות ומחקר AutoML.
האתגרים שנבעדו כללו הזיות קוד ואי-עמידה באילוצי API, אך כללו פתרונות כמו כללי פרומפט ותיקוני קוד איטרטיביים. בהקשר עסקי ישראלי, שיטה זו יכולה להאיץ פיתוח מודלים בתחומי ראייה ממוחשבת, רלוונטי לחברות כמו Mobileye שמחפשות אוטומציה בפיתוח AI.
NN-Caption פותחת דלת לעידן חדש של AutoML נגיש, שבו מנהלי טכנולוגיה יכולים לייצר מודלים מותאמים ללא צוותי DS גדולים. מה תהיה ההשפעה על תעשיית ה-AI בישראל?