מחקר
4 דקות
מ־MIT Technology Review
פריצת דרך בבינה מלאכותית: טכנולוגיית קשב דליל למודלי שפה של Subquadratic
חברת הסטארט-אפ Subquadratic מציגה פריצת דרך מתמטית בארכיטקטורת מודלי השפה בעזרת פיתוח מודל SubQ המבוסס על מנגנון קשב דליל דינמי. על פי הערכה עצמאית של חברת Appen, המודל החדש מציג מהירות עיבוד גבוהה פי 56 מטכנולוגיית FlashAttention, תוך שמירה על רמת דיוק של 98% במבחני שליפת מידע מחלון הקשר עצום של 12 מיליון טוקנים. בנוסף, החברה מדווחת על הפחתת עלויות דרמטית של הפעלת המודל - 8 דולרים בלבד בהשוואה ל-2,600 דולר במודלים מובילים מקבילים עבור משימות ארוכות. אף על פי שהמודל טרם שוחרר לציבור הרחב ומבוסס בחלקו על משקולות מודל Qwen הסיני, התוצאות מציבות חלופה מבטיחה לארכיטקטורת ה-Transformer המסורתית.
קרא עוד