כימות PTQ ל-LLM חשיבתי על Ascend NPU: מה עובד ב-4bit ומה קורס
כימות PTQ (Post‑Training Quantization) הוא דרך לדחוס מודל שפה אחרי אימון ל-INT8/INT4 כדי להקטין זיכרון ולשפר ביצועים בפריסה. לפי arXiv:2602.17693v1 שבחן מודלי reasoning כמו DeepSeek-R1-Distill-Qwen (1.5B/7B/14B) ו-QwQ-32B על Ascend NPU, מתקבלת רגישות פלטפורמה מובהקת: INT8 נשאר יציב מספרית, בעוד שכימות 4bit אגרסיבי למשקולות+אקטיבציות עלול ליצור חוסר יציבות בכיול שכבות ולהוביל ל״קריסת לוגיקה״ בהקשר ארוך. לעסקים בישראל שמפעילים תהליכים מבוססי WhatsApp ו-CRM, ההמלצה הפרקטית היא להתחיל ב-INT8, לבנות סט בדיקות הקשר ארוך אמיתי מהדאטה שלכם, ורק אחר כך לשקול 4bit weight-only עם מדידת ביצועים מקצה לקצה (כולל overhead של dynamic quantization).
קרא עוד