Synthesizing Attention جاري بناء خريطة الانتباه...

Self-Attention Phase طبقة الانتباه الذاتي

Complexity Paradox · Layer 5b معضلة التعقيد · الطبقة 5ب
Operation Sequence تسلسل العمليات
01

Input Sequence (X) المدخلات الزمنية (X)

Temporal features from BiLSTM arrive structured as a sequence matrix. تصل الميزات من طبقة BiLSTM كمصفوفة تسلسلية زمنية تشمل 24 خطوة زمنية.

Data has been filtered and extracted with time-dependence. هذه البيانات تم تصفيتها واستخلاص ميزاتها معتمدة على الزمن.
Shape: 24 × 420 الشكل الأبعاد: 24 × 420
02

Query Projection (Q) إسقاط الاستعلام (Q)

Linear transform: what each timestep is looking for. تحويل خطي يحدد "ما الذي تبحث عنه كل خطوة زمنية".

Input is multiplied by W_q matrix to extract queries. يتم ضرب المدخلات بمصفوفة الأوزان W_q لاستخراج الاستعلامات.
Q = X · W_q
03

Key Projection (K) إسقاط المفتاح (K)

Linear transform: what each timestep contains to offer. تحويل خطي يحدد "الخصائص التي تقدمها كل خطوة زمنية".

Used to determine compatibility between different points and a query. يُستخدم لتحديد مدى التوافق بين النقاط الزمنية المختلفة والاستعلام المعطى.
K = X · W_k
04

Value Projection (V) إسقاط القيمة (V)

Linear transform: the actual payload data to aggregate. تحويل خطي يوفر حزمة البيانات الأصلية للدمج في النهاية بناء على الأهمية.

If query matches key, these vectors are extracted. إذا كان الاستعلام يطابق المفتاح، فهذه هي المتجهات التي سيتم استخلاصها.
V = X · W_v
05

Score Computation (S) حساب درجات التطابق (S)

Dot-product of Q and K transposed, scaled by √d_k. الضرب النقطي بين Q ومنقول K يحدد قوة الترابط بين كل خطوتين. يتم قسمتها على الجذر.

S = Q · Kᵀ / √420
06

Softmax Normalization (A) تطبيع Softmax (A)

Converts raw scores to a probability distribution. يحول الدرجات الخام إلى توزيع احتمالي من 0 إلى 1 (أوزان الانتباه).

A = Softmax(S)
07

Context Output (Y) المخرجات الغنية (Y)

Weighted sum of V. The final enriched representation. المجموع الموزون للقيم V الناتجة. يمثل التمثيل النهائي المخصب.

Y = A · V → 24 × 420
Interaction Tools أدوات التحكم الشاملة
1.0×
Trainable Paramsمعاملات التدريب للطبقة 529,620
Wq, Wk, Wv 3 × 420²
38% of total model parameters بنسبة 38% من تعقيد النموذج الكامل!
Mathematical Core النواة الرياضية للعملية

Scaled Dot-Product Attention معادلة الانتباه الموزونة بالنقاط

The core formula introduced in 'Attention Is All You Need'. المعادلة الرئيسية التي اخترعها كُتاب ورقة Attention Is All You Need.
Attention ( Q, K, V ) = softmax ( Q · KT dk ) · V
Vaswani et al., 2017

1. Score Computation 1. حساب الارتباط (Scores)

Dot-product tests the compatibility of queries and keys. الضرب النقطي يختبر مدى توافق الاستعلام والمفتاح.
Sij = qi · kjT 420
∀ i,j ∈ {1, …, 24}

2. Softmax Normalization 2. توزيع احتمالية الانتباه

Converting scores to exact focus probabilities. تحويل الدرجات لاحتمالات دقيقة للتركيز.
αij = exp(Sij) Σk exp(Sik)
prob. distribution

Dimension Breakdown تفصيل الأبعاد الرياضية

Sequence Lengthطول التسلسل الزمني T = 24
Feature Dimensionأبعاد الميزات dk = 420
Scale Factorمعامل موازنة الاستقرار 1/√420 ≈ 0.0488
Q, K, V ∈ ℝ 24 × 420
S, A ∈ ℝ 24 × 24
Y ∈ ℝ 24 × 420
⚠ The Complexity Paradox ⚠ ⚠ معضلة التعقيد الفيزيائية ⚠

Surprisingly, Self-Attention degraded performance! Physics-informed features already encode deterministic correlations. Forcing the network to learn attention above strict physics brought noise.
Conclusion: Physics-informed simplicity won.
أدت هذه الطبقة إلى تدهور الأداء. الميزات المستمدة فيزيائياً تحتوي بحد ذاتها على علاقات زمنية حتمية! تعلم أوزان لربطها من جديد تسبب بضوضاء مفرطة.
الاستنتاج: البساطة المدمجة بالفيزياء تفوقت على التعقيد الأعمى.

-- fps