Layer 5b: Self-Attention

Operation Sequence تسلسل العمليات

Input Sequence (X) المدخلات الزمنية (X)

Temporal features from BiLSTM arrive structured as a sequence matrix. تصل الميزات من طبقة BiLSTM كمصفوفة تسلسلية زمنية تشمل 24 خطوة زمنية.

Data has been filtered and extracted with time-dependence. هذه البيانات تم تصفيتها واستخلاص ميزاتها معتمدة على الزمن.

Shape: 24 × 420 الشكل الأبعاد: 24 × 420

Query Projection (Q) إسقاط الاستعلام (Q)

Linear transform: what each timestep is looking for. تحويل خطي يحدد "ما الذي تبحث عنه كل خطوة زمنية".

Input is multiplied by W_q matrix to extract queries. يتم ضرب المدخلات بمصفوفة الأوزان W_q لاستخراج الاستعلامات.

Q = X · W_q

Key Projection (K) إسقاط المفتاح (K)

Linear transform: what each timestep contains to offer. تحويل خطي يحدد "الخصائص التي تقدمها كل خطوة زمنية".

Used to determine compatibility between different points and a query. يُستخدم لتحديد مدى التوافق بين النقاط الزمنية المختلفة والاستعلام المعطى.

K = X · W_k

Value Projection (V) إسقاط القيمة (V)

Linear transform: the actual payload data to aggregate. تحويل خطي يوفر حزمة البيانات الأصلية للدمج في النهاية بناء على الأهمية.

If query matches key, these vectors are extracted. إذا كان الاستعلام يطابق المفتاح، فهذه هي المتجهات التي سيتم استخلاصها.

V = X · W_v

Score Computation (S) حساب درجات التطابق (S)

Dot-product of Q and K transposed, scaled by √d_k. الضرب النقطي بين Q ومنقول K يحدد قوة الترابط بين كل خطوتين. يتم قسمتها على الجذر.

S = Q · Kᵀ / √420

Softmax Normalization (A) تطبيع Softmax (A)

Converts raw scores to a probability distribution. يحول الدرجات الخام إلى توزيع احتمالي من 0 إلى 1 (أوزان الانتباه).

A = Softmax(S)

Context Output (Y) المخرجات الغنية (Y)

Weighted sum of V. The final enriched representation. المجموع الموزون للقيم V الناتجة. يمثل التمثيل النهائي المخصب.

Y = A · V → 24 × 420

Interaction Tools أدوات التحكم الشاملة

Speedالسرعة 1.0×

Trainable Paramsمعاملات التدريب للطبقة 529,620

W_q, W_k, W_v 3 × 420²

38% of total model parameters بنسبة 38% من تعقيد النموذج الكامل!

Mathematical Core النواة الرياضية للعملية

Scaled Dot-Product Attention معادلة الانتباه الموزونة بالنقاط

The core formula introduced in 'Attention Is All You Need'. المعادلة الرئيسية التي اخترعها كُتاب ورقة Attention Is All You Need.

Attention ( Q, K, V ) = softmax ( Q · K^T d_k ) · V

Vaswani et al., 2017

1. Score Computation 1. حساب الارتباط (Scores)

Dot-product tests the compatibility of queries and keys. الضرب النقطي يختبر مدى توافق الاستعلام والمفتاح.

S_ij = q_i · k_j^T 420

∀ i,j ∈ {1, …, 24}

2. Softmax Normalization 2. توزيع احتمالية الانتباه

Converting scores to exact focus probabilities. تحويل الدرجات لاحتمالات دقيقة للتركيز.

α_ij = exp(S_ij) Σ_k exp(S_ik)

prob. distribution

Dimension Breakdown تفصيل الأبعاد الرياضية

Sequence Lengthطول التسلسل الزمني	T = 24
Feature Dimensionأبعاد الميزات	d_k = 420
Scale Factorمعامل موازنة الاستقرار	1/√420 ≈ 0.0488
Q, K, V ∈ ℝ	24 × 420
S, A ∈ ℝ	24 × 24
Y ∈ ℝ	24 × 420

⚠ The Complexity Paradox ⚠ ⚠ معضلة التعقيد الفيزيائية ⚠

Surprisingly, Self-Attention degraded performance! Physics-informed features already encode deterministic correlations. Forcing the network to learn attention above strict physics brought noise.
Conclusion: Physics-informed simplicity won. أدت هذه الطبقة إلى تدهور الأداء. الميزات المستمدة فيزيائياً تحتوي بحد ذاتها على علاقات زمنية حتمية! تعلم أوزان لربطها من جديد تسبب بضوضاء مفرطة.
الاستنتاج: البساطة المدمجة بالفيزياء تفوقت على التعقيد الأعمى.

نظرة عميقة: الانتباه الذاتي في التنبؤ الشمسي

Deep Dive: Self-Attention in Solar Forecasting

نظرة عميقة: الانتباه الذاتي في التنبؤ الشمسي

ما الذي تفعله هذه الطبقة فعلياً؟

طبقة "الانتباه الذاتي" تسمح للنموذج بالنظر إلى جميع الأجزاء في التسلسل الزمني دفعة واحدة (في حالتنا، 24 ساعة من البيانات التاريخية). تقوم بتحديد أي خطوات زمنية هي الأكثر صلة وأهمية للتنبؤ بالمخرجات المطلوبة للنجاح، مما ينشئ روابط مباشرة عبر كامل التسلسل بدلاً من التركيز على الخطوة السابقة فقط.

شرح آلية (Q, K, V) ومفهوم الاستعلام

تُشبه آلية الانتباه البحث في مكتبة ضخمة:
1. الاستعلام (Query - Q): ما يبحث عنه النموذج حالياً (مثال: "هل يوجد تغير مفاجئ في الغيوم؟").
2. المفتاح (Key - K): فهرس يصف محتوى كل لحظة زمنية متوفرة.
3. القيمة (Value - V): المحتوى الفعلي والأرقام الدقيقة لتلك اللحظة.
يقوم النموذج بحساب مدى التطابق بين الاستعلامات والمفاتيح (Score) وحساب احتمالات التركيز لاستخلاص القيم المهمة.

Imagine the sequence as a library. The Input (X) is the raw knowledge base.

1. Query (Q): What the network is looking for right now (e.g., "Are there sudden cloud changes?").
2. Key (K): The labels on the books in the library describing their contents (e.g., "Contains cloud data at hour 4").
3. Value (V): The actual contents and precise measurements within the books.

The model calculates the dot-product between Queries and Keys to compute a Score, indicating compatibility. This score is then passed through a Softmax function to turn it into a percentage, representing how much Focus (Attention) should be directed to the corresponding Value. تُشبه آلية الانتباه البحث في مكتبة ضخمة. المدخلات (X) تمثل المعرفة الخام.

1. الاستعلام (Query - Q): هو ما تبحث عنه الشبكة حالياً (مثال: "هل يوجد تغير مفاجئ في الغيوم؟").
2. المفتاح (Key - K): هو العنوان أو الفهرس الذي يصف ما تحتويه كل لحظة زمنية (مثال: "تحتوي هذه اللحظة على بيانات تغير غيوم في الساعة الرابعة").
3. القيمة (Value - V): هي المحتوى الفعلي والأرقام الدقيقة لتلك اللحظة.

يقوم النموذج بحساب (الضرب النقطي) بين الاستعلامات والمفاتيح لمعرفة مدى التطابق (Score). ثم يتم وضعها في دالة التطبيع Softmax لتحويلها إلى نسبة مئوية لتحديد مدى الانتباه (Focus) الذي يجب إعطاؤه للمحتوى الفعلي (Value) واستخلاصه للناتج.

Self-Attention Phase طبقة الانتباه الذاتي

Input Sequence (X) المدخلات الزمنية (X)

Query Projection (Q) إسقاط الاستعلام (Q)

Key Projection (K) إسقاط المفتاح (K)

Value Projection (V) إسقاط القيمة (V)

Score Computation (S) حساب درجات التطابق (S)

Softmax Normalization (A) تطبيع Softmax (A)

Context Output (Y) المخرجات الغنية (Y)

Scaled Dot-Product Attention معادلة الانتباه الموزونة بالنقاط

1. Score Computation 1. حساب الارتباط (Scores)

2. Softmax Normalization 2. توزيع احتمالية الانتباه

Dimension Breakdown تفصيل الأبعاد الرياضية

⚠ The Complexity Paradox ⚠ ⚠ معضلة التعقيد الفيزيائية ⚠

—

Self-Attention Phase طبقة الانتباه الذاتي

Input Sequence (X) المدخلات الزمنية (X)

Query Projection (Q) إسقاط الاستعلام (Q)

Key Projection (K) إسقاط المفتاح (K)

Value Projection (V) إسقاط القيمة (V)

Score Computation (S) حساب درجات التطابق (S)

Softmax Normalization (A) تطبيع Softmax (A)

Context Output (Y) المخرجات الغنية (Y)

Scaled Dot-Product Attention معادلة الانتباه الموزونة بالنقاط

1. Score Computation 1. حساب الارتباط (Scores)

2. Softmax Normalization 2. توزيع احتمالية الانتباه

Dimension Breakdown تفصيل الأبعاد الرياضية

⚠ The Complexity Paradox ⚠ ⚠ معضلة التعقيد الفيزيائية ⚠

—

نظرة عميقة: الانتباه الذاتي في التنبؤ الشمسي

ما الذي تفعله هذه الطبقة فعلياً؟

شرح آلية (Q, K, V) ومفهوم الاستعلام

لماذا قادتنا لمعضلة التعقيد الفيزيائية؟