نظرة عميقة: الانتباه الذاتي في التنبؤ الشمسي
Deep Dive: Self-Attention in Solar Forecasting
نظرة عميقة: الانتباه الذاتي في التنبؤ الشمسي
ما الذي تفعله هذه الطبقة فعلياً؟
طبقة "الانتباه الذاتي" تسمح للنموذج بالنظر إلى جميع الأجزاء في التسلسل الزمني دفعة واحدة (في حالتنا، 24 ساعة من البيانات التاريخية). تقوم بتحديد أي خطوات زمنية هي الأكثر صلة وأهمية للتنبؤ بالمخرجات المطلوبة للنجاح، مما ينشئ روابط مباشرة عبر كامل التسلسل بدلاً من التركيز على الخطوة السابقة فقط.
What does this layer do?
Self-Attention allows the model to
look at different parts of the input sequence (in this case, 24 hours of bi-directional
historical data) and identify which time steps are most relevant to predicting the target
variable at the current frame. Unlike basic RNNs that focus only on immediate history, this
gives the model direct links across the entire timeframe.
ما الذي تفعله هذه الطبقة فعلياً؟
طبقة "الانتباه الذاتي" تسمح
للنموذج بالنظر إلى جميع الأجزاء في التسلسل الزمني (في حالتنا، 24 ساعة من البيانات التاريخية التي
مرت على البوابات ثنائية الاتجاه) وتحديد أي خطوات زمنية هي الأكثر صلة وأهمية للتنبؤ بالمخرجات
المطلوبة. بدلاً من التركيز على الخطوة السابقة فقط تدريجياً، تنشئ الطبقة روابط مباشرة عبر كامل
التسلسل دفعة واحدة.
شرح آلية (Q, K, V) ومفهوم الاستعلام
تُشبه آلية الانتباه البحث في مكتبة ضخمة:
1. الاستعلام (Query - Q): ما يبحث عنه النموذج حالياً (مثال: "هل يوجد تغير مفاجئ في الغيوم؟").
2. المفتاح (Key - K): فهرس يصف محتوى كل لحظة زمنية متوفرة.
3. القيمة (Value - V): المحتوى الفعلي والأرقام الدقيقة لتلك اللحظة.
يقوم النموذج بحساب مدى التطابق بين الاستعلامات والمفاتيح (Score) وحساب احتمالات التركيز لاستخلاص القيم المهمة.
The Q, K, V Mechanism Explained
شرح آلية (Q, K, V) ومفهوم الاستعلام
Imagine the sequence as a library. The Input (X) is the raw
knowledge base.
1. Query (Q): What the network is looking for right now
(e.g., "Are there sudden cloud changes?").
2. Key (K): The labels on the
books in the library describing their contents (e.g., "Contains cloud data at hour 4").
3.
Value (V): The actual contents and precise measurements within the
books.
The model calculates the dot-product between Queries and Keys to compute a
Score, indicating compatibility. This score is then passed through a Softmax function
to turn it into a percentage, representing how much Focus (Attention) should be
directed to the corresponding Value.
تُشبه آلية الانتباه البحث في مكتبة ضخمة. المدخلات (X) تمثل المعرفة
الخام.
1. الاستعلام (Query - Q): هو ما تبحث عنه الشبكة حالياً (مثال: "هل
يوجد تغير مفاجئ في الغيوم؟").
2. المفتاح (Key - K): هو العنوان أو الفهرس
الذي يصف ما تحتويه كل لحظة زمنية (مثال: "تحتوي هذه اللحظة على بيانات تغير غيوم في الساعة
الرابعة").
3. القيمة (Value - V): هي المحتوى الفعلي والأرقام الدقيقة لتلك
اللحظة.
يقوم النموذج بحساب (الضرب النقطي) بين الاستعلامات والمفاتيح لمعرفة مدى التطابق
(Score). ثم يتم وضعها في دالة التطبيع Softmax لتحويلها إلى نسبة مئوية لتحديد مدى الانتباه
(Focus) الذي يجب إعطاؤه للمحتوى الفعلي (Value) واستخلاصه للناتج.
لماذا قادتنا لمعضلة التعقيد الفيزيائية؟
تتألق هذه الطبقة في مجال اللغات حيث تكون الكلمات متباعدة وتملك روابط معقدة. لكن الإشعاع الشمسي محكوم بفيزياء حتمية ومباشرة. بفضل إضافة الميزات الفيزيائية مسبقاً، تم تأطير مساحات التعلم، لذا فإن إدراج هذه الطبقة الهائلة (نصف مليون معامل) أدى لتدهور الأداء بسبب الضوضاء، وأثبت بحثنا أن "البساطة الفيزيائية المطلقة هزمت التعقيد المعماري الأعمى".
للتواصل: IZZELDEENM@GMAIL.COM
Why the Complexity Paradox?
لماذا قادتنا لمعضلة التعقيد الفيزيائية (Complexity Paradox)؟
In Natural Language Processing (like ChatGPT), words can have distant, indirect
relationships where Attention shines remarkably well. However, Solar Irradiance forecasting
dictated by physics (e.g., Solar Zenith Angle, clear sky index, time of day) is largely
deterministic and continuous over short periods.
By introducing physics-informed features
into our dataset upfront, we have already constrained the variables chronologically and
spatially. Inserting a massive Self-Attention layer here abruptly forces the model to
mathematically rediscover these known physical relationships from scratch through massive arrays
of probabilistic weights (over 0.5 Million parameters).
This causes extreme redundancy,
behaving as a noisy layer that distracts the model and degrades overall accuracy. This is what
led us to the finding that "Physics-informed simplicity defeats architectural
complexity".
تتألق هذه الطبقة بشكل استثنائي في مجال معالجة اللغات الطبيعية، لأن الكلمة قد
ترتبط بكلمة أخرى بعيدة عنها جداً في النص بأساليب متغيرة. ولكن، التنبؤ بالإشعاع الشمسي محكوم
بفيزياء حتمية ومباشرة (مثل زاوية سقوط أِشعة الشمس، مؤشر نقاء السماء، والوقت).
بفضل إضافة
(الميزات المدمجة بالفيزياء) في بياناتنا مسبقاً، تم تأطير البيانات بطريقة تصف العلاقات الزمنية
والفيزيائية بشكل مباشر ودقيق. إدراج طبقة الانتباه الهائلة هنا (تحتوي على أكثر من نصف مليون معامل
تدريبي) يُجبر الموديل على إعادة اكتشاف روابط احتمالية لأشياء هي أصلاً مسَلّمات رياضية في
البيانات المدخلة!
هذا يسبب تشتيتاً كبيراً وإضافة ضوضاء تؤدي لتدهور ملحوظ في كفاءة التنبؤ.
وهذا ما قادنا في بحثنا لنتيجة حاسمة: (البساطة الفيزيائية المطلقة هزمت التعقيد المعماري
الأعمى).