أكثر

مخطط مبعثر ، ارتباط التبعية و r-square بين نقطتين نقطيتين

مخطط مبعثر ، ارتباط التبعية و r-square بين نقطتين نقطيتين


لدي نقطتان من نفس المنطقة وبنفس الدقة وأريد أن أرسم في مخطط مبعثر قيمهما وحساب أفضل خط ملائم مع r-square. هل لديك أي فكرة عن كيفية القيام بذلك على Arcmap أو QGIS أو استخراج قيم البيانات النقطية في ملف حتى يمكنني استيراده إلى Excel؟ لسوء الحظ ، أنا لا أستخدم R ولا بيثون.


يمكنك استخدام ال ارتباط الصورة, انحدار الصورة، و ميزة مساحة مؤامرة أدوات في Whitebox Geospatial Analysis Tools لتحقيق ذلك. إنه يعمل على صور كاملة ، مع التحذير من أنه عندما يكون لديك أحجام عينات عالية جدًا (أي ملايين وحدات البكسل) ، فإن الاختلافات الصغيرة جدًا ستنتج دلالة إحصائية ، والتي قد لا تكون ذات مغزى ماديًا.

في ما يلي مثال على إخراج Image Regression لنطاقين من صور Landsat 8:


إن القيام بالانحدار بالكامل داخل نظام المعلومات الجغرافية يعد قليلاً من أ جولة القوة، ولكن هذا ممكن (وربما يكون له بعض المزايا عند دمجه في سير عمل أطول يمكن مقاطعته بطريقة أخرى عن طريق استخدام منصة الحوسبة الإحصائية.)

عندما يكون لديك مجموعة ضخمة من البيانات المتطابقة (س ، ص) ، مثل التي يوفرها اثنان من البيانات النقطية المجمعة ، فحينئذٍ من الأفضل العثور على ملاءمة المربعات الصغرى العادية بسلسلة من الخطوات البسيطة (والتي تتجنب أخطاء الفاصلة العائمة التي يمكن أن تحدث عند تطبيق الصيغ التقليدية):

  1. أوجد متوسطي X و Y. استدع هذين المتوسطين mX و mY على التوالي. (عادةً ما يتم تمثيلها على أنها نقطية لها قيم ثابتة في خلاياها).

  2. إعادة توسيط X و Y بطرح متوسطهما من كل منهما. (أي ، قم بتغيير X إلى X-mX و Y إلى Y-mY).

  3. أوجد متوسطات تربيع القيم المعاد تركيزها: هذه هي الفروق من النقطية. (مرة أخرى ، سيتم تمثيل هذه على أنها نقط نقطية ثابتة.)

  4. قسّم القيم المعاد تركيزها على الجذور التربيعية لتبايناتها. (أطلق على هذه الجذور التربيعية sX و sY على التوالي.) تم توحيد البيانات النقطية الناتجة. تقع معظم قيمها بين -2 و 2 ، مع وجود عدد قليل منها يتجاوز هذه الحدود (أحيانًا أبعد من ذلك بكثير).

  5. اضرب النقطتين القياسيتين. متوسط ​​هذه المنتجات هو "بيتا" للانحدار: إنه المعامل القياسي. مربعه هو مربع R. نظرًا لأن هذه هي الإجابة المطلوبة ، إذا لم تكن تستخدمها للتنبؤ أو للمعالجة الأخرى ، فقد تفضل الحصول عليها في جدول (من سطر واحد) بدلاً من تمثيلها كنقطية.

بالمناسبة ، يتم الحصول على منحدر خط الانحدار لـ Y مقابل X عن طريق التحويل مرة أخرى من القيم القياسية إلى القيم الأصلية: وهذا سوف يضرب Y في sY و X في sX. وبالتالي ، يجب ضرب بيتا بـ sY و منقسم بواسطة sX. يتم الحصول على منحدر خط الانحدار X مقابل Y بالمثل بقسمة بيتا على sY وضربها في sX. (لن يتساوى هذان المنحدران إلا إذا كانت قيمة بيتا قصوى تبلغ 1 أو -1).


يتم تضمين نوعين فقط من العمليات النقطية في كل هذا: إحصائيات المنطقة (لمتوسط ​​القيم عبر خطوط المسح) والحساب المحلي (لطرح القيم من كل خلية ، وتربيع القيم ، وأخذ الجذور التربيعية ، وضرب القيم في شبكتين ، وما إلى ذلك. ). لتنفيذ إحصائيات المنطقة ، قم أولاً بإنشاء شبكة منطقة عن طريق تراكب نقطتي X و Y وضبط القيم الناتجة على ثابت (مثل 0 أو 1) ؛ ستكون كل خلية بدون قيمة في كل من X و Y خالية. هذا يجعل البيانات النقطية بأكملها في منطقة واحدة ستحدث عليها جميع المتوسطات.


لرسم مخطط التشتت ، ضع في اعتبارك أخذ عينات من البيانات النقطية من أجل قصر النقاط على رقم يمكن التحكم فيه.


عادةً ما يكون لديك معلومات كافية لمثل هذا الحساب باستخدام بضعة آلاف من النقاط ، وقد يكون برنامج Excel محدودًا إذا كنت تستخدم مجموعة البيانات الكاملة.

لذلك يمكنك إنشاء مجموعة من النقاط العشوائية (عينة عشوائية بسيطة أو شبكة عادية ذات أصل عشوائي) ، واستخراج قيم البكسل لكل نقطة ثم تصدير جدول البيانات للتفوق لمزيد من الحساب.

في ArcGIS ، ستحتاج إما إلى "شبكة صيد السمك" أو "إنشاء نقاط عشوائية" للخطوة الأولى ، ثم "استخراج قيمة متعددة للنقطة" (يلزم ترخيص المحلل المكاني) وأخيراً "جدول إلى جدول"


مخطط مبعثر ، ارتباط التبعية و r-square بين نقطتين نقطيتين - نظم المعلومات الجغرافية

كما هو موضح في الفصل السابق (من الصفحة 59 فصاعدًا) ، يمكن أن يمنحك الاستعلام عن شبكات البيانات في GIS أول مؤشر للعلاقات بين العوامل المختلفة. للحصول على فكرة أكثر دقة ، عليك إجراء تحليل إحصائي للبيانات المتاحة. تحليل الانحدار هو أداة إحصائية بسيطة للنظر في الارتباطات بين نوعين أو أكثر من البيانات وهو الأسلوب الإحصائي الأكثر استخدامًا في بيولوجيا مصايد الأسماك. أولا تجديد للرياضيات الأساسية لتحليل الانحدار.

15.1. الانحدارالخطي

الانحدار الخطي هو تقنية لتحديد العلاقة ، والتي يمكن رؤيتها في رسم بياني بين متغيرين. على سبيل المثال ، يوضح الشكل 15.1 العلاقة بين عدد الصيادين وعدد الشباك الخيشومية في القرى المختلفة حول بحيرة كاديم. إنها تظهر لك علاقة عندما يزداد عدد الصيادين ، ويزداد عدد الشباك الخيشومية في القرى أيضًا ، وهذا ما يسمى علاقة إيجابية.

الشكل 15.1
العلاقة بين عدد الصيادين والعدد
من الشباك الخيشومية في القرى المختلفة حول بحيرة كاديم

الشكل 15.2
العلاقة بين عدد الصيادين ومصيدهم السنوي من الكارب

ومع ذلك ، إذا نظرت إلى محصول المبروك السنوي للصيادين الأفراد (الشكل 15.2) ، سترى علاقة سلبية حيث يتناقص المصيد مع زيادة عدد الصيادين.

من الجيد معرفة أن هناك علاقة خطية موجبة بين عدد الصيادين وعدد الشباك الخيشومية في بحيرة كاديم ، لكن هدفنا هو وصف هذه العلاقة بنموذج أو معادلة رياضية:

في هذه المعادلة y ، عدد الشبكات الخيشومية ، هو المتغير على المحور الرأسي للرسم البياني أو المتغير التابع ، بينما يمثل x ، عدد الصيادين ، المتغير على المحور الأفقي أو المتغير المستقل. تسمى القيمة a (التي يمكن أن تكون سالبة أو موجبة أو صفر) التقاطع ، بينما تسمى القيمة b (التي يمكن أن تكون موجبة أو سالبة) & # 145slope & # 146 أو & # 145 معامل الانحدار & # 146. السؤال هو كيف نحسب قيمتي a و b. لن تنزعج من التفاصيل ولكن في جميع الكتب المدرسية الإحصائية سترى أنه يمكن حساب أ و ب بالمعادلات التالية:

x و y هما قيمتا أزواج x و y المختلفة ، و n هو عدد الأزواج ، ومتوسط ​​قيمة y ، ومتوسط ​​قيمة x.

ألق نظرة على البيانات التالية الواردة في الجدول 15.1.

الجدول 15.1
بيانات حساب الانحدار بين عدد الصيادين وعدد الشباك الخيشومية في بحيرة كاديم

يتم توفير بعض الحسابات الأساسية للوسائل والمبالغ في أسفل الجدول. باستخدام هذه القيم والصيغ أعلاه ، يمكننا حساب معلمات انحدار الانحدار والاعتراض:

و أ = 479-9.7412 * 62 = -127.321

من هذا يمكننا وصف العلاقة y = -127.3 + 9.74x أو بالكلمات:

عدد الشباك الخيشومية = -127.3 + 9.74 * عدد الصيادين.

لاحظ أن ميل الخط (9.74) هو رقم موجب ، مما يدل على أن هذه علاقة موجبة. هذا يتفق مع تفسيرنا المرئي للشكل 15.1.

في الجدول 15.2 ، يتم توفير البيانات الخاصة بعدد الصيادين ومصيدهم السنوي من الكارب (CPUE). احسب علاقة الانحدار

الجدول 15.2
العلاقة بين عدد الصيادين و CPUE للكارب في بحيرة كاديم

نتيجة تحليل الانحدار: y = 1465 - 8.6627x.

أصبحت تحليلات الانحدار في الوقت الحاضر أسهل حيث تم تضمينها في جميع برامج جداول البيانات مثل Lotus 1-2-3 و Microsoft Excel. في Microsoft Excel يتم إجراء تحليل الانحدار في الرسوم البيانية المصنوعة من مجموعات البيانات.

لنفعل مثال Lake Kadim في Microsoft Excel:

1. ابدأ Microsoft Excel ، افتح جدول البيانات & # 145Lake Kadim regression analysis.xls & # 146 ، من المجلد & # 14515_Lake_Kad_regr & # 146. تشاهد مجموعة البيانات مع عدد الصيادين وتكلفة الشراء الخاصة بهم ورسمين بيانيين.

2. تفعيل رسم بياني واحد بالضغط عليه.

3. انتقل إلى مخطط / إضافة خط اتجاه عبر شريط القائمة. ستظهر نافذة Add Trendline (الشكل 15.3) وتقوم بتحديد الخطي عن طريق تحديد المربع الخاص به. ثم انقر فوق علامة التبويب "خيارات" في نافذة "إضافة خط اتجاه" وتحقق من عرض المعادلة على الرسم البياني وعرض قيمة مربع R على الرسم البياني (الشكل 15.4). انقر فوق موافق.

الشكل 15.3
نافذة إضافة خط الاتجاه

الشكل 15.4
التحقق من معادلة العرض على الرسم البياني وعرض R-squared على الرسم البياني

يتم عرض مخطط الرسم البياني مرة أخرى. الآن مع خط مستقيم (الانحدار المحسوب) والعلاقة y = -8.6627x + 1465.8 ، والتي حسبتها مسبقًا معروضة في المخطط (الشكل 15.5).

الشكل 15.5
انحدار Microsoft Excel بين عدد الصيادين و CPUE في بحيرة كاديم

كما ترى في الرسم البياني قيمة أخرى: R 2 = 0.9164. R- تربيع ، أو معامل التحديد ، هو مربع معامل الارتباط R. وهو مقياس للارتباط الخطي بين مجموعتين من البيانات ويعكس مقدار التباين في المتغير التابع الذي يمكن تفسيره بالتباين في المتغير المستقل. عامل. تتراوح قيمة قيم R-square بين 0 (لا تعكس على الإطلاق أي علاقة خطية بين المتغيرات) و 1 (تشير إلى وجود ارتباط كامل). على سبيل المثال ، إذا كان R-squared = 0.25 ، فيمكننا القول أن التباين في المتغير المستقل يفسر 25 بالمائة من تباين المتغير التابع. كلما اقتربنا من 1 كلما زاد الارتباط بين المتغيرين. يتم حساب مربع R على النحو (الشكل 15.6):

الشكل 15.6
معادلة حساب R التربيع

ومع ذلك ، فإن القيمة العالية لـ R لا تعني أن خط الانحدار دائمًا صالح إحصائيًا. الطريقة الرسمية للنظر في ذلك هي إجراء اختبار t على معامل الانحدار b واختبار قيمة t المحسوبة ، أو تنفيذ ANOVA (أو تحليل التباين) واختبار القيمة المحسوبة لإحصاء F . يمكن القيام بذلك في أي حزمة برامج إحصائية.

15.2. الانحدار باستخدام برنامج نصي لـ Avenue في ArcView

بخلاف Microsoft Excel ، لا يعد تحليل الانحدار جزءًا لا يتجزأ من ArcView. لحسن الحظ ، يوفر ArcView لغة ترميز داخلية تسمح لنا بكتابة هذا النوع من الوظائف. تمت كتابة العديد من الوظائف المخصصة ، بما في ذلك تحليل الانحدار ، بواسطة مستخدمي ArcView وهي متاحة للاستخدام العام (على سبيل المثال ، راجع ArcScripts على http://gis.esri.com/arcscripts/index.cfm).

تم تضمين نموذج انحدار نصي مع البيانات الموجودة على القرص المضغوط مما يسمح بتحليل الانحدار الخطي. الطريقة المتاحة أساسية إلى حد ما ، ولا يمكن تطبيقها إلا على ملفات الأشكال ولها وظيفة مبعثرة محدودة. سيتم عرض هذا التطبيق لك باستخدام مثال بحيرة كاديم وإجراء تحليل انحدار بين عدد الصيادين وعدد الخيشومية في القرى المحيطة ببحيرة كاديم.

1. ابدأ ArcView وافتح مشروعًا جديدًا وطريقة عرض جديدة. أضف إلى عرض السمات (من مجلد & # 14515_Lake_Kad_regr & # 146): & # 145Pais pesca country.shp & # 146، & # 145Lake kadim limits.shp & # 146، & # 145Lake Kadim data.shp & # 146 and & # 145Fishing قرية بحيرة kadim.shp & # 146.

2. تحقق من العرض ودليل العمل.

3. عليك أولاً إضافة البرنامج النصي. أغلق العرض وافتح برنامج نصي جديد في نافذة المشروع (الشكل 15.7).

الشكل 15.7
فتح نص جديد

4. تصل إلى نافذة البرنامج النصي ، حيث يتعين عليك فتح البرنامج النصي للجادة & # 145bvreg.ave & # 146 هذا ملف نصي ولراحتك يتم وضعه في نفس المجلد مثل ملف الموضوع ، & # 14515_Lake_Kad_regr & # 146 . انتقل إلى S cript / Load T ext File. (الشكل 15.8).

5. ستظهر نافذة تحميل البرنامج النصي. انتقل إلى الدليل الفرعي الصحيح وحدد البرنامج النصي & # 145bvreg.ave & # 146 وانقر فوق موافق (الشكل 15.9).

الشكل 15.8
تحميل ملف نصي

الشكل 15.9
اختيار نص الانحدار

لتشغيل البرنامج النصي عليك معرفة بعض الحيل. أولا يجب عليك تجميع البرنامج النصي. & # 145Compiling & # 146 يعني ببساطة أن ArcView يتحقق من نص الرمز بحثًا عن الأخطاء ثم يحول الرمز إلى تنسيق يمكن لـ ArcView تشغيله مباشرة. بعد النقر فوق الزر & # 145Compile & # 146 (الشكل 15.10) ، سترى الزر المجاور له حيث يصبح الشخص قيد التشغيل نشطًا. هذا هو الزر لتشغيل البرنامج النصي. إذا قمت بالنقر فوق هذا الزر ، فستتلقى رسالة خطأ: & # 145A (n) لا يتعرف المشروع على طلب GetActiveThemes & # 146 (الشكل 15.11).

الشكل 15.10
تجميع نص

الشكل 15.11
رسالة خطأ الانحدار

السبب الأساسي لتلقي رسالة الخطأ هذه هو أن ArcView لا يعرف مكان البحث عن البيانات لإجراء التحليل. إن أبسط طريقة لمعرفة ذلك هي فتح العرض ، والعثور على السمة التي تحتوي على البيانات لتحليل الانحدار ، وتنشيط هذا السمة. تبدو طريقة القيام بذلك معقدة ، لكن لا داعي للقلق ، فهي تعمل وبمجرد قيامك بذلك عدة مرات ، ستعرف الخدعة. بشكل أساسي ، يجب عليك تجانب النافذة بحيث يكون العرض ونافذة البرنامج النصي مرئيتين. ثم يمكنك التبديل من واحد إلى الآخر.

6. اذهب في نافذة البرنامج النصي إلى W indow / T ile عبر شريط القائمة (الشكل 15.12). سوف تحصل على نافذتين على شاشتك. افتح العرض (الشكل 15.13).

الشكل 15.12
تبليط في عرض البرنامج النصي

الشكل 15.13
نص مبلط وعرض النافذة

7. بعد فتح العرض الخاص بك ، قم بتقسيم النوافذ مرة أخرى عبر W indow / T ملف في شريط القائمة. يجب أن تشاهد الآن ثلاث نوافذ مفتوحة في مشروعك ، ويجب أن تكون نافذة العرض الخاصة بك هي نافذتك النشطة. يمكنك رؤية هذا لأن شريط نافذة هذه النافذة أزرق. يجب أن يحتوي العرض الخاص بك على أربعة سمات مدرجة. انقر فوق الكلمات & # 145Fishing village lake kadim.shp & # 146 (وليس في مربع الاختيار) لتنشيط السمة. الآن سيعرف ArcView أي سمة تحتوي على بيانات لتحليل الانحدار (الشكل 15.14).

8. ارجع إلى نافذة البرنامج النصي بالنقر في مكان ما بداخله ، ثم انقر على زر تشغيل البرنامج النصي (الشكل 15.15).

الشكل 15.14
تفعيل سمة البيانات للانحدار

الشكل 15.15
تشغيل البرنامج النصي

9. ستظهر نافذة الانحدار ثنائي المتغير. عليك أولاً الإشارة إلى المتغير المستقل (X): & # 145Fishermen & # 146 (الشكل 15.16) ، بعد تحديد & # 145Fishermen & # 146 انقر فوق "موافق". في النافذة التالية ، تشير إلى المتغير التابع (Y) ، & # 145Gill_nets & # 146 (الشكل 15.17) ، ثم انقر فوق موافق.

الشكل 15.16
اختيار المتغير المستقل

الشكل 15.17
اختيار المتغير التابع

10. تظهر نافذة نتائج الانحدار ثنائي المتغير تقدم نتائج الانحدار. في هذه الحالة تكون النتائج مشابهة للحسابات التي أجريناها من قبل ، انقر فوق "موافق". سيتم سؤالك في النافذة التالية عما إذا كنت تريد إنشاء مخطط مبعثر. انقر فوق "نعم" وسيظهر مخطط التشتت مع الانحدار المحسوب (الشكل 15.19).

الشكل 15.18
نتائج الانحدار ثنائي المتغير

الشكل 15.19
مخطط التشتت للانحدار المحسوب

15.2.1. تحليل الانحدار لبيانات بحيرة كاديم باستخدام برنامج نصي للطريق

قم بإجراء تحليل الانحدار بين عدد الصيادين و CPUE باستخدام بيانات من الموضوع & # 145 Fishing Village of Lake Kadim & # 146 ومقارنتها بنتائج التحليل الذي تم إجراؤه في Excel.

قم بإجراء عدد من تحليلات الانحدار باستخدام البيانات من بيانات Theme Lake Kadim وقم بملء الجدول 15.3.

15.3 الجدول
نتائج تحليل الانحدار للبيانات الخام لبحيرة كاديم


يمكنك بسهولة العثور على إجابة لهذا السؤال ببساطة عن طريق استخدام google أو كتاب إحصائي أساسي. على سبيل المثال ، استندت في هذه الإجابة إلى فصل من كتاب بعنوان Fundamental Statistics for the Behavioral Sciences by Howell (2013).

R2 ، معامل الارتباط التربيعي ، يشرح قوة العلاقة بين المتغيرين في مخطط التبعثر. لنفترض أن لديك متغيرين ، X (متنبئ) و Y (نتيجة) ، فهناك الكثير من المتغيرات في Y. بعض هذا المتغير سيكون مرتبطًا بمتغير توقعك ، X ، لكن البعض الآخر سيكون ضوضاء ، يشار إليها أيضًا باسم خطأ.

إذا كان X (قل الطول) مؤشرًا جيدًا لـ Y (مثل الوزن) ، فسيتم ربط الكثير من التباين في الارتفاع مع التباين في الوزن. هذا يعني في الأساس أن بعض الأسباب التي تجعل الناس يتفاوتون في الوزن هو أن الناس يختلفون في طولهم. لذا فإن جزءًا من الأسباب التي تجعل الناس يختلفون في الوزن هو أنهم يختلفون في طولهم.

R2 = الاختلاف في Y (في مثالنا للوزن) موضح بواسطة X (في مثالنا الطول) / التباين في Y (الوزن)

بالنظر إلى المعادلة أعلاه ، R2 يساوي النسبة المئوية للتغير في الوزن (Y) ، وهذا الارتفاع (X) قادر على التنبؤ أو الشرح. في حالتك ، تعني قيمة R2 أن المتنبئ يشرح أقل من 1٪ من التباين في متغير النتيجة.


10.5 MAUP

10.5.1 الحصول على البيانات

باستخدام تحديث حديث ، يمكننا أيضًا تغيير هذا قليلاً باستخدام حزمة الدبابيس () التي تقوم بتنزيل عنوان url وتخزينه مؤقتًا والتحقق تلقائيًا من تغييرات الملف ، وإعادة التنزيل فقط إذا لزم الأمر!

تتيح لك الدبابيس () أيضًا مشاركة البيانات بسهولة ، وإلقاء نظرة على منشور مدونة دبابيس RStudio للحصول على مزيد من المعلومات.

  1. خذ البيانات التي تم تنزيلها وقم بتصفيتها بناءً على اسم الملف الذي يحتوي على: Borough OR Ward_ AND .shp باستخدام grepl ()
  1. اقرأ الآن في كلا الملفين باستخدام map () الذي يطبق وظيفة (هنا st_read () من حزمة sf) إلى قائمة. map () يأتي من حزمة purrr التي توسع قدرة البرمجة الوظيفية لـ R.

لتعيين أو الوصول إلى كل ملف شكل فردي ، كل ما عليك هو…

  1. وبالنسبة إلى OSM ، سنقوم بتنزيله من geofabrik ، يمكنك أيضًا استخدام واجهة برمجة تطبيقات OSM (API) ولكن هناك حدًا لعدد النقاط التي يمكن تنزيلها لكل مكالمة ، لذا يتعين عليك القيام بشيء أكثر تعقيدًا للحصول على لندن بأكملها ... ومع ذلك ، فقد قدمت مثالاً على استدعاء api.

10.5.2 مشروع البيانات

10.5.3 الوظائف

  1. تذكر الآن وظيفتنا التي قمنا بها لضم بيانات Airbnb الخاصة بنا (أو الفنادق) إلى طبقة الأحياء السكنية في لندن ... دعنا نجعل الوظيفة مرة أخرى ...

10.5.4 الحلقات

  1. حسنًا ، لكننا نريد الحصول على عدد نقاط Airbnb لكل جناح ومنطقة لندن ... كيف يمكننا القيام بذلك؟ ... حسنًا يدويًا بالطبع ... مثل هذا ...

ولكن يمكننا أيضًا أتمتة هذا باستخدام حلقة (إما حلقة أو حلقة for). لقد استخدمت حلقة while loop هنا ، كما فعلت عندما درست الماجستير في العلوم ، لم تكن قادرًا على وضع حلقة for داخل حلقة for. أعتقد أن هذا قد تغير الآن ولكن بسبب ذلك اليوم ، كان علي أن أقضي في تغيير كل شيء ، كنت دائمًا أتخلف عن استخدام حلقة while.

أخبرنا ما هي الحلقة بالفعل؟

تسمح لك الحلقة بالمرور على شيء يضيف 1 (أو أي قيمة) في كل مرة ... على سبيل المثال ، دعونا ننظر إلى الحلقة الأساسية. تحتاج إلى تشغيل كل شيء في الحلقة مرة واحدة من حين إلى>. إذا قمت بإنشاء Rscript عادي ، فيمكنك تعيين نقاط التوقف - ستتوقف الشفرة في كل مرة تصل فيها إلى نقطة التوقف داخل الحلقة. لا يمكنك القيام بذلك في الوقت الحالي باستخدام أجزاء كود RMarkdown ، فعادة ما أقوم بتطوير الحلقة خارجها بشكل حلقات ثم أجمعها جميعًا معًا.

تنتج هذه الحلقة القيم من 1 إلى 5 ، حيث بدأنا بقيمة 1 ، ثم أضفنا 1 لنحصل على 2. بقيت أقل من 6 ، لذا تم تشغيل الكود مرة أخرى بطباعة الرقم 2 ثم أضاف 1 مرة أخرى لجعل 3 وهكذا. كما حددنا أقل من 6 توقف عند هذا الحد ..

يمكننا أيضًا حفظ هذه النتائج في متغيرات مختلفة ولكننا نحتاج إلى إنشاء قائمة (أو إطار بيانات / كل ما تحتاجه) لتبدأ به لحفظها في

نحن هنا نستخدم المتغير basicloop لفهرسة قائمة التفريغ لدينا .. لذلك في كل مرة نضيف فيها 1 فإنه يغير قيمة الفهرس ... ألق نظرة على ما أعنيه ...

حسنًا ، فكيف سنطبق هذا على بياناتنا. لدينا ملفان .shp (الأحياء والأقسام) في قائمة نريد تطبيق وظيفتنا عليها ..

أولاً ، دعنا نضبط الطول للتوقف عنده ، ونصنع قائمة فارغة ونقطة بداية. نظرًا لأن بياناتنا موجودة في قائمة ، فنحن نريد فقط طول ذلك (كرقم) ..

حسنًا ، هذا سؤال صعب ... بشكل عام ، كانت الحلقات تعتبر غير فعالة في R ، لكني لم أجد بعد طريقة تتيح لك زيادة متغير واحد مع الحفاظ على تناسق آخر ... بهذا أعني مثل ما فعلناه في حلقتنا. قمنا بتغيير البيانات المكانية التي تم ضمها إلى بيانات Airbnb - ظلت بيانات Airbnb كما هي. هناك بعض الوظائف الأخرى مثل mapply () و sapply () و tapply () التي تعمل بنفس التنسيق مثل lapply () ولكن على حد علمي فإنها ستواصل زيادة جميع المتغيرات في نفس الوقت.

من حيث وضوح الكود ، سأشير إلى القسم 21.5 حول التكرار في Wickham $ Grolemund (2017) ...

"سيخبرك بعض الناس بتجنب حلقات for لأنها بطيئة. إنهم مخطئون! (حسنًا على الأقل أنها قديمة إلى حد ما ، لأن الحلقات لم تكن بطيئة لسنوات عديدة). الفوائد الرئيسية لاستخدام "وظائف أخرى" ليست السرعة ، ولكن الوضوح: فهي تجعل الكود الخاص بك أسهل في الكتابة والقراءة. "

ومع ذلك ، في هذه الدورة التدريبية ، لم يتم وضع علامة على مدى "جودة" أو "كفاءة" الكود الخاص بك. بالتأكيد ، أريدك أن تكتب رمزًا رائعًا ، ولكن إذا كنت تكتب رمزًا لتعيينك أو أي مشروع مستقبلي حقًا ، فإن نصيحتي هي نفسها. احصل على شيء يعمل ويعالج مخطط العلامات (اقرأ مخطط العلامات!) ثم إذا كان لديك وقت ، فقم بتحسينه لاحقًا. يوجد أيضًا قسم لاحقًا حول كتابة التعليمات البرمجية المتقدمة في المهمة.

10.5.5 رسم الخرائط المتقدم (مرة أخرى)

  1. حسنًا ، حتى نتمكن نوعًا من رؤية الفرق بين المستويات المكانية (الأحياء والأجنحة) ولكن دعنا نلقي نظرة فاحصة داخل وستمنستر ... إليك "التمهيد" لخريطة المنشور ... بشكل أساسي كل الأشياء التي نحتاجها لإعدادها ...
  1. الآن دعنا نضعها باستخدام ما حددناه للتو ... لقد أضفت بعض الميزات أكثر مما كانت عليه في الخريطة لجعلها عملية

ألقِ نظرة حول الخريطة ... تستخدم منطقة ويستمنستر مقياسًا يأخذ في الاعتبار جميع القيم الأخرى لمنطقة لندن ، في حين أن مقياس الجناح خاص بوستمنستر. استخدم الكود التالي لاستكشاف القيم ...


الإحداثيات الجغرافية

تشكل الإحداثيات الجغرافية للعينات مصدرًا لا يقدر بثمن للمعلومات ، بدءًا من عرض توزيعها المكاني إلى استرجاع المتغيرات البيئية. عند القيام بعمل ميداني ، فإن استخدام GPS هو أفضل طريقة لتسجيل إحداثيات العينات. على هذا النحو ، نوصي بشدة بتسجيل موقع كل عينة ، بدلاً من موقع النقطه الوسطى للسكان على سبيل المثال. أولاً ، يسمح باسترجاع أكثر دقة للقيم البيئية. ثانيًا ، فإن عزو نفس الموقع إلى عدة عينات يستدعي التكرار الزائف ، وهو تحيز إحصائي يجب معالجته في مزيد من التحليل. ثالثًا ، تسمح إحداثيات الأفراد القريبين بقياس مناسب للتشتت ، باستخدام على سبيل المثال العلاقة الوراثية الزوجية مع المسافة. فيما يتعلق بأجهزة GPS ، فإن نظام GPS القياسي ، وإلى حد أقل الهواتف الذكية ، دقيقان بدرجة كافية في معظم الحالات. ومع ذلك ، يوصى باستخدام أجهزة أكثر دقة ، مثل DGPS (نظام تحديد المواقع العالمي التفاضلي) ، لدراسات النطاق المحلي التي تقع فيها العينات على مسافة أقل من مترين: يجب أن تظل دقة الموقع ضمن الدقة المكانية للحبوب.

عندما لا يتم تسجيل إحداثيات نظام تحديد المواقع العالمي (GPS) ، فلا يزال من الممكن تقريب مواقع العينات بمساعدة صور الأقمار الصناعية أو عن طريق ترميز عنوان الموقع (الإسناد الجغرافي أو الترميز الجغرافي) ، على الرغم من دقة أقل. في الحالة الأولى ، يتيح إنشاء طبقة متجهية جديدة مغطاة على صورة قمر صناعي أو خريطة عبر الإنترنت (انظر القسم التالي) استعادة إحداثيات العينات من موقع معروف تقريبًا (على سبيل المثال ، مفترق طرق ، شجرة ، نهر Docs.QGIS ، 2014). للحالة الأخيرة ، تم تطوير المكونات الإضافية لقراءة ملف نصي محدد يحتوي على عناوين (على سبيل المثال ، عنوان منزلك الخاص) التي تريد تحديد موقعها (على سبيل المثال المكون الإضافي MMQGIS في QGIS ، Mangomap ، 2012 MMQGIS Plugin ، 2012). وتجدر الإشارة إلى أن كل سطر يجب أن يحتوي على العنوان والمدينة والولاية والبلد.

اعتبار أساسي آخر هو اختيار نظام الإحداثي المرجعي ذي الصلة. في الواقع ، تعرض أجهزة GPS إحداثيات نقطة في قيم خطوط الطول والعرض ، عادةً في النظام الجيوديسي العالمي (WGS84). هذا نظام مرجعي عالمي يتم فيه تمثيل الأرض بواسطة شكل إهليلجي ، ويتم تحديد كل موضع على السطح من خلال زاويتين في مركز الأرض: خط العرض وخط الطول. ومع ذلك ، فإن الأنظمة المسقطة التي يتم فيها تحويل موقع جغرافي من الشكل الإهليلجي (المسافات المعبر عنها بالدرجات) إلى الموقع المقابل على سطح ثنائي الأبعاد (x و y معبرًا بالأمتار) هي المفضلة للتحليلات. من المهم ملاحظة أنه على الرغم من وجود أنظمة عالمية تغطي الكوكب بأكمله ، فإن لكل دولة أو منطقة نظام إحداثيات خاص بها يكون أكثر دقة محليًا من النظام العالمي. في حالة عدم وجود نظام وطني متوقع ، لا يزال من الممكن استخدام نظام إحداثيات Universal Transverse Mercator (UTM) ، وهو نظام إحداثيات متوقع يغطي الكرة الأرضية بأكملها ويقسمها إلى ستين 6 & # x000B0 منطقة طولية واسعة (Dmap ، 1993). على الرغم من أن برنامج GIS يتعامل عادةً مع أنظمة الإسقاط المختلفة ، يوصى بإعادة الإسقاط اليدوي لجميع الطبقات في نفس نظام الإسقاط المحلي لتجنب حالات عدم التوافق المحتملة (انظر القسم التالي). ومع ذلك ، قد لا تستخدم نظم المعلومات الجغرافية المختلفة نفس الاسم لنظام إحداثيات. لذلك ، لتسهيل تحديد أنظمة الإحداثيات عبر تنوع برمجيات GIS ، فإن قاعدة بيانات EPSG (المجموعة الأوروبية لمسح البترول) (EPSG ، 1985) هي قاعدة بيانات مستخدمة على نطاق واسع تشير إلى جميع أنظمة الإحداثيات المتوقعة ، والمنفذة في كل نظم المعلومات الجغرافية وتزويدها بقاعدة بيانات. المعرف الفريد (Maling ، 1992) ، على سبيل المثال ، EPSG: 4326 يتوافق مع النظام المرجعي WGS84.


مقارنة مجموعة البيانات

تؤثر جودة DEMs الأساسية ، من حيث الدقة الرأسية والمكانية ، بشكل مباشر على جودة الطبقات الجيومورفومترية المطورة حديثًا. في هذا القسم ، نقوم بتقييم حساسية الطبقات الجيومورفومترية فيما يتعلق بدقة DEM ونصفها في ثلاثة أقسام فرعية منظمة على النحو التالي: 1) تقييم الإسقاط الجغرافي ، حيث نعرض المصنوعات اليدوية المحتملة التي يمكن أن تنبع من حساب المتغير الجيومورفومتري تحت WGS84 المسند الجيوديسي وإسقاط Equi7 ii) الطبقات الجيومورفومترية MERIT-DEM مقابل الطبقات الجيومورفومترية المشتقة من 3DEP-1 ، حيث نصف تباين الطبقات الجيومورفومترية الأكثر شيوعًا التي تم الحصول عليها من MERIT-DEM و 3DEP-1 DEMs iii) MERIT-DEM مقابل ارتفاع LiDAR المقارنة ، التي تحدد تأثير إزالة انحياز ارتفاع الشجرة في MERIT-DEM باستخدام DTM و DSM التي تم الحصول عليها من LiDAR. بشكل عام ، تسلط هذه التحليلات الضوء على جودة الطبقات الجيومورفومترية المشتقة من نظام MERIT وتجعل من الممكن تحديد الأخطاء المحتملة في DEMs.

تقييم الإسقاط الجغرافي

مطلوب إسقاطات رسم الخرائط لرسم خريطة لسطح الأرض على مستوى ثنائي الأبعاد وهذا مهم بشكل خاص لـ DEMs. بغض النظر عن الإسقاط المستخدم ، سيحدث نوع من التشويه في الخريطة الناتجة ولكن اختيار الإسقاط المناسب يجب ، من حيث المبدأ ، تقليل مدى ونوع التشوهات 36. بشكل عام ، تتضاءل تشوهات الخريطة مع تقليل المنطقة الجغرافية ، على سبيل المثال ، عند الانتقال من النطاق العالمي إلى النطاق القاري أو الإقليمي. علاوة على ذلك ، تزداد التشوهات عندما ينتقل المرء على طول سطح بعيدًا عن مركز الإسقاط. هذا التشويه هو خاصية لا مفر منها لإسقاطات الخرائط ، ومن المهم تقييم تأثيره على أي نوع من التحليل المكاني ، لا سيما على تلك التي يتم إجراؤها على نطاق واسع. لتقييم تأثير تشوهات الخريطة على المتغيرات الجيومورفومترية ، قمنا بتحليل تغيرات الانحدار تحت موقعين جغرافيين لهما تشوهات سطحية مختلفة.

يُعرّف المنحدر على أنه معدل تغير الارتفاع على طول اتجاه تدفق المياه ، ويتم حسابه باستخدام نافذة متحركة 3 × 3 خلية. يمكن التعبير عن معدل التغيير كنسبة مئوية من تغير الارتفاع لأكثر من 100 متر. من أجل الحصول على نفس الوزن في x و ذ الاتجاهات على معدل التغيير ، يجب أن يكون لحجم الخلية نفس البعد في x و ذ الاتجاهات. ليس هذا هو الحال عند استخدام نظام الإحداثيات الجغرافية وتحديدًا مكان التدرج الطولي (في ذ البعد) ثابتًا فيما يتعلق بالتدرج العرضي (in x البعد) ، والذي يتناقص بعيدًا عن خط الاستواء.

نظرًا لأن منحدر التضاريس أحد أكثر المتغيرات الجيومورفومترية استخدامًا ، فقد اعتمدت جميع برامج نظم المعلومات الجغرافية والاستشعار عن بُعد خوارزميات لحسابها. ومع ذلك ، لا تستخدم أي من هذه الخوارزميات إجراء تصحيح لحساب تشويه الشبكة في x و ذ البعد. بعبارة أخرى ، يتعاملون مع بيانات خطوط الطول والعرض كمصفوفة على شبكة مربعة. بدلاً من ذلك ، ثبت أن خطوط الطول تتقارب نحو القطبين وتختلف مسافة الدوائر المتوازية قليلاً فقط. وهكذا ، تصبح الشبكة المربعة عند خط الاستواء شبكة مستطيلة عند خطوط العرض الأعلى. لذلك ، لتحديد تأثير التغييرات في أبعاد خط العرض x، قمنا بمقارنة قيم الانحدار تحت WGS84 مع تلك الموجودة في Equi7 لمنطقتين دراسيتين من 500 × 500 خلية شبكية ، مع MERIT-DEM كطبقة أساسية ثابتة. يمكن عرض هذا الإجراء باستخدام محاكاة DEM تحت موقعين متميزين ، أحدهما في المنطقة شبه الاستوائية والآخر في المنطقة شبه القطبية. ومع ذلك ، لإظهار تأثير محتمل حقيقي ، نختار منطقة واحدة فقط من MERIT-DEM.

توضح الرسوم البيانية الواردة في الشكل 2 الاختلاف في حسابات الميل كنتيجة مباشرة لاستخدام خطوط الطول والعرض في WGS84 مع تلك الموجودة في شبكة مربعة على Equi7. لمقارنة نفس MERIT-DEM ضمن WGS84 و Equi7 في موقعين متميزين ، نقوم بنقل (أي إحداثيات إزاحة Equi7 - ملاحظة: عدم إعادة الإسقاط) المنطقة شبه الاستوائية MERIT-DEM (مركز الصورة: خط الطول -83.26 ، خطوط العرض 9.05 في كوستاريكا) (الشكل 2g) إلى منطقة شبه قطبية (مركز الصورة: خط الطول -38.19 ، خطوط العرض 72.80 في جرينلاند) (الشكل 2 أ) ، تحت Equi7. ينتج عن ذلك إزاحة بسيطة على طول المحور الشمالي الجنوبي دون تغييرات في قيمة بكسل الارتفاع (عدم الاستيفاء). بعد إعادة إسقاط MERIT-DEM إلى WGS84 (الشكل 2 ب ، ح) ، قمنا بحساب المنحدر (الشكل 2f ، د) ثم أعدنا إسقاطه مرة أخرى إلى Equi7 (أسهم الخط الأزرق في الشكل 2) لمقارنة النتائج باستخدام التبعثر المؤامرات. يتوافق الشكل 2 أ مع ارتباط المنحدر للمنطقة القطبية الجنوبية ، بينما يتوافق الشكل 2 ي مع المنطقة شبه الاستوائية). في كل مخطط تبعثر (الأشكال 2 ط ، ي) ، يمثل الخط الأحمر علاقة 1: 1 ، بينما يمثل الخط الأسود نموذج انحدار مناسب بين المتغيرات. تكون الاختلافات في حسابات المنحدرات بين النظامين في حدها الأدنى داخل المنطقة شبه الاستوائية (الشكل 2 ي) ، حيث تقع منطقة الدراسة بجوار خط الاستواء. ومع ذلك ، في المنطقة شبه القطبية ، تختلف الاختلافات بشكل كبير ، حيث تم التقليل من قيمة المنحدر المحسوب بموجب WGS84 مقارنة بمنحدر Equi7. وذلك لأن المنحدرات المواجهة للشرق أو الغرب سيكون لها انحدار أقل من الواقع بشكل كبير بسبب تمدد المنحدرات x الأبعاد في اتجاه الشرق والغرب (لاحظ جميع النقاط بشكل ملحوظ تحت الخط الأحمر في الشكل 2i). من ناحية أخرى ، قد تكون المنحدرات المواجهة للشمال والجنوب معتدلة بشكل صحيح (لاحظ جميع النقاط القريبة من الخط الأحمر في الشكل 2i).

تقييم تحيز الإسقاط. Graphical representation of the difference in terrain slope calculation due to the effect of using the World Geodetic System 1984 (WGS84) (raster panels right-hand side) compared to the Equi7 projection (raster panels left-hand side). A study area located in the subtropical zone (image centre: longitude −83.26, latitudes 9.05) was used to subset the MERIT-DEM for an area of 500 × 500 grid cells (g). This area has been transposed to a subarctic zone (image centre: longitude −38.19, latitudes 72.80) under the Equi7 projection (أ). After having been reprojected to WGS84 (b,h), the variable slope was calculated in the four conditions (c–f), and then reprojected back to Equi7 for comparisons (see blue line-arrows). The scatter plots on the right-hand side shows the WGS84-MERIT slope (d,f) vs. the MERIT slope under the Equi7 projection (c,e), respectively for the subarctic zone (أنا) and for the subtropical zone (ي). The red lines represent the 1:1 relationship and black lines represent a linear model between the two axes. The slope calculated under WGS84 in the subarctic zone is clearly underestimated compared to the one calculated under the Equi7 projection.

Similar to slope, all geomorphometric variables are influenced by underlying grid distortions. In particular, the slope is influenced by both length and angular distortions, as are all of the other geomorphometric variables listed under the first and second derivatives group. In contrast, the ruggedness geomorphometric variables are influenced more by areal distortions because of elevation differences at the pixel level. These results emphasise the importance of computing the geomorphometric variables under the Equi7 projection.

In conclusion, it is not that the WGS84 geodetic datum is wrong and distorted but its treatment of latitudinal and longitudinal grids as squares is erroneous, as in the Plate Carrée projection. Consequently, the calculation of any geomorphometric variables under WGS84 should be avoided.

3DEP-1 versus MERIT-DEM comparison

For geomorphometrical and hydrographical applications, the elevation difference between two DEMs is important since any application will be contingent on the values of the derived geomorphometric variables, for example, impacting on the delineation of streams and catchments. In the following sections, we analyse the difference in the elevation values between the 3DEP-1 and MERIT DEMs, as well as their derived geomorphometric variables. The 3DEP-1 is a LiDAR-based DEM and given its high accuracy, can be used as a reference elevation that has negligible errors. Initially, we compare the elevation difference between 3DEP-1 and the MERIT-DEM, and subsequently we analyse how the differences in DEMs influence the derived geomorphometric variables.

Comparing DEMs using the Elevation Deviation Index (EDI)

The elevation difference, or deviation, at pixel level between two DEMs can be expressed as

أين x و ذ are the elevation values in each single pixel أنا. The (>_) value is equal to 0 if the two DEMs have the same elevation. The overall raster of (>_) values represents the Δ surface.

To identify areas where the deviation is stronger, the deviation at each pixel needs to be considered with the surrounding elevation pixel values (xأنا+1). In our case, we label 3DEP-1 as ذ and MERIT-DEM as x. Therefore, considering a circular window of 23 × 23 pixels that slides across ذ, it is possible to obtain the standard deviation, which estimates the local elevation roughness. Mathematically, the standard deviation of ذأنا in a moving circular window is expressed as:

If we integrate the (>_) and its surrounding standard deviation, we obtain the Elevation Deviation Index (EDI), which is defined as the ratio

EDI represents the relative deviation over the surrounding elevation variability in the moving window. The component k, in above equation, is used to prevent the situation that areas completely flat, with σأنا = 0, will produce infinite values of the EDI. In our case, we set k = 0.1, which is a very small value compared to the calculated σأنا, even in quasi-flat areas. k does not influence the σأنا and consequently the overall performance of the EDI.

For example, a local elevation difference of 1 m will create a higher index in flat areas compared to mountain regions and the index can be positive or negative with respect to the (>_). ال EDI can be used to select zones where the elevation difference between the 3DEP-1 and the MERIT-DEM is substantial considering the roughness of the surrounding areas. Hence, flat areas will be more sensitive to the EDI compared to steep, mountainous areas. We expect that areas with extreme EDI will be more prone to deviating stream networks compared to zones with EDI close to 0 (see Fig. 3).

Elevation Deviation Index. Elevation Deviation Index EDI (ج) obtained as the ratio of elevation difference (أ: 3DEP-1 - MERIT) and elevation standard deviation calculated using a moving window of 5 × 5 pixels of the 3DEP-1 (ب). The coordinates reported in أ are in Equi7 and expressed in metres. The study area refers to a zone of 18.4 × 20 km, which has a high level of forest cover, and is located in Alberta, Canada, close to Jasper National Park - image centre 118.25°W 53.29°N. The same area is used in the Fig. 4 to assess the geomorphometric variables.

When comparing DEMs with unknown or significant errors, the standard deviation of the mean of the two DEMs can be calculated. Besides, this standard deviation is a measure of roughness, and the window size (Eq. 2) reflects neighbouring influences. A large window size will produce a larger standard deviation and thus lower EDI, on average. The moving window size can be adjusted with respect to the resolution of the DEMs or on the basis of the surrounding roughness. ال EDI can be applied on a global scale by comparing different DEMs, and highlighting areas where the DEMs have discrepancies.

Figure 3 shows EDI and its components for an area of 18.4 × 20 km. The extreme Δأنا values (black and blue areas in أ) do not necessarily produce extreme EDI. With respect to the EDI, in the largest part of the study area, the DEMs are in agreement (yellow - green colour) and located in zones with a high level of roughness. On the contrary, in flat areas (blue colour in b) the EDI can reach extreme values (blue and dark red colour in c).

Comparing the continuous geomorphometric variables

To compare the geomorphometric variables derived from the 3DEP-1 and MERIT-DEM under the same scale unit, we normalise the difference expressed as a Δ surface. Hence, we deal with the difference (for example pcurv-3DEP-1 - pcurv-MERIT) by scaling all positive values to fall between 0 and +1, and negative values to fall between -1 and 0. As a result, the difference value at 0 remains at 0 when scaled (e.g. 0, 9 scaled to 0, 1 −3, 0 scaled to −1, 0).

Consequently, the normalised Δ surface derivative from each geomorphometric variable can be compared having the same unit and can be used to assess the sensitivity of the variables to the differences in DEM elevation. In fact, in instances where the Δ surface has a value close to 0, this suggests that a geomorphometric variable is not strongly influenced by the difference between the two DEMs. In contrast, in instances where the Δ surface has several pixels with negative or positive values, this means that they are influenced by the DEM’s difference.

Figure 4 shows an overview of the normalised Δ surface for each geomorphometric variables. Two elevation plots (Fig. 4a,b) show the 3DEP-1 and MERIT DEMs and relative scatter plot (Fig. 4c). The elevation difference (Fig. 4d) shows values ranging from −113 m to +216 m. The largest values of difference are located close to the peak areas, and the smallest values are concentrated in the valley areas. Figure 4e shows the normalised version. In contrast, the other plots show the spatial variability of the geomorphometric difference, expressed with normalised values. Values close to −1 and +1 mean high sensitivity to elevation difference, and conversely, values close to 0 mean less sensitivity. In general, the overall correlation between 3DEP-1 and MERIT-DEM is very high, with the blue line representing a fitted regression model, which is very close to the 1:1 red line. These results are in line with other studies that evaluate the accuracy of the MERIT-DEM 17,19 .

Normalised difference maps. Normalised difference maps represented as Δ surface, for each geomorphometric variable derived from 3DEP-1 minus MERIT-DEM. To compare the geomorphometric variables under the same scale unit, the difference has been scaled from -1 to 1 (minimum and maximum stretching) keeping the 0 value (no difference) at the 0 position. The bottom plot reports the normalised difference as mean (blue line) and standard deviation values (orange vertical lines) of the maps. The mean and standard deviation plot helps to identify which geomorphometric variables are more sensitive to variation in the DEMs (e.g. high sensitivity for variables derived from slope and aspect). The coordinates ش in Equi7 are expressed in metres and refer to a study area of 18.4 × 20 km, which has a high level of forest cover, and is located in Alberta, Canada, close to Jasper National Park - image centre 118.25°W 53.29°N.

The differences in elevation are mainly due to the radar beam’s shadow, which is usually evident in steep terrain. In fact, in Fig. 4d, the area with high elevation difference is located in the south-west corner with Δ values larger than 200 m. The greatest relative deviations are in high-relief areas for most of the geomorphometric variables except for the compound topographic index, convergence, and sine and cosine of aspect (see Fig. 4j,x,l,m). For these exceptions, the relative deviations are greatest in low-relief areas, especially in the valleys. Indeed, flat areas are very sensitive to the DEMs accuracy and slight variations in the elevation can switch the aspect to the opposite direction.

The behaviour between the compound topographic index (cti) and stream power index (spi) differs due to the logarithmic scale used in the cti. Consequently, the deviation of the cti is visible when there is a small variation of the flow accumulation. On the other hand, the spi does not employ a logarithmic scale, and the deviation is only evident when there is a drastic change in the flow accumulation areas that are adjacent to stream locations.

Visually, the aspect-sine, the aspect-cosine, slope, eastness, northness and the convergence are geomorphometric features that are very sensitive to differences between the two DEMs (see Fig. 4f,g,h,x).

To support the visual assessment of the maps in Fig. 4 with numerical values, we analysed the normalised Δ surface by plotting the mean values and standard deviation for the positive and negative values (see Fig. 4). In fact, similar patterns can also be seen for any of the aforementioned variables with high standard deviation (see vertical lines). The aspect is very sensitive to DEM differences in both steep terrain and flat areas. Even the derived sine and cosine Δ surface show black and blue areas (+1 and −1, respectively) in the central valley (see Fig. 4i,m). Note that these areas are not apparent in the other variables. Just as 1st partial derivatives have been used to detect artefacts in DEMs 19 , the Δ surface of the aspect-sine and aspect-cosine can be used to highlight areas where the two DEMs show differences in elevation.

Comparing the categorical geomorphometric variables

To assess the sensitivity of pattern delineation of the geomorphological forms derived from MERIT-DEM and 3DEP, we compare the geomorphological classification agreement for an area of 300 × 300 km (3000 × 3000 picels at 100 m spatial resolution) in South Dakota, USA. Figure 5 shows two raster plots (a,b) with a similar pattern at large scale but when observed in finer detail, there are differences in the classification at the pixel level (see Fig. 5a,b magnified circle). A common way to analyse the differences between two classifications is the calculation of a so-called confusion (or error) matrix 62 . The confusion matrix displays the probabilities with which pixels belonging to a certain class in one product appear in the same or a different class in the compared product. A confusion matrix can therefore be used to illustrate not only the degree to which the two classifications agree but also reveal how likely a class is misclassified.

Geomorphological forms maps and confusion matrices. The geomorphological forms have been computed for a study area of 3000 × 3000, 100 m pixels in South Dakota (USA) derived from MERIT (a–c) and 3DEP-1 (b–d), respectively. The confusion matrix values are expressed in percentages of the MERIT-DEM classes, with the sum of vertical values equal to 100 (د) and of the 3DEP-1 classes, with the sum of the horizontal values equal to 100 (ج). The sum of the values in the blue boxes is equal to 100, and so on for each row (ج) and column (د).

In order to allow a numerical comparison of the geomorphological classifications, we calculate two confusion matrices among the 10 classes in each product (see Fig. 5). One is expressed as percentage of MERIT-DEM classes such that the sum within each row is equal to 100 (see Fig. 5c). Considering 3DEP-1 as a reference product, this would give the “user accuracy” of the MERIT-DEM geomorphometric classes. For instance, almost 70% of the flat pixels in MERIT-DEM also appear to be flat in 3DEP-1, while 10% are overlapping either with foothill or shoulder which are indeed likely spatial neighbours to flat. This is possibly an indication for some co-registration or interpolation issues affecting the two products.

The other matrix is calculated to display the percentages with respect to the 3DEP-1 classification, i.e. each column will sum up to 100 (see Fig. 5d). It shows the likelihood with which a 3DEP-1 class appears in the same or other classes of MERIT, which is called “producer accuracy”, e.g. 86% of flat pixels in 3DEP-1 are also correctly classified as flat in MERIT. Additionally, the most likely confusion here is again with foothill أو shoulder classes (both around 6%), which support the above assumption of a co-registration issue. Another interesting finding is the widespread confusion between the summit و ridge صف دراسي.

The congruence of summit pixels between the two products is in fact less likely than their respective confusion with ridges in the other. In addition, there are at least three times as many summit pixels detected in 3DEP-1 compared to MERIT. Similar anomalies occur for the morphologically inverse classes depression و valley. The reason for these results could either be due to an increased richness of detail (or actual resolution) offered by 3DEP-1 or a higher level of noise (though the latter being less likely given its high level of detail). Nevertheless, this preliminary analysis shows that the underlying DEM data yield significantly different geomorphometric characteristics and that the confusion matrix allows these differences to be numerically expressed.

Comparing MERIT-DEM vs LiDAR elevation

Last return points in LiDAR data, which penetrate dense vegetation, are used to extract the DTM, whereas the first returns that hit the canopy of vegetation are used to derive the DSM. In our case, the LiDAR DTM and DSM were used to assess the quality of the tree height removal procedure carried out for the MERIT-DEM. Figure 6 reports the DTM vs. MERIT-DEM (red points) and the DSM vs. MERIT-DEM (blue points) of four study areas in USA with a high forest cover. In the four scatter plots, it is possible to distinguish the height difference between the DTM and DSM. The MERIT-DEM dataset has been corrected for the tree height bias 17 , and consequently the MERIT-DEM elevation values are expected to be closer to the LiDAR DTM than those of the LiDAR DSM. The LiDAR DTM vs. MERIT, and the LiDAR DSM vs. MERIT-DEM differences are analytically quantified by the linear model depicted in the scatter plot of Fig. 6. Where there is no vegetation or low vegetation (e.g. agricultural plains - Fig. 6c,d bare ground mountain tops - Fig. 6a,b), the DTM and DSM have almost identical values, denoted by an overlap of red and blue points. The presence of similar elevation values in the DTM and DSM causes a convergence of the linear models (blue and red lines the linear model functions are reported at the bottom of each scatter plot). The convergence in the lower parts of the plot (lower elevations) corresponds with the landscape (flat areas) and the absence of forest cover, which contributes to very similar values in the DTM and DSM. Whereas, at higher elevations, where there is increased forest cover, there is a greater difference between the DTM and DSM. This phenomena is more evident in Fig. 6c,d. On the contrary, Fig. 6a,b show a more parallel trend of blue and red lines, which is due to forest cover that is more equally distributed along the relief. It is important to note that the the scatter plots are plotted with different elevation ranges (x- and y-axis), and therefore the deviation of the red and blue line appears more evident in plots with lower elevation range (Fig. 6c). The regression coefficients for 3DEP-1 DTM vs. MERIT-DEM are slightly below 1 with an intercept value ranging from 8 to 34 m. On the other hand, the 3DEP-1 DSM vs. MERIT-DEM correlation has a regression coefficient larger than 1 and an intercept ranging from -154 to 46. The mean difference between DTM and DSM for Fig. 6a–d study areas ranges from 12 to 21 m. Overall, these values demonstrate the strong correlation between the MERIT-DEM and the LiDAR DTM.

MERIT-DEM vs LiDAR-DEM. Comparison of MERIT-DEM with the LiDAR DSM and LiDAR DTM for four study areas, represented by their scatter-plots and their relative linear models.

Identification of artefacts

It is important to note that the use and application of MERIT is based on the understanding that while it currently represents the best quality DEM available, it still contains errors and artefacts, which have not been corrected within the context of this research, as this was considered beyond the scope of the specific research objective. Consequently these errors cascade into the new Geomorpho90m dataset. The effect of these errors are mainly due to stripes that were recurrent in the AW3D product. These are visible in flat areas, where the artefact error is larger than the delta between pixels (e.g. slope). For instance, stripe artefacts can be found at the following locations in western Russia 63 as well as in central Russia 64 .


3 إجابات 3

The answer is no, there is no such regular relationship between $R^2$ and the overall regression p-value, because $R^2$ depends as much on the variance of the independent variables as it does on the variance of the residuals (to which it is inversely proportional), and you are free to change the variance of the independent variables by arbitrary amounts.

As an example, consider أي set of multivariate data $((x_, x_, ldots, x_, y_i))$ with $i$ indexing the cases and suppose that the set of values of the first independent variable, $<>>$, has a unique maximum $x^*$ separated from the second-highest value by a positive amount $epsilon$. Apply a non-linear transformation of the first variable that sends all values less than $x^* - epsilon/2$ to the range $[0,1]$ and sends $x^*$ itself to some large value $M gg 1$. For any such $M$ this can be done by a suitable (scaled) Box-Cox transformation $x o a((x-x_0)^lambda - 1)/(lambda-1))$, for instance, so we're not talking about anything strange or "pathological." Then, as $M$ grows arbitrarily large, $R^2$ approaches $1$ as closely as you please, بغض النظر of how bad the fit is, because the variance of the residuals will be bounded while the variance of the first independent variable is asymptotically proportional to $M^2$.

You should instead be using goodness of fit tests (among other techniques) to select an appropriate model in your exploration: you ought to be concerned about the linearity of the fit and of the homoscedasticity of the residuals. And don't take any p-values from the resulting regression on trust: they will end up being almost meaningless after you have gone through this exercise, because their interpretation assumes the choice of expressing the independent variables did not depend on the values of the dependent variable at all, which is very much not the case here.


3 إجابات 3

$R^2$ being zero for flat lines is not a bias: is just what it is intended to be. I'll give two reasons.

First reason is that $R^2$ measures if there is a linear relationship between two variables. A relationship would mean that the values we can expect from one variable depend on the value of the other variable. If the variables are related by a flat line, the value of one variable is always the same, it doesn't depend on the value of the other variable and there is no linear relationship between both variables. $R^2$ being zero or very small just shows it.

The second reason is that a flat line is a line just because of scale. If points are not exactly aligned, changing the scale of the vertical axe shows the difference between the points and the line and the scatterplot becomes a cloud and not a line.

Here is a graphical example:

In the bottom and right plots, points are clearly aligned, while upper left plot shows no relationship between the variables. However, all of them are just the same plot with different graphical scales.


One way to deal with this is with alpha blending, which makes each point slightly transparent. So regions appear darker that have more point plotted on them.

This is easy to do in ggplot2 :

Another convenient way to deal with this is (and probably more appropriate for the number of points you have) is hexagonal binning:

And there is also regular old rectangular binning (image omitted), which is more like your traditional heatmap:


6 إجابات 6

The estimated value of the slope does not, by itself, tell you the strength of the relationship. The strength of the relationship depends on the size of the error variance, and the range of the predictor. Also, a significant $p$-value doesn't tell you necessarily that there is a strong relationship the $p$-value is simply testing whether the slope is exactly 0. For a sufficiently large sample size, even small departures from that hypothesis (e.g. ones not of practical importance) will yield a significant $p$-value.

Of the three quantities you presented, $R^2$, the coefficient of determination, gives the greatest indication of the strength of the relationship. In your case, $R^ <2>= .089$, means that $8.9\%$ of the variation in your response variable can be explained a linear relationship with the predictor. What constitutes a "large" $R^2$ is discipline dependent. For example, in social sciences $R^2 = .2$ might be "large" but in controlled environments like a factory setting, $R^2 > .9$ may be required to say there is a "strong" relationship. In most situations $.089$ is a very small $R^2$, so your conclusion that there is a weak linear relationship is probably reasonable.


شاهد الفيديو: حساب معامل الارتباط البسيط لبيرسون