مشخصات مقاله
-
0.0
-
2268
-
0
-
0
انحراف معیار و واریانس در ماشین لرنینگ
انحراف معیار در ماشین لرنینگ
انحراف معیارعددی است که میزان پراکندگی داده ها را از میزان میانگین به صورت متوسط توصیف می کند. اگر این شاخص نزدیک به صفر باشد نشان دهنده این مطلب است که مقدار این داده ها به میانگین نزدیک است و پراکندگی اندکی دارند.
- انحراف استاندارد پایین به این معنی است که بیشتر اعداد به مقدار میانگین (متوسط) نزدیک هستند.
- انحراف استاندارد بالا به این معنی است که مقادیر در محدوده وسیع تری پخش شده اند.
این بار سرعت 7 خودرو را ثبت کرده ایم و اعداد زیر بدست آمده اند:
speed = [86,87,88,86,87,85,86]
انحراف معیار:
0.9
به این معنی که اکثر مقادیر در محدوده 0.9 از مقدار میانگین که 86.4 است، فاصله دارند. اجازه دهید همین کار را با مجموعه ای از اعداد با دامنه وسیع تر انجام دهیم:
speed = [32,111,138,28,59,77,97]
انحراف معیار:
37.85
به این معنی که اکثر مقادیر در محدوده 37.85 از مقدار میانگین که 77.4 است، قرار دارند. همانطور که می بینید، انحراف استاندارد بالاتر نشان می دهد که مقادیر در محدوده وسیع تری پخش شده اند. همچنین ماژول NumPy روشی برای محاسبه انحراف استاندارد دارد:
import numpy
speed = [86,87,88,86,87,85,86
x = numpy.std(speed)
print(x)
خروجی :
0.9035079029052513
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
خروجی
37.84501153334721
واریانس در ماشین لرنینگ
واریانس شاخص دیگری است که میزان پراکندگی داده ها را از میانگین نشان می دهد. در واقع، اگر جذر واریانس را بگیرید، انحراف معیار را بدست آورده اید. یا برعکس، اگر انحراف معیار را در خودش ضرب کنید، واریانس به دست می آید. جهت محاسبه واریانس باید به صورت زیر عمل نمایید:
1. میانگین را بدست آورید:
(32+111+138+28+59+77+97) / 7 = 77.4
2. برای هر داده میزان تفاوت را از میانگین بیابید:
32 - 77.4 = -45.4
111 - 77.4 = 33.6
138 - 77.4 = 60.6
28 - 77.4 = -49.4
59 - 77.4 = -18.4
77 - 77.4 = - 0.4
97 - 77.4 = 19.6
3. برای میزان تفاوت ، مقدار مربع را پیدا نمایید:
(-45.4)2 = 2061.16
(33.6)2 = 1128.96
(60.6)2 = 3672.36
(-49.4)2 = 2440.36
(-18.4)2 = 338.56
(- 0.4)2 = 0.16
(19.6)2 = 384.16
4. در نهایت از اعداد بدست آمده میانگین می گیریم:
(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16) / 7 = 1432.2
خوشبختانه، NumPy روشی برای محاسبه واریانس دارد:
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)
خروجی
1432.2448979591834
انحراف معیار
همانطور که آموختیم، فرمول اصلی برای یافتن انحراف معیار، جذر واریانس است:
√1432.25 = 37.85
یا اینکه می توانیم مانند مثال قبلی، از NumPy برای محاسبه انحراف استاندارد استفاده کنید:
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
خروجی
خروجی
37.84501153334721
- انحراف استاندارد اغلب با نماد Sigma نشان داده می شود: σ
- واریانس اغلب با نماد مربع سیگما نشان داده می شود: σ2