異常值是數(shù)據(jù)集的重要組成部分。它們可以保存有關(guān)您數(shù)據(jù)的有用信息。異常值可以為您正在研究的數(shù)據(jù)提供有用的見(jiàn)解,并且它們可以對(duì)統(tǒng)計(jì)結(jié)果產(chǎn)生影響。這可能會(huì)幫助您發(fā)現(xiàn)不一致之處并檢測(cè)統(tǒng)計(jì)過(guò)程中的任何錯(cuò)誤。因此,了解如何在數(shù)據(jù)集中查找異常值將有助于您更好地理解數(shù)據(jù)。
有幾種不同的方法可以在統(tǒng)計(jì)中找到異常值。本文將解釋如何通過(guò)計(jì)算四分位距來(lái)檢測(cè)數(shù)值異常值。我舉了一個(gè)非常簡(jiǎn)單的數(shù)據(jù)集以及如何計(jì)算四分位距的示例,因此您可以根據(jù)需要進(jìn)行操作。讓我們開(kāi)始吧!
什么是統(tǒng)計(jì)中的異常值?
簡(jiǎn)單來(lái)說(shuō),異常值是相對(duì)于最近的數(shù)據(jù)點(diǎn)和您正在使用的數(shù)據(jù)圖或數(shù)據(jù)集中的其余相鄰共存值而言極高或極低的數(shù)據(jù)點(diǎn)。
離群值是從數(shù)據(jù)集或圖形中的整體值模式中顯著突出的極值。
下面,在圖表的最左側(cè),有一個(gè)異常值。
一月份的值明顯低于其他月份。
如何識(shí)別數(shù)據(jù)集中的異常值
好的,你如何尋找異常值?
異常值必須滿足以下兩個(gè)條件之一:
outlier < Q1 - 1.5(IQR)
outlier > Q3 + 1.5(IQR)
低離群值的規(guī)則是數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)必須小于?Q1 - 1.5xIQR
?。
這意味著數(shù)據(jù)點(diǎn)需要低于第一個(gè)四分位數(shù)的四分位間距的 1.5 倍以上才能被視為低異常值。
高離群值的規(guī)則是,如果數(shù)據(jù)集中的任何數(shù)據(jù)點(diǎn)大于?Q3 - 1.5xIQR
?,則為高離群值。
更具體地說(shuō),數(shù)據(jù)點(diǎn)需要落在第三個(gè)四分位數(shù)以上的四分位距的 1.5 倍以上才能被視為高異常值。
如您所見(jiàn),您需要首先在數(shù)據(jù)集中計(jì)算某些個(gè)別值,例如IQR. 但是要找到IQR,您需要找到分別是Q1和 的所謂的第一四分位數(shù)和第三四分位數(shù) Q3。
所以,讓我們看看它們各自做了什么,并分解如何在奇數(shù)和偶數(shù)數(shù)據(jù)集中找到它們的值。
如何在奇數(shù)數(shù)據(jù)集中找到上下四分位數(shù)
首先,假設(shè)您有這個(gè)數(shù)據(jù)集:
25,14,6,5,5,30,11,11,13,4,2
第一步是按數(shù)字升序?qū)χ颠M(jìn)行排序,從最小到最大。
2,4,5,5,6,11,11,13,14,25,30
最低值 ( MIN ) 是2,最高值 ( MAX ) 是30。
如何在奇數(shù)數(shù)據(jù)集中計(jì)算Q2
下一步是找到中位數(shù)或四分位數(shù) 2 (Q2)。
這組特定的數(shù)據(jù)具有奇數(shù)個(gè)值,11總分加在一起。
在數(shù)據(jù)集中查找中位數(shù)意味著您正在查找中間值——集合中的單個(gè)中間數(shù)。
在奇數(shù)數(shù)據(jù)集中,只有一個(gè)中間數(shù)。
因?yàn)?1總共有值,所以一個(gè)簡(jiǎn)單的方法是將集合分成兩個(gè)相等的部分,每邊包含5值。
中值將5在一側(cè)具有值,在另一側(cè)具有值5。
(2,4,5,5,6), 11,(11,13,14,25,30)
中位數(shù)是11因?yàn)樗菍⑶鞍氩糠峙c后半部分分開(kāi)的數(shù)字。
仔細(xì)檢查您是否正確的另一種方法是這樣做:
(total_number_of_scores + 1) / 2.
這是(11 + 1) /2 = 6,這意味著您希望在6th這組數(shù)據(jù)的位置使用數(shù)字 - 即11。
所以Q2 = 11。
如何在奇數(shù)數(shù)據(jù)集中計(jì)算Q1
接下來(lái),為了找到下四分位數(shù),Q1我們需要找到數(shù)據(jù)集前半部分的中位數(shù),它位于左側(cè)。
提醒一下,初始數(shù)據(jù)集是:
(2,4,5,5,6), 11,(11,13,14,25,30)
數(shù)據(jù)集的前半部分或下半部分不包括中位數(shù):
2,4,5,5,6
這一次,又是一組奇怪的分?jǐn)?shù)——特別是有5值。
您想再次將這半集分成另一半,每側(cè)有相同數(shù)量的兩個(gè)值。您將獲得一個(gè)唯一編號(hào),該編號(hào)將是5值中間的編號(hào)。
選擇突出的中間值:
(2,4), 5,(5,6)
在這種情況下,它是Q1 = 5.
要仔細(xì)檢查,您還可以執(zhí)行total_number_of_values + 1 / 2類似于前面的示例:
(5 + 1) /2 = 3.
這意味著您需要第三位的數(shù)字,即5.
如何在奇數(shù)數(shù)據(jù)集中計(jì)算Q3
要找到上四分位數(shù)Q3,過(guò)程與Q1上述相同。但在這種情況下,你在數(shù)據(jù)集的右側(cè)取下半部分,高于中位數(shù),不包括中位數(shù)本身:
(2,4,5,5,6), 11,(11,13,14,25,30)
11,13,14,25,30
您將奇數(shù)集的這一半拆分為另一半以求中位數(shù),然后求出 的值Q3。
您再次希望像上半場(chǎng)一樣排在第三位。
(11,13), 14,(25,30)
所以Q3 = 14。
如何在奇數(shù)數(shù)據(jù)集中計(jì)算IQR
現(xiàn)在,下一步是計(jì)算代表四分位距的 IQR。
這是您在上面計(jì)算的下四分位數(shù) (Q1) 和上四分位數(shù) (Q3) 之間的差異/距離。
提醒一下,這樣做的公式如下:
IQR = Q3 - Q1
要從上面找到數(shù)據(jù)集的 IQR:
IQR= 14 - 5
IQR = 9
如何在奇數(shù)數(shù)據(jù)集中找到異常值
回顧到目前為止,數(shù)據(jù)集如下:
2,4,5,5,6,11,11,13,14,25,30
到目前為止,您已經(jīng)計(jì)算了五個(gè)數(shù)字摘要:
MIN = 2
Q1 = 5
MED = 11
Q3 = 14
MAX = 30
最后,讓我們看看數(shù)據(jù)集中是否有任何異常值。
提醒一下,異常值必須符合以下標(biāo)準(zhǔn):
outlier < Q1 - 1.5(IQR)
或者
outlier > Q3 + 1.5(IQR)
要查看是否有最低值異常值,需要計(jì)算第一部分,看看集合中是否有滿足條件的數(shù)字。
Outlier < Q1 - 1.5(IQR)
Outlier < 5 - 1.5(9)
Outlier < 5 - 13.5
outlier < - 8.5
沒(méi)有更低的異常值,因?yàn)闆](méi)有比-8.5數(shù)據(jù)集中的數(shù)字少的數(shù)字。
接下來(lái),查看是否有更高的異常值:
Outlier > Q3 + 1.5(IQR)=
Outlier > 14 + 1.5(9)
Outlier > 14 + 13.5
Outlier > 27,5
并且數(shù)據(jù)集中有一個(gè)數(shù)字大于27,5:
2,4,5,5,6,11,11,13,14,25,30
在這種情況下,30是現(xiàn)有數(shù)據(jù)集中的異常值。
如何在偶數(shù)數(shù)據(jù)集中找到上下四分位數(shù)
當(dāng)您的數(shù)據(jù)集由一組偶數(shù)數(shù)據(jù)組成時(shí)會(huì)發(fā)生什么?
不僅有一個(gè)突出的中位數(shù) (Q2),也沒(méi)有突出的上四分位數(shù) (Q1) 或突出的下四分位數(shù) (Q3)。
所以計(jì)算四分位數(shù)然后找到異常值的過(guò)程有點(diǎn)不同。
如何在偶數(shù)數(shù)據(jù)集中計(jì)算Q2
假設(shè)你有這個(gè)帶有8數(shù)字的數(shù)據(jù)集:
10,15,20,26,28,30,35,40
這一次,數(shù)字已經(jīng)從最低值到最高值排序。
要在偶數(shù)數(shù)據(jù)集中找到中位數(shù),您需要找到位于中間的兩個(gè)數(shù)字之間的值。您將它們加在一起并除以2,如下所示:
10,15,20, 26,28,30,35,40
26 + 28 = 54
54 / 2 = 27
如何在偶數(shù)數(shù)據(jù)集中計(jì)算Q1
要計(jì)算偶數(shù)數(shù)據(jù)集中的上四分位數(shù)和下四分位數(shù),您需要保留數(shù)據(jù)集中的所有數(shù)字(而不是在您刪除中位數(shù)的奇數(shù)集中)。
這一次,數(shù)據(jù)集被切成兩半。
10,15,20,26 | 28,30,35,40
為了 find Q1,您將數(shù)據(jù)集的前半部分拆分為另一半,留下剩余的偶數(shù)集:
10,15 | 20,26
要找到這一半的中位數(shù),您可以將中間的兩個(gè)數(shù)字除以二:
Q1 = (15 + 20)/2
Q1 = 35 / 2
Q1 = 17,5
如何在偶數(shù)數(shù)據(jù)集中計(jì)算Q3
要找到Q3,您需要關(guān)注數(shù)據(jù)集的后半部分并將該半部分拆分為另一半:
28,30,35,40 -> 28,30 | 35,40
中間的兩個(gè)數(shù)字是30和35。
您將它們相加并將它們除以二,結(jié)果是:
Q3 = (30 + 35)/2
Q3 = 65 / 2
Q3 = 32,5
如何計(jì)算偶數(shù)數(shù)據(jù)集中的IQR
計(jì)算 IQR 的公式與我們用于計(jì)算奇數(shù)數(shù)據(jù)集的公式完全相同。
IQR = Q3 - Q1
IQR = 32,5 - 17,5
IQR = 15
如何在偶數(shù)數(shù)據(jù)集中找到異常值
回顧一下,到目前為止,五個(gè)數(shù)字摘要如下:
MIN = 10
Q1 = 17,5
MED = 27
Q3 = 32,5
MAX = 40
要計(jì)算數(shù)據(jù)集中的任何異常值:
outlier < Q1 - 1.5(IQR)
或者
outlier > Q3 + 1.5(IQR)
要找到任何較低的異常值,您可以計(jì)算Q1 - 1.5(IQR)并查看是否有任何值小于結(jié)果。
outlier < 17,5 - 1.5(15)=
outlier < 17,5 - 22,5
outlier < -5
數(shù)據(jù)集中沒(méi)有任何小于 的值-5。
最后,為了找到任何更高的異常值,您計(jì)算 Q3 - 1.5(IQR)并查看數(shù)據(jù)集中是否有任何值高于結(jié)果
outlier > 32.5 + 1.5(15)=
outlier > 32.5 + 22.5
outlier > 55
沒(méi)有任何高于55此數(shù)據(jù)集的值,因此該數(shù)據(jù)集沒(méi)有任何異常值。
結(jié)論
在本文中,您學(xué)習(xí)了如何在數(shù)據(jù)集中查找四分位距并以此方式計(jì)算任何異常值。