㈠ (譯)異常值處理
異常值是每個人都知道的統計問題之一,但大多數人都不確定要如何處理。許多統計量(如平均值,標准差和相關系數)以及每個基於這些數值的統計量都對異常值高度敏感。由於常見統計過程的假設(如線性回歸和 ANOVA )也是基於這些統計數據,因此異常值可能會干擾你的分析。
在決策之前調查異常值的性質非常重要。
那麼在你不應該刪除異常值的情況下,你會怎麼做?
一種選擇是嘗試進行轉換。平方根和對數轉換都會得到很高的數字。如果異常值是一個獨立變數,則可以減少單個點的影響。
另一種選擇是嘗試不同的模型。這應該謹慎進行,但可能是非線性模型更適合。例如,在示例3中,可能指數曲線擬合包含異常值的完整數據。
無論採用哪種方法,你都需要充分了解你的數據和研究領域。嘗試不同的方法,看看哪個更具有理論意義。
原文鏈接: Outliers: To Drop or Not to Drop
㈡ 如何用統計方法去除一組數中的異常值
可以選擇以下方法。用線性回歸的辦法求得某一點到直線最遠,去除這一點即可。異常值也稱離群值,具體地說,判斷標准依據實際情況,根據業務知識及實際需要而定。
要是一般地說,可以用公式計算:
upper adjacent value = 75th percentile + (75th percentile – 25th percentile) * 1.5。
lower adjacent value = 25th percentile – (75th percentile – 25th percentile) * 1.5。
(2)刪除異常值是什麼意思擴展閱讀:
計算統計量:
μ=(X1+X2+…+Xn)/n。
s=(∑(Xi-μ)/(n-1))½(i=1,2…n)。
Gn=(X(n)-μ)/s。
式中μ——樣本平均值;
s——樣本標准差;
Gn——格拉布斯檢驗統計量。
確定檢出水平α,查表(見GB4883)得出對應n,α的格拉布斯檢驗臨界值G1-α(n)。當Gn>G1-α(n),則判斷Xn為異常值,否則無異常值。給出剔除水平α』的G1-α』(n),當當Gn>G1-α』(n)時,Xn為高度異常值,應剔除。
㈢ Winsorize數據處理和刪除異常值的區別是什麼
您好,1、winsorize是用相應分位數的值替代分位數之外的值,而不是刪掉,這樣可以最大限度的保存數據信息另外,這個跟數據多少沒關系。主要是根據已有文獻來的,如果別人用winsorize你也要用,否則你的結論和別人的沒有可比性。不過就我看來,至少在金融領域,使用winsorize比較普遍,刪除異常值的做法越來越少的被使用了。
2、異常值處理,原理大致是將異常值修建成與正常分布最大值or 最小值相同。
eg,如果你的log_size都在20左右,例如在15~20之間區間浮動,有些特別大或特別小的值出現,用winsorize就會把他們變成區間的最大值or最小值。這個「特別大」or「特別小」是你自己可以定義的,如果你認為比20高出10%算作異常值,那麼22就會被修改成20,放在樣本里。
㈣ 異常值處理
異常值處理的常用方法:直接將該條觀測刪除在SPSS軟體里有2種不同的刪除方法,整條刪除和成對刪除。
Gn——格拉布斯檢驗統計量:
確定檢出水平α,查表(見GB4883)得出對應n,α的格拉布斯檢驗臨界值G1-α(n)。
當Gn>G1-α(n),則判斷Xn為異常值,否則無異常值。
給出剔除水平α』的G1-α』(n),當當Gn>G1-α』(n)時,Xn為高度異常值,應剔除。
測區混凝土強度標准差:
取檢出水平α為5%,剔除水平α』為1%,按雙側情形檢驗,從附表中查得檢出水平α對應格拉布斯檢驗臨界值G0.975,剔除水平α』對應格拉布斯檢驗臨界值G0.995。
若Gn>Gn』,且Gn>G0.975,則判斷fn為異常值,否則,判斷無異常值;
若Gn>Gn』,且Gn>G0.995,則判斷fn為高度異常值,可考慮剔除;
若Gn』>Gn,且Gn』>G0.975,則判斷f1為異常值,否則,判斷無異常值;
若Gn』>Gn,且Gn』>G0.995,則判斷f1為高度異常值,可考慮剔除。
以上內容參考:網路-異常值
㈤ 效度是要刪除異常值之後再測嗎
效度是要刪除異常值之後再測。效度是要刪除異常值之後再測,異常值是效度已出現異常才會顯示的值,故需將異常值刪除後待效度值校正後再測,出來的數據才是正確的。
㈥ 如何剔除數據中的異常值
剔除數據中的異常值的方法:
一、異常值檢測
異常值的檢驗有很多種方法,最常見的是圖示法,也有使用分析方法進行探索。
箱盒圖:實驗研究時經常使用,非常直觀的展示出異常數據。
散點圖:研究X和Y的關系時,可直觀展示查看是否有異常數據。
描述分析:可通過最大最小值等各類指標大致判斷數據是否有異常。
其它:比如結合正態分布圖,頻數分析等判斷是否有異常值。
二、異常值判定
上述已經說明異常值會帶來嚴重的影響,扭曲數據結論等。那麼首先需要設定異常值的標准,然後再對其進行處理。異常值的判定標准並不統一,更多是通過人為標准進行設定,SPSSAU提供以下幾類判定規則:
1、設置為Null值;此類處理最簡單,而且絕大多數情況下均使用此類處理;直接將異常值「幹掉」,相當於沒有該異常值。如果異常值不多時建議使用此類方法。
2、填補;如果異常值非常多時,則可能需要進行填補設置,SPSSAU共提供平均值,中位數,眾數和隨機數共四種填補方式。建議使用平均值填補方式。