刪除異常值是什麼意思_Winsorize數據處理和刪除異常值的區別是什麼

㈠（譯）異常值處理

異常值是每個人都知道的統計問題之一，但大多數人都不確定要如何處理。許多統計量（如平均值，標准差和相關系數）以及每個基於這些數值的統計量都對異常值高度敏感。由於常見統計過程的假設（如線性回歸和 ANOVA ）也是基於這些統計數據，因此異常值可能會干擾你的分析。
在決策之前調查異常值的性質非常重要。

那麼在你不應該刪除異常值的情況下，你會怎麼做？
一種選擇是嘗試進行轉換。平方根和對數轉換都會得到很高的數字。如果異常值是一個獨立變數，則可以減少單個點的影響。
另一種選擇是嘗試不同的模型。這應該謹慎進行，但可能是非線性模型更適合。例如，在示例3中，可能指數曲線擬合包含異常值的完整數據。
無論採用哪種方法，你都需要充分了解你的數據和研究領域。嘗試不同的方法，看看哪個更具有理論意義。

原文鏈接： Outliers: To Drop or Not to Drop

㈡如何用統計方法去除一組數中的異常值

可以選擇以下方法。用線性回歸的辦法求得某一點到直線最遠，去除這一點即可。異常值也稱離群值,具體地說,判斷標准依據實際情況,根據業務知識及實際需要而定。

要是一般地說,可以用公式計算：

upper adjacent value = 75th percentile + (75th percentile – 25th percentile) * 1.5。

lower adjacent value = 25th percentile – (75th percentile – 25th percentile) * 1.5。

(2)刪除異常值是什麼意思擴展閱讀：

計算統計量：

μ=(X1+X2+…+Xn)/n。

s=(∑(Xi-μ)/(n-1))½(i=1,2…n)。

Gn=(X(n)-μ)/s。

式中μ——樣本平均值；

s——樣本標准差；

Gn——格拉布斯檢驗統計量。

確定檢出水平α，查表（見GB4883）得出對應n，α的格拉布斯檢驗臨界值G1-α(n)。當Gn>G1-α(n),則判斷Xn為異常值，否則無異常值。給出剔除水平α』的G1-α』(n),當當Gn>G1-α』(n)時,Xn為高度異常值，應剔除。

㈢ Winsorize數據處理和刪除異常值的區別是什麼

您好，1、winsorize是用相應分位數的值替代分位數之外的值，而不是刪掉，這樣可以最大限度的保存數據信息另外，這個跟數據多少沒關系。主要是根據已有文獻來的，如果別人用winsorize你也要用，否則你的結論和別人的沒有可比性。不過就我看來，至少在金融領域，使用winsorize比較普遍，刪除異常值的做法越來越少的被使用了。
2、異常值處理，原理大致是將異常值修建成與正常分布最大值or 最小值相同。
eg，如果你的log_size都在20左右，例如在15~20之間區間浮動，有些特別大或特別小的值出現，用winsorize就會把他們變成區間的最大值or最小值。這個「特別大」or「特別小」是你自己可以定義的，如果你認為比20高出10%算作異常值，那麼22就會被修改成20，放在樣本里。

㈣異常值處理

異常值處理的常用方法：直接將該條觀測刪除在SPSS軟體里有2種不同的刪除方法，整條刪除和成對刪除。

Gn——格拉布斯檢驗統計量：

確定檢出水平α，查表（見GB4883）得出對應n，α的格拉布斯檢驗臨界值G1-α(n)。

當Gn>G1-α(n),則判斷Xn為異常值，否則無異常值。

給出剔除水平α』的G1-α』(n),當當Gn>G1-α』(n)時,Xn為高度異常值，應剔除。

測區混凝土強度標准差：

取檢出水平α為5%，剔除水平α』為1%，按雙側情形檢驗，從附表中查得檢出水平α對應格拉布斯檢驗臨界值G0.975,剔除水平α』對應格拉布斯檢驗臨界值G0.995。

若Gn>Gn』，且Gn>G0.975，則判斷fn為異常值，否則，判斷無異常值；

若Gn>Gn』，且Gn>G0.995，則判斷fn為高度異常值，可考慮剔除；

若Gn』>Gn，且Gn』>G0.975，則判斷f1為異常值，否則，判斷無異常值；

若Gn』>Gn，且Gn』>G0.995，則判斷f1為高度異常值，可考慮剔除。

以上內容參考：網路-異常值

㈤效度是要刪除異常值之後再測嗎

效度是要刪除異常值之後再測。效度是要刪除異常值之後再測，異常值是效度已出現異常才會顯示的值，故需將異常值刪除後待效度值校正後再測，出來的數據才是正確的。

㈥如何剔除數據中的異常值

剔除數據中的異常值的方法：

一、異常值檢測

異常值的檢驗有很多種方法，最常見的是圖示法，也有使用分析方法進行探索。

箱盒圖：實驗研究時經常使用，非常直觀的展示出異常數據。

散點圖：研究X和Y的關系時，可直觀展示查看是否有異常數據。

描述分析：可通過最大最小值等各類指標大致判斷數據是否有異常。

其它：比如結合正態分布圖，頻數分析等判斷是否有異常值。

二、異常值判定

上述已經說明異常值會帶來嚴重的影響，扭曲數據結論等。那麼首先需要設定異常值的標准，然後再對其進行處理。異常值的判定標准並不統一，更多是通過人為標准進行設定，SPSSAU提供以下幾類判定規則：

1、設置為Null值；此類處理最簡單，而且絕大多數情況下均使用此類處理；直接將異常值「幹掉」，相當於沒有該異常值。如果異常值不多時建議使用此類方法。

2、填補；如果異常值非常多時，則可能需要進行填補設置，SPSSAU共提供平均值，中位數，眾數和隨機數共四種填補方式。建議使用平均值填補方式。

刪除異常值是什麼意思

與刪除異常值是什麼意思相關的內容