Jak usunąć wartości odstające w SPSS
Outylia w analizach statystycznych są wartościami skrajnymi, które nie wydają się pasować do większości zbioru danych. Jeśli nie zostaną usunięte, te skrajne wartości mogą mieć duży wpływ na wszelkie wnioski, które mogą być wyciągnięte z danych, ponieważ mogą one przechylić współczynniki korelacji i linie najlepszego dopasowania w złym kierunku. SPSS jest jednym z wielu programów do analizy statystycznej, które mogą być używane do interpretacji zbioru danych oraz identyfikacji i usuwania wartości odstających.
- Outliers w analizach statystycznych są wartościami skrajnymi, które nie wydają się pasować do większości zbioru danych.
- SPSS jest jednym z wielu programów do analizy statystycznej, które mogą być używane do interpretacji zbioru danych oraz identyfikacji i usuwania wartości odstających.
Kliknij na "Analizuj". Wybierz "Statystyki opisowe", a następnie "Eksploruj."
Przeciągnij i upuść kolumny zawierające dane zmiennej zależnej do pola oznaczonego jako "Lista zmiennych zależnych." Kliknij "OK."
Usuń wszelkie wartości odstające zidentyfikowane przez SPSS na wykresach łodyg i liści lub wykresach pudełkowych poprzez usunięcie poszczególnych punktów danych. Alternatywnie, można skonfigurować filtr wykluczający te punkty danych.
Wybierz "Dane", a następnie "Wybierz przypadki" i kliknij na warunek, który zawiera wartości odstające, które chcesz wykluczyć. Określ wartość dla tego warunku, która wyklucza tylko punkty odstające i żadnego z punktów danych nie odstających.
- Usuń wszelkie punkty odstające zidentyfikowane przez SPSS na wykresach łodygi i liści lub wykresach pudełkowych poprzez usunięcie poszczególnych punktów danych.
- Wybierz "Dane", a następnie "Wybierz przypadki" i kliknij na warunek, który zawiera wartości odstające, które chcesz wykluczyć.
Wybierz "Jeśli warunek jest spełniony" w polu "Wybierz", a następnie kliknij przycisk "Jeśli" tuż pod nim. Wprowadź regułę wykluczającą wartości odstające, którą określiłeś w poprzednim kroku, w polu w prawym górnym rogu. Na przykład, jeśli wykluczałeś pomiary powyżej 74,5 cala z warunku "wzrost", wprowadziłbyś "wzrost < = 74,5". Kliknij "Kontynuuj" i "OK", aby aktywować filtr.
W menu "Analizuj" wybierz "Regresja", a następnie "Liniowa". Wybierz zmienne zależne i niezależne, które chcesz przeanalizować.
Kliknij "Zapisz", a następnie wybierz "Odległość Cooka". Wartości obliczone dla odległości Cooka zostaną zapisane w pliku danych jako zmienne oznaczone jako "COO-1."
Uruchom boxplot, wybierając "Graphs", a następnie "Boxplot." Kliknij na "Simple" i wybierz "Summaries of Separate Variables". Wprowadź "COO-1" w polu oznaczonym jako "Boxes Represent", a następnie wprowadź ID lub nazwę, za pomocą której zidentyfikujesz przypadki w polu "Label Cases By".
- W menu "Analyze" wybierz "Regression", a następnie "Linear."
- Uruchom boxplot, wybierając "Graphs", a następnie "Boxplot."
Powiększ boxplot w pliku wyjściowym, klikając go dwukrotnie. Zwróć uwagę na przypadki, które leżą poza czarnymi liniami - są to przypadki odstające. Możesz zdecydować się na usunięcie wszystkich wartości odstających lub tylko skrajnych wartości odstających, które są oznaczone gwiazdką (*).
Powróć do pliku danych i zlokalizuj przypadki, które należy usunąć. Pracując od dołu do góry, podświetl numer znajdujący się na skraju po lewej stronie, w szarej kolumnie, tak aby cały wiersz został zaznaczony. Kliknij na "Edytuj" i wybierz "Wyczyść". Powtórz ten krok dla każdego odchylenia, które zidentyfikowałeś z wykresu typu boxplot.
Ostrzeżenie
Przy usuwaniu spraw w sekcji 2, krok 5, zawsze pracuj od dołu pliku danych, przesuwając się w górę, ponieważ numery ID zmieniają się, gdy usuwasz sprawę. Jeśli będziesz pracować od góry w dół, skończysz kasując niewłaściwe sprawy.