Kuidas (ja miks) Excelis funktsiooni Outliers kasutada

Varjund on väärtus, mis on oluliselt suurem või väiksem kui enamik teie andmetes sisalduvaid väärtusi. Andmete analüüsimiseks Exceli kasutamisel võivad kõrvalised tulemused tulemusi moonutada. Näiteks võib andmekogumi keskmine keskmine teie väärtusi tõeliselt kajastada. Excelis on mõned kasulikud funktsioonid, mis aitavad teie hälbeid hallata, nii et vaatame seda.

Kiire näide

Alloleval pildil on kõrvalekaldeid suhteliselt lihtne märgata - kahe väärtus on määratud Ericule ja 173 väärtus Ryanile. Sellises andmekogumis on piisavalt lihtne neid kõrvalekaldeid käsitsi tuvastada ja nendega toime tulla.

Suuremas andmekogumis see nii ei ole. Võimaluste tuvastamine ja nende eemaldamine statistilistest arvutustest on oluline - ja seda me selles artiklis uurime.

Kuidas leida oma andmete hälbeid

Andmehulgast kõrvalekallete leidmiseks kasutame järgmisi samme:

  1. Arvutage 1. ja 3. kvartiil (räägime natuke sellest, mis need on).
  2. Hinnake kvartalidevahelist vahemikku (selgitame neid ka veidi allpool).
  3. Tagastage meie andmevahemiku ülemine ja alumine piir.
  4. Kasutage neid piire äärepoolsete andmepunktide tuvastamiseks.

Nende väärtuste salvestamiseks kasutatakse alloleval pildil näha olevast andmekogumist paremal asuvat lahtrivahemikku.

Alustame.

Esimene samm: arvutage kvartiilid

Kui jagate oma andmed veeranditeks, nimetatakse kõiki neid komplekte kvartiiliks. Vahemiku madalaimad 25% numbritest moodustavad esimese kvartiili, järgmised 25% teise kvartiili jne. Selle sammu teeme kõigepealt seetõttu, et kõige sagedamini kasutatav piirväärtuse määratlus on andmepunkt, mis on rohkem kui 1,5 interkvartiilide vahemikku (IQR) allpool 1. kvartiili ja 1,5 kvartiilide vahemikku üle kolmanda kvartiili. Nende väärtuste määramiseks peame kõigepealt välja selgitama, millised on kvartiilid.

Kvartiilide arvutamiseks pakub Excel funktsiooni KVARTIIL. See nõuab kahte teavet: massiivi ja kvartsi.

= KVARTIL (massiiv, kv)

The massiiv on väärtuste vahemik, mida te hindate. Ja quart on number, mis tähistab kvartalit, mille soovite tagasi tuua (nt 1 1. kvartiili jaoks, 2 teise kvartiili jaoks 2 ja nii edasi).

Märge: Programmis Excel 2010 avaldas Microsoft funktsiooni QUARTILE.INC ja QUARTILE.EXC funktsiooni QUARTILE täiustustena. QUARTILE ühildub rohkem tagasiulatuvalt, kui töötate mitmel Exceli versioonil.

Naaseme oma näidetabeli juurde.

1. kvartiili arvutamiseks võime rakus F2 kasutada järgmist valemit.

= KVARTAL (B2: B14,1)

Valemi sisestamisel pakub Excel loendi quart-argumendi valikutest.

Kolmanda kvartiili arvutamiseks võime lahtrisse F3 sisestada valemi nagu eelmine, kuid kasutades ühe asemel kolme.

= KVARTAL (B2: B14,3)

Nüüd on meil lahtrites kuvatud kvartiili andmepunktid.

Teine etapp: hinnake kvartalidevahelist vahemikku

Kvartiilidevaheline vahemik (või IQR) on teie andmete keskmine 50% väärtustest. See arvutatakse esimese kvartiili ja kolmanda kvartiili väärtuse vahena.

Kasutame lahtrisse F4 lihtsat valemit, mis lahutab esimese kvartiili kolmandast kvartiilist:

= F3-F2

Nüüd näeme oma interkvartiilide vahemikku kuvatud.

Kolmas etapp: tagastage alumine ja ülemine piir

Alumine ja ülemine piir on andmevahemiku väikseimad ja suurimad väärtused, mida soovime kasutada. Kõigi nendest seotud väärtustest väiksemad või suuremad väärtused on kõrvalarvud.

Arvutame lahtris F5 alumise piiri piiri, korrutades IQR väärtuse 1,5-ga ja lahutades selle seejärel Q1 andmepunktist:

= F2- (1,5 * F4)

Märge: Selle valemi sulgudes pole vaja, sest korrutise osa arvutatakse enne lahutamise osa, kuid need muudavad valemi hõlpsamini loetavaks.

Lahtri F6 ülemise piiri arvutamiseks korrutame IQR uuesti 1,5-ga, kuid seekord lisama see Q3 andmepunkti:

= F3 + (1,5 * F4)

Neljas etapp: tuvastage kõrvalseisjad

Nüüd, kui oleme kõik oma alusandmed seadistanud, on aeg kindlaks teha meie äärepoolsed andmepunktid - need, mis on madalamast kui alumisest piirväärtusest või kõrgemad kui ülemisest piirväärtusest.

Selle loogilise testi tegemiseks kasutame funktsiooni OR või näitame nendele kriteeriumidele vastavaid väärtusi, sisestades lahtrisse C2 järgmise valemi:

= VÕI (B2 $ F $ 6)

Seejärel kopeerime selle väärtuse oma lahtritesse C3-C14. TÕENE väärtus näitab väljaarvu ja nagu näete, on meie andmetes kaks.

Keskmise keskmise arvutamisel kõrvalarvude ignoreerimine

Funktsiooni QUARTILE abil arvutame IQR ja töötame väljapoole levinuma definitsiooniga. Väärtuste vahemiku keskmise keskmise arvutamisel ja kõrvalarvude ignoreerimisel on siiski kasutada kiiremat ja lihtsamat funktsiooni. See tehnika ei tuvasta varasemat, nagu see oli, kuid see võimaldab meil olla paindlik selle suhtes, mida võiksime pidada oma väliseks osaks.

Vajalikku funktsiooni nimetatakse TRIMMEANiks ja selle süntaksit näete allpool:

= TRIMMEAN (massiiv, protsent)

The massiiv on väärtuste vahemik, mille soovite keskmiseks muuta. The protsenti on andmepunktide protsent, mille andmekogumi üla- ja alaosast välja jätta (saate selle sisestada protsendi või kümnendarvuna).

Sisestasime oma näites lahtrisse D3 allpool oleva valemi, et arvutada keskmine ja välistada 20% kõrvalekalletest.

= TRIMMEAN (B2: B14, 20%)

Seal on teil kõrvaltoimete käsitlemiseks kaks erinevat funktsiooni. Kas soovite need mõne aruandlusvajaduse jaoks tuvastada või arvutustest (näiteks keskmised) välja jätta, on Excelis teie vajadustele vastav funktsioon.