[Statistics] p-value
in Data on Statistical Analysis
Contents
- p-value๋?
- 1-1) ๊ทธ๋์ ์ ๋์ผํ๊ฑฐ๋ uniqueํ ํ๋ฅ ๊น์ง ๋ํ๋ ๊ฑธ๊น?
- 1-2) ๋์ ์์
- ๊ฐ์ค๊ฒ์ ์์์ p-value
- 2-1) p-value๊ฐ ์ผ๋ง๋ ์์์ผ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ ์ ์์๊น?
- 2-2) p-value์ ์๊ณ๊ฐ์ ๋ฌด์์ ์๋ฏธํ ๊น?
- p-value์ ์ฃผ์์
๋ณธ ํฌ์คํ ์ p-value์ ๊ดํ์ฌ ์ ๋ฆฌํ์์ต๋๋ค.
p-value๋?
๋ ํ๋ณธ ์ง๋จ์ ํ๋ณธ ํ๊ท ์ด ํต๊ณ์ ์ผ๋ก ์ ์ํ ์ฐจ์ด๊ฐ ์๋์ง ๊ฒ์ฆํ ๋, ๋ ํ๋ณธ ์ง๋จ์ ๊ฒ์ ํต๊ณ๋(ex. t-value, ํ๋ณธ ํ๊ท )์ ๊ณ์ฐํ ์ ์๋ค. ์ฌ๊ธฐ์ p-value๋ ๊ท๋ฌด๊ฐ์ค์ด ๋ง๋ค๊ณ ๊ฐ์ ํ์์ ๋, ํ๋ณธ์ผ๋ก ๋ถํฐ ์ป๋ โํต๊ณ์น๊ฐ ๋ํ๋ โ ํ๋ฅ ์ด๋ค. ์ฆ, ์คํ์์ ์ป์ ๊ฒ์ ํต๊ณ๋๋ณด๋ค ํฌ๊ฑฐ๋ ๊ฐ์(ํน์ ๊ทน๋จ์ ์ธ) ํต๊ณ์น๋ฅผ ์ป์ ์ ์๋ ํ๋ฅ ์ ์๋ฏธํ๋ค. ์ฌ๊ธฐ์ ๊ฒ์ ํต๊ณ๋๋ณด๋ค ํฌ๊ฑฐ๋ ๊ฐ์ ๊ฐ์ด๋ผ๋ ์๋ฏธ๊ฐ ๋์ ๊ฒฝ์ฐ ์ฒ์์ ์๋ฟ์ง ์์๋๋ฐ, ์ด๋ ์ผ๋ฐ์ ์ธ ์์ธก๊ฒ์ (Two-Sided)์ ๊ธฐ์ค์ผ๋ก ๋ค์์ ์๋ฏธํ๋ค.
p-value(ํ๋ณธ์ผ๋ก ๋ถํฐ ์ป๋ ํต๊ณ์น๊ฐ ๋ํ๋ ํ๋ฅ ) =
{ (1)๋ฌด์์๋ก ๊ด์ธกํ์ ๋, ํน์ ํ ๊ฒฝ์ฐ์ ์๊ฐ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ } +
{ ๋ฌด์์๋ก ๊ด์ธกํ์ ๋, (1)๊ณผ ๋์ผํ ํ๋ฅ ์ด ๋์ฌ ๊ฐ๋ฅ์ฑ } +
{ ๋ฌด์์๋ก ๊ด์ธกํ์ ๋, (1)๋ณด๋ค ๋!! uniqueํ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ }
1-1) ๊ทธ๋์ ์ ๋์ผํ๊ฑฐ๋ uniqueํ ํ๋ฅ ๊น์ง ๋ํ๋ ๊ฑธ๊น?
p-value์ ์ฌ์ ์ ์ธ ์๋ฏธ๋ ์ดํดํ์ง๋ง, ์ ๋์ผํ๊ฑฐ๋ ๋ uniqueํ ๊ฒฝ์ฐ์ ์๊น์ง ๊ณ ๋ คํด์ ๊ฐ์ ๊ตฌํ๋์ง์ ๊ถ๊ธ์ฆ์ด ์๊ธด๋ค. ์ด๋ ๊ด์ธก ๋์์ธ ์ผ์ด์ค๊ฐ ๋ฐ์ํ ํ๋ฅ ๊ณผ ๋์ผํ ํ๋ฅ ์ ๋ค๋ฅธ ์ผ์ด์ค์ ๋ ๋ฎ์ ํ๋ฅ ์ ํฌ๊ทํ ์ผ์ด์ค๊ฐ ์์์๋ ๋ถ๊ตฌํ๊ณ , ์ฐ๋ฆฌ๊ฐ ์ด์ ์ ๋๊ณ ๋ณด๋ ๊ด์ธก ๋์ ์ผ์ด์ค๊ฐ ํน๋ณํ๋ค๊ณ ์๊ฐํ๋ ๊ฒฝํฅ์ด ์๊ธฐ ๋๋ฌธ์ด๋ฉฐ, ์ด๋ฌํ ๊ด์ธก bias๋ฅผ ๋ณด์ ํ๊ธฐ ์ํด์ ๋ํ๋ ๊ฒ์ด๋ค.
๊ฒ์์ ๋น์ ํ์๋ฉด, ์ฐ๋ฆฌ๊ฐ ์ด๋ค ๊ฒ์์์ ํน์ ํ๋ฅ ๋ก ๋๋๋๋ ํฌ๊ทํ ์์ดํ A๋ฅผ ์ป์๋ค๊ณ ๊ฐ์ ํ์, ์ด ์์ดํ ์ ์ ๋ง ํน๋ณํ ๊ฒ ์ฒ๋ผ ๋ณด์ผ ๊ฒ์ด๋ฉฐ ๊ฒฝ๋งค์ฅ์์ ๋น์ธ๊ฒ ํ๋ฆด ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ค. ํ์ง๋ง, ๋์ผํ ํ๋ฅ ๋ก ๋๋๋๋ ๋ค๋ฅธ ๋์ฒด ์์ดํ B๊ฐ ์ฌ๋ฌ๊ฐ ๋ณด์ด๊ฑฐ๋, ๋ ๋ฎ์ ํ๋ฅ ๋ก ๋๋๋๋ ๋์ฒด ์์ดํ C๊ฐ ์ฌ๋ฌ๊ฐ ๋ณด์ด๊ธฐ ์์ํ๋ค๋ฉด, ์ฐ๋ฆฌ๊ฐ ์ฒ์์ ๊ทํ๋ค๊ณ ์๊ฐํ ์์ดํ A์ ๊ฐ์น๋ ์ฒ์ ๋ณด์๋ ๊ฒ ๋ณด๋ค ๋ฎ์์ง ๊ฒ์ด๋ฉฐ ๊ฒฝ๋งค์ฅ์์ ์ฒ์์ ์๊ฐํ๋ ๊ฒ ๋ณด๋ค ๋ฎ์ ๊ฐ๊ฒฉ ํน์ ๊ฐ์น๋งํผ์ ์ค์ ๊ฐ๊ฒฉ์ผ๋ก ํ์ธํ ์ ์์ ๊ฒ์ด๋ค.
1-2) ๋์ ์์
๋์ 2๊ฐ ์ค ์ฐ์์ผ๋ก ์๋ฉด์ด 2๋ฒ ๋์ค๋ ์ผ์ด์ค์๊ดํ p-value๋ฅผ ๊ณ์ฐํด๋ณด์. ์์์ ์ธ๊ธํ ๊ฒ์ ์ฐจ๋ก๋๋ก ์ํํ๋ฉด ๋ต์ ๋์ถํ ์ ์๋ค.
- ๋ฌด์์๋ก ๊ด์ธกํ์ ๋, ํน์ ํ ๊ฒฝ์ฐ์ ์(์ฆ, ์๋ฉด 2๋ฒ, ๋ท๋ฉด 0๋ฒ)๊ฐ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ : $2C2/2^2 = 0.25$
- ๋ฌด์์๋ก ๊ด์ธกํ์ ๋, ํน์ ํ ๊ฒฝ์ฐ์ ์๊ฐ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ๊ณผ ๋์ผํ ํ๋ฅ (์ฆ, ์๋ฉด 0๋ฒ ๋ท๋ฉด 2๋ฒ)์ด ๋์ฌ ๊ฐ๋ฅ์ฑ : $2C2/2^2 = 0.25$
- ๋ฌด์์๋ก ๊ด์ธกํ์ ๋, ํน์ ํ ๊ฒฝ์ฐ์ ์๊ฐ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ๋ณด๋ค ๋!! uniqueํ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ : ์ด์ ์๋ฉด2๋ฒ๊ณผ ๋ท๋ฉด2๋ฒ์ ์ ์ธํ ๋จ์ ๊ฒฝ์ฐ์ ์ ์ค ํ๋ฅ ์ด 0.25๋ณด๋ค ๋ฎ์ uniqueํ ๊ฒฝ์ฐ๋ ์๊ธฐ ๋๋ฌธ์ 0์ด๋ค.
๋ฐ๋ผ์, ์ฐ์์ผ๋ก ์๋ฉด์ด 2๋ฒ ๋์ค๋ ์ผ์ด์ค์ p-value๋ 0.25+0.25+0 = 0.5 ์ด๋ค.
๊ฐ์ค๊ฒ์ ์์์ p-value
p-value๋ ๊ฐ์ค๊ฒ์ ์์ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ ์ง๋ฅผ ๊ฒฐ์ ํ๋ ์์ ์ค ํ๋์ด๋ค. ๋๋ถ๋ถ์ ๊ฒฝ์ฐ p-value๊ฐ ์๊ฑฐ๋ 0์ ๊ฐ๊น์ธ์๋ก ํ๋ณธ์ผ๋ก ๋ถํฐ ์ป์ ํต๊ณ์น๊ฐ ๊ด์ธก๋ ํ๋ฅ ์ด ๋ฎ๋ค๋ ์๋ฏธ(์ฆ, ์ค์ฐจ๋ก ์ธํด ๋ฐ์๋ ์ผ์ด์ค๊ฐ ์๋๋ค)์ด๋ฏ๋ก, ์ฒ์์ ์ฐธ์ด๋ผ๊ณ ๊ฐ์ ํ๋ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๊ณ ๋ ์ง๋จ ๊ฐ์ ์ฐจ์ด๊ฐ ์๋ค๊ณ ์ฃผ์ฅํ๋ ๋๋ฆฝ๊ฐ์ค์ ์ฑํํ๊ฒ ๋๋ค.
(*์ ๋ ๊ท๋ฌด๊ฐ์ค์ ์ฑํํ ์ง ๊ฒฐ์ ํ๋ ์์๊ฐ ์๋๋ค!)
2-1) p-value๊ฐ ์ผ๋ง๋ ์์์ผ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ ์ ์์๊น?
๋ฐ๋์ ์ ํด์ง ๊ฒ์ ์๋์ง๋ง ๊ด๋ก์ ์ผ๋ก p-value๊ฐ 0.05, 0.01, 0.0001๋ณด๋ค ์์ผ๋ฉด ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐ์ํจ๋ค. ์ด๋ฌํ ์์น๊ฐ ๋์ถ๋ ์ ํํ ์ด์ ๋ ํ์คํ์ง ์์ง๋ง, ์ด ์ ๋์ p-value ์๊ณ๊ฐ์ ์ด์ฉํ์์ ๋ ํฉ๋ฆฌ์ ์ธ ๊ฒฐ๊ณผ๊ฐ ๋์จ ์คํ์ด ๋ง๋ค๋ ์ ์ฑ์ ์ธ ๊ฒฝํ์์ ์ ๋ก๋์๋ค๊ณ ํ๋ค.
2-2) p-value์ ์๊ณ๊ฐ์ ๋ฌด์์ ์๋ฏธํ ๊น?
์ด๋ค ์๋ ์์ด ๋ง์ด ์คํ๋ ์คํ์์ (๊ท๋ฌด๊ฐ์ค์ ์ฐธ์ด๋ผ๊ณ ๊ฐ์ ), ์ด ์คํ์ p-value ์๊ณ๊ฐ์ด 0.05๋ผ๋ ์๋ฏธ๋ ์์์ ์ผ๋ก p-value < 0.05๋ผ๊ณ ํํ๋๋ฉฐ, 100๋ฒ์ ์คํ ์ค์์ ๊ฒ์ ํต๊ณ๋์ด ๋์ค๋ ์คํ์ด 5๋ฒ ๋ฏธ๋ง์ผ ๊ฒฝ์ฐ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐ์ํค๊ฒ ๋ค๋ ์๋ฏธ์ด๋ค. ๊ทธ๋ฆฌ๊ณ , ์ค์ ํ ํ์ฉํ๊ณ๋ณด๋ค ๋ฎ์ p-value๊ฐ ์ง๊ณ๋์์ ๊ฒฝ์ฐ ๊ฒ์ ํต๊ณ๋์ด ๊ด์ธก๋ ํ๋ฅ ์ด ๋ฎ๋ค๋ ๊ฒ์ ์๋ฏธํ๊ณ , ์ฐธ์ด๋ผ๊ณ ๊ฐ์ ํ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๊ณ ๋๋ฆฝ๊ฐ์ค์ ์ฑํํ๊ฒ๋๋ค.
๋ค์ ์์์ ์ธ๊ธํ๋ ๋์ ์ p-value์ ๊ดํด์ ์ด์ผ๊ธฐํด๋ณด์. 2๊ฐ์ ๋์ ์ค ์๋ฉด์ด 2๋ฒ๋์ค๋ ๊ฒฝ์ฐ์ ๋ํ p-value๋ 0.5์์๋ค. ์ด๋ฅผ ์ด์ฉํ์ฌ ๋ ๋์ ์ด ํน๋ณํ๋ค๊ณ ์ฃผ์ฅํ๋ ๊ฐ์ค์ ๊ฒ์ฆํ๊ธฐ ์ํ ๊ท๋ฌด๊ฐ์ค๊ณผ ๋๋ฆฝ๊ฐ์ค์ ๋ค์๊ณผ ๊ฐ๋ค.
- ๊ท๋ฌด๊ฐ์ค : ์ฐ์์ผ๋ก 2ํ ์๋ฉด์ด ๋์๋ค๊ณ ํด๋ ๋ด๊ฐ ๊ฐ์ง๊ณ ์๋ ๋ ๋์ ์ ๋ค๋ฅธ ๋์ ๋ค๊ณผ ๋ณ๋ฐ ๋ค๋ฅผ๊ฒ ์์ดโฆ
- ๋๋ฆฝ๊ฐ์ค : ๋ด๊ฐ ๊ฐ์ง๊ณ ์๋ ๋ ๋์ ์ ๊ฐ์ด ๋์ง ๋ ์ฐ์์ผ๋ก ์๋ฉด์ด ๋์ค๋ ๋ค๋ฅธ ๋์ ๊ณผ ์์ ํ ๋ค๋ฅธ ํน๋ณํ ๋์ ์ด์ผ!
์ด๋, p-value์ ์๊ณ์ ์ 0.05๋ผ๊ณ ํ์ ๋, ์ค์ ๊ณ์ฐ๋ p-value๋ 0.05๋ณด๋ค ํฐ 0.5 ์ด๋ค. ๋ฐ๋ผ์ ํด๋น ํ๋ณธ์ผ๋ก ๋ถํฐ ๋์ถํ ํต๊ณ์น๋ ํญ์ ์ค๋ฅ์ ๊ฐ๋ฅ์ฑ์ด ์กด์ฌํ๊ฒ ๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก, ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ ์ ์์ผ๋ฉฐ, ๊ท๋ฌด๊ฐ์ค์ด ์ฑํ๋ ๊ฒ๋ ์๋๋ผ์ ๋์ ์ด ํน๋ณํ์ง ํน๋ณํ์ง ์์์ง๋ ๋ชจ๋ฅด๋ ์ํฉ์ด ๋์๋ค.
p-value์ ์ฃผ์์
p-value๋ ํต๊ณ์ ์ ์๋ฏธ์ฑ์ ์๊ธฐ ์ํ ์งํ์ด์ง ๊ฒฐ๊ณผ ์ฑ๊ณผ์๋ํ ์งํ๊ฐ ์๋๋ค.p-value๋ ๊ท๋ฌด๊ฐ์ค์ด ์ ๋ต์ผ ํ๋ฅ ๋ ์๋๋ฉฐ, ๋๋ฆฝ๊ฐ์ค์ด ์ ๋ต์ผ ํ๋ฅ ์ ์๋ฏธํ๋ ๊ฒ์ด ์๋๋ค.p-value๊ฐ ํญ์ ์ ๋์ ์ธ ๊ฒ์ ์๋๋ค.p-value๊ฐ ๋ฎ์๋ ๊ท๋ฌด๊ฐ์ค์ด ์ฐธ์ผ ์ ์๊ณ ,p-value๊ฐ ๋์๋ ๊ท๋ฌด๊ฐ์ค์ด ํ๋ฆด ์ ์๋ค. ์๋ฅผ ๋ค์ด, ABํ ์คํธ์ ๊ฐ์ ์คํ ์ค์์ ํ๋ณธ์ ํฌ๊ธฐ๊ฐ ์์ ํ ํ๋ณด๋์ง ์์์p-value๊ฐ ๋ฎ๊ฒ ๊ด์ธก๋ ์ ์๋ค.
References
- StatQuest with Josh Starme YouTube : How to calculate p-values
- StatQuest with Josh Starme YouTube : What they are and how to interpret them
- ๊ท๋ฌด๊ฐ์ค๊ณผ ๋๋ฆฝ๊ฐ์ค์ด๋ ๋ฌด์์ธ๊ฐ?, ํ๋กํ์ ๋ฐ์ดํฐ ๋ ธํธ
- ์กฐ๊ธ ๋ ์๊ฐํด๋ณด๋ p-value, Alphahacker Notes
