본문 바로가기
728x90
반응형

Data Science/Statistics8

P-값 의 개념 및 오해와 진실 정리 통계에 빠질 수 없는 P-값을 뽑아버리겠다는 생각으로 막판 정리를 해보려합니다 ㅎㅎ P-value 한번 가봅시다! 1. P-값이란? P-값이 어떤 역할을 하는지 큰 갈래부터 보겠습니다. 우선, P-값은 '통계적 유의성'을 판단하기 위한 하나의 지표입니다. 통계적 유의성(statistical significance)는 모집단에 대한 가설이 '우연'이라고 판단되지 않을 정도로 의미가 있는지를 의미합니다. 풀어서 해석하자면, 가설검정에서 우리가 귀무가설과 대립가설처럼 하나의 가설을 만드는데, 이 가설이 정말 의미가 있는걸까? 라는 걸 해석하는게 통계적 유의성입니다. 귀무가설 하에서 관찰된 통계량보다 더 극단적 값이 관찰될 확률 The p-value is defined as the probabilty, unde.. 2023. 1. 17.
최대사후추정(MAP) 개념 및 최대우도추정(MLE)과 비교 최대사후추정(Maximum A Posteriori)의 사후확률이란? 사후추정이 뭘 의미하는지부터 보겠습니다. 보통 우리가 표본을 뽑는다 라고 했을 때, 모수(θ)에서 표본 x를 뽑는다 라는 θ -> x 의 순서가 자연스럽게 느껴집니다. 그러면 여기서 θ는 사전에 우리가 알고 있는 값이 되고, x는 그 이후에 나오는 값이 되는 선후관계가 생깁니다. 그래서 우선적으로 P(θ)와 P(x|θ)를 아래와 같이 규정하고 가겠습니다. P(θ) 사전확률밀도함수(Prior Probability Density Function) P(x|θ) 파라미터θ가 주어질 때 표본 x의 확률 이제 여기서 질문을 질문을 거꾸로 해보겠습니다. 그러면 (x -> θ) 표본 x가 주어질 때 파라미터 θ를 구할 확률은? P(θ|x) 이게 바로 .. 2023. 1. 9.
최대우도추정(MLE) 개념 총 정리 처음에 이 개념을 접하고 용어가 어렵다고 생각했는데 하나씩 뜯어보면서 개념을 정리해보려합니다. 먼저, MLE는 영어 뜻은 'Likelihood 를 최대화하는 추정방법'입니다. 그럼 Likelihood(가능도 = 우도)가 뭔지 알아봐야겠죠. Likelihood란? 통계학상으로 Likelihood란 확률분포X의 모수θ가 어떤 확률변수의 표집값x와 일관된 정도를 나타냅니다 (출처:위키백과) 우리가 모수에서 표본을 추출할 때, 뽑히는 표본은 데이터x가 같을 수도 있고 다를 수도 있죠. 그런데 표본X에서 우리가 찾는 값x가 나오는 likelihood가 얼마인지 알고싶습니다. Pθ(X=x) = 표본 X가 특정 x일 확률이얼마일까요? 이 질문을 수식화하고 바라보는 관점을 x중심이 아닌, θ의 관점으로 해석한게 가능도.. 2023. 1. 8.
신뢰수준과 신뢰구간이란? 신뢰구간(Confidence interval)이란? 신뢰구간은 구간 추정을 통해 모수가 포함될 추정값을 제시하는 방법을 의미합니다. '이 구간 안에는 모수의 추정값이 있을 것이다' 라는 추측을 할 때 사용되는 개념이라는 건데요. 그러면 이 개념을 왜 사용할까요? 이는 표본이라는 것 자체가 랜덤샘플링을 통해 추출되어 '불확실성'을 내재하고 있기 때문인데요. 이 때문에 '신뢰구간'을 제시함으로서 표본을 활용한 추정의 잠재적인 오류를 제시하거나 표본의 크기가 더 커져야 하는지 여부에 대한 정보를 알려주는 것이죠. 신뢰수준(Confidence level)이란? 신뢰'구간'과 신뢰'수준'은 어휘에서 의미 구분이 가능합니다. 신뢰구간은 A에서 B라는 하나의 범위를 나타내고 신뢰수준은 '신뢰구간에 모평균값이 포함될 .. 2023. 1. 3.
부트스트랩(+배깅) 리샘플링 개념 정리 오늘은 부트스트랩과 리샘플링의 개념을 알아보겠습니다. 부트스트랩이란? 부트스트랩은 리샘플링 방법의 일종으로, 현재의 표본에서 추가적으로 표본을 복원추출하는 방법입니다. 복원추출이라는 말이 어렵다면 간단히 주머니에서 공을 꺼냈다가, 공을 빼지 않고 다시 주머니에 넣어서 그 다음에 공(표본)을 다시 추출하는걸 상상해보면 됩니다. 즉, 뽑았던걸 다시 뽑음 = 중복돼서 뽑음 = 복원추출하면서 리샘플링하는 방법이 부트스트랩인거죠. [ 부트스트랩 재표본추출 과정] 1. 샘플 복원추출 n 번 반복 2. 재표본 추출된 값의 평균 기록 3. 1-2단계 m번 반복 4. m개의 결과를 기반으로 표준편차, 신뢰구간 탐색, 가설검증 수행 그렇다면 부트스트랩의 목적은 뭘까요? 데이터사이언스를 위한 통계 책에서는 부트스트랩의 목적.. 2023. 1. 1.
데이터사이언스의 '편향' 이란? 누군가가 편향에 대해 설명해보세요 라고 질문한다면, 뭔지는 어렴풋이 알지만 명료하게 대답하기는 어렵기 때문에 한번 정리하고 넘어가려 합니다. 데이터 분석에서 빠지지 않는 질문 편향은 뭘까요? 편향이란? 편향이라는 단어 자체는 일상에서도 '편향적인 사람' '편향적이다' 등등 많이 사용하는 표현입니다. 일상 속에서는 어떠한 방향으로 치우친 경향을 설명할 때 많이 언급됩니다. 그러면 통계적인 측면에서 편향은 어떻게 정의될까요? 데이터사이언스를 위한 통계 책에서는 '통계적 편향은 측정 과정 혹은 표본추출 과정에서 발생하는 계통적인(systematic) 오차를 의미한다' 라고 정의했습니다. 이와 유사하게 위키피디아에서는 '결과와 사실 간의 차이를 유발하는 체계적인 경향을 의미한다'고 하는데요. 2가지 정의 공통적.. 2022. 12. 30.
728x90
반응형