728x90 반응형 Data Science85 신뢰수준과 신뢰구간이란? 신뢰구간(Confidence interval)이란? 신뢰구간은 구간 추정을 통해 모수가 포함될 추정값을 제시하는 방법을 의미합니다. '이 구간 안에는 모수의 추정값이 있을 것이다' 라는 추측을 할 때 사용되는 개념이라는 건데요. 그러면 이 개념을 왜 사용할까요? 이는 표본이라는 것 자체가 랜덤샘플링을 통해 추출되어 '불확실성'을 내재하고 있기 때문인데요. 이 때문에 '신뢰구간'을 제시함으로서 표본을 활용한 추정의 잠재적인 오류를 제시하거나 표본의 크기가 더 커져야 하는지 여부에 대한 정보를 알려주는 것이죠. 신뢰수준(Confidence level)이란? 신뢰'구간'과 신뢰'수준'은 어휘에서 의미 구분이 가능합니다. 신뢰구간은 A에서 B라는 하나의 범위를 나타내고 신뢰수준은 '신뢰구간에 모평균값이 포함될 .. 2023. 1. 3. 부트스트랩(+배깅) 리샘플링 개념 정리 오늘은 부트스트랩과 리샘플링의 개념을 알아보겠습니다. 부트스트랩이란? 부트스트랩은 리샘플링 방법의 일종으로, 현재의 표본에서 추가적으로 표본을 복원추출하는 방법입니다. 복원추출이라는 말이 어렵다면 간단히 주머니에서 공을 꺼냈다가, 공을 빼지 않고 다시 주머니에 넣어서 그 다음에 공(표본)을 다시 추출하는걸 상상해보면 됩니다. 즉, 뽑았던걸 다시 뽑음 = 중복돼서 뽑음 = 복원추출하면서 리샘플링하는 방법이 부트스트랩인거죠. [ 부트스트랩 재표본추출 과정] 1. 샘플 복원추출 n 번 반복 2. 재표본 추출된 값의 평균 기록 3. 1-2단계 m번 반복 4. m개의 결과를 기반으로 표준편차, 신뢰구간 탐색, 가설검증 수행 그렇다면 부트스트랩의 목적은 뭘까요? 데이터사이언스를 위한 통계 책에서는 부트스트랩의 목적.. 2023. 1. 1. 데이터사이언스의 '편향' 이란? 누군가가 편향에 대해 설명해보세요 라고 질문한다면, 뭔지는 어렴풋이 알지만 명료하게 대답하기는 어렵기 때문에 한번 정리하고 넘어가려 합니다. 데이터 분석에서 빠지지 않는 질문 편향은 뭘까요? 편향이란? 편향이라는 단어 자체는 일상에서도 '편향적인 사람' '편향적이다' 등등 많이 사용하는 표현입니다. 일상 속에서는 어떠한 방향으로 치우친 경향을 설명할 때 많이 언급됩니다. 그러면 통계적인 측면에서 편향은 어떻게 정의될까요? 데이터사이언스를 위한 통계 책에서는 '통계적 편향은 측정 과정 혹은 표본추출 과정에서 발생하는 계통적인(systematic) 오차를 의미한다' 라고 정의했습니다. 이와 유사하게 위키피디아에서는 '결과와 사실 간의 차이를 유발하는 체계적인 경향을 의미한다'고 하는데요. 2가지 정의 공통적.. 2022. 12. 30. 30초만에 예술작품을 만드는 AI (MidJourney) AI로 만든 그림을 직접 손쉽게 체험해볼 수 있는 MidJourney 이용해봤는데요 😱 뉴스에서 볼 때와 달리, 직접 해보니 AI가 미래를 정말 바꾸고 있구나를 체험해볼 수 있었습니다. 이용방법) MidJourney 홈페이지에 가서 간단한 회원가입 및 이메일 인증을 하면 아래와 같은 채팅방에 입장할 수 있습니다. 채팅창에 /image 문구와 자신이 표현하고 싶은 그림의 특징을 입력하면 되는데요 저는 /image white tiger on iceberg를 입력했더니 약 30초-1분 후에 4가지 옵션의 그림이 떴습니다. 와 그림의 분위기와 털의 질감, 물결의 흔들림, 그림자, 수증기까지 정말 섬세하게 표현된 멋진 그림이 나왔습니다. 여기서 끝이 아니라 아래에 U1,2,3,4와 V1,2,3,4가 나오는데요 아.. 2022. 12. 29. 분산과 표준편차의 통계적 의의/차이 사실 분산과 표준편차는 중학교때부터 용어는 들어왔지만, 왜 데이터 사이언스에서 이 2개의 개념이 빠지지 않는지 어떤 의미를 가지고 있는지 살펴보려합니다. ✔ 변이추정을 위한 분산/표준편차 데이터를 2차원으로 표현하면 하나의 점으로 표현되는데요. 이처럼 데이터의 위치는 데이터에 대한 주요한 정보를 가지고 있습니다. 이때 데이터가 얼마나 퍼져 있는지 산포도(dispersion= spread = scatter), 즉 데이터의 변이(variability) 추정을 위한 값이 '분산'과 '표준편차'입니다. 데이터가 얼마나 퍼져 있는지를 알려면 무엇을 기준으로 얼마나 퍼져있는지에 대한 개념이 필요합니다. 여기서 등장하는 개념이 '편차'입니다. 여기서 이 2개의 개념 역시 { 추정값 - 관측값 } = 편차를 근간으로 .. 2022. 12. 29. ChatGPT 이용 상세 리뷰 😮 공개와 동시에 엄청난 파장을 일으키고 있는 ChatGPT를 사용해봤습니다. ChatGPT웹사이트에 들어가서 기본적인 계정생성/휴대폰 번호 인증을 하고 나면 아래와 같은 안내문이 뜨는데요 현재 공개된 ChatGPT는 진행중인 연구의 무료 실험 버전이며, 시스템 발전/보완을 위한 외부 피드백을 받는 것이 목적이라고 하네요. 서비스를 상용화하기 앞서서 실제 이용자들의 이용경험을 모으고 부족한 점을 사전에 보완하기 위해서 공개한 것으로 보이는데요. 전세계 사람들을 대상으로 예비 버전을 공개하고 정보를 모은다는 발상 자체가 정말 놀라운 것 같습니다... 마치 프로젝트를 90% 정도 마무리 해놓은 기술적 자신감을 바탕으로 마지막 10%를 채워보겠다는 뉘앙스... 다음 화면으로 넘어가면 진행하는 대화들은 시스템 개선.. 2022. 12. 26. 이전 1 2 3 4 5 6 7 ··· 15 다음 728x90 반응형