통계

    기술통계치에 대해 알아보자.

    (velog에서 22.09.14 작성된 글입니다.) 기술통계 데이터를 묘사, 요약, 설명하는 통계적 방법과 절차들 기술 통계치 데이터를 요약하기 위해 사용 (우리는 바쁘니까, 많은 사례들을 요약해서 전달하기 위해서 사용한다) 1. 중심 경향치 데이터가 어디에 몰려 있는가? 평균 (mean) : N개의 값이 있을 때, 그 합계를 N으로 나눈 것 중간값 (median) : 값들을 크기 순으로 정렬했을 때 중간에 위치한 값 최빈값 (mode) : 가장 많은 사례에서 관찰된 값 #평균값 mean() #중간값 median() #최빈값 (여기서는 큰 의미는 없는 값) mode() #범주별 사례수를 카운트 df.model.value_counts() 2. 분위수 크기순으로 정렬된 데이터를 q개로 나누는 위치의 값 (쉽..

    데이터 분석가에게 왜 통계가 필요할까?

    (velog에서 22.07.26에 작성된 글입니다.) 통계는 왜 필요한가? 휴리스틱(Heuristic) : 그리스어로 발견이라는 뜻으로 경험적으로 괜찮은 답을 찾는 방법을 말한다. 인간은 기본적으로 휴리스틱, 즉 스토리 기반, 특정 사례 기반, 유사성을 기반으로 생각한다. 이러한 우리의 생각하는 방식은 공통적으로 불확실성과 다양한 가능성에 대한 고려가 부족하다. -> 통계는 이러한 문제점에서 벗어나게 해준다. 데이터 분석가는 무엇을 해야 하는가? 통계적 사고를 바탕으로 데이터를 분석한다. 다른 사람들이 쉽게 이해할 수 있도록 이야기, 대표적 사례 등으로 잘 포장하여 커뮤니케이션 해야 한다. -> 위 두 가지의 밸런스를 잘 갖춰야 한다. (대부분의 경우 2번만 잘해서 숫자를 가지고 스토리텔링하는 경우가 많..