🤔 Why?
Data Analysis에 대해 공부할수록 통계 지식에 대한 필요성을 느낍니다. 코드마다 데이터를 어떻게 처리해야 논리적인 근거가 될지, 한편으로는 데이터가 너무 편향적으로 해석되진 않을지에 대한 고민을 합니다. 그래서 통계적 지식을 탄탄히 마련해서 이러한 고민과 걱정을 덜고, 더 논리적이고 객관적인 데이터 분석을 위해 이 책과 함께 개념 정리를 해보고자 합니다.
💡 Insights.
CH.01 상관관계와 인과관계
"상관관계는 인과관계를 나타내지 않는다."
관련성이 있다고 해서 모든 관계가 인과관계에 있는 것이 아님을 주의해야한다는 것을 배웠습니다. 특정 변수 간의 상관관계가 의미있게 나온다고해서 해당 변수가 반드시 그 문제의 원인이 되진 않기 때문입니다.
예를 들어, 탕후루가 인기가 높아졌고 동시에 치과 환자도 늘어났다고 해서 탕후루는 치아 질환의 원인이라고 무조건 결론내리는 것은 위험합니다. 과거의 값이 현재에 값에 계속 영향을 미치는 '자기상관성'이나 사용되지 않은 변수로 인한 '편향성'이나 '외생 변수' 등을 모두 고려해야 합니다.
내생변수와 외생변수를 이해하고, 변수의 추이에 영향을 미칠 수 있는 요인이 있는지를 꼼꼼히 따져보아야 올바른 데이터 기반 의사결정을 할 수 있습니다.
✅ 인과관계: 원인과 결과 관계가 명확함
✅ 상관관계: 두 변수가 얼마나 상호 의존적인지를 의미함
✅ 상관계수: 상관관계를 숫자로 표현한 것
CH.03 모수와 표본
"전체 집단을 정의하는 것은 간단하지 않다."
이 챕터에서 말하고자 하는 것은 자신의 시각에 비추어 데이터를 오용하거나 남용하지 않아야 하며, 자신이 아는 것으로 모든 것을 해석하는 데에는 한계가 있다는 것을 이해하는 것이었습니다.
전체 데이터를 다 사용하는 것조차 모든 회원을 대표할 수는 없습니다. 전체 데이터라고 생각했지만 늦게 가입한 사람, 중간에 탈퇴한 사람 등등을 모두 대표할 수 없기 때문입니다. 보통은 모집단을 어느 정도 정의한 후, 모집단에 가까운 표본을 정의하고, 그 표본을 구하는 방법을 고민한 후에 수집된 표본의 데이터 중에서 사용할 데이터를 찾습니다.
✅ 큰 수의 법칙: 표본의 크기가 충분히 크다면 그때의 표본 평균은 모평균에 충분히 가까워진다는 법칙. 표본이 해당 모집단을 추정하기 적당한지를 알아보기 위해 '큰 수의 법칙'을 활용할 수 있음.
✅ 모수: 모평균이나 모표준편차 같은 모집단에 대한 통계값. 모수를 근거로 모집단의 형태를 추정함
CH.07 추세선 그리기
"도구를 사용한 결과에 잘못이 있다면, 그 책임은 기능을 제대로 이해하지 못하고 직감적으로 사용한 사람에게 있다."
여기서는 엑셀에서 그려주는 '추세선' 기능에 대해 말하고 있지만, 사실은 파이썬이나 GPT와 같은 인공지능 등의 내가 사용하는 도구에도 똑같이 적용할 수 있는 말이라 생각해서 새겨 읽게 되었습니다. '다들 쓰는데'는 변명이 될 수 없다는 것을 스스로에게 명시해봅니다.
추세선은 단일 시계열 데이터 사용에 유용하며 데이터의 추이를 파악하는데 도움을 줍니다. 말 그대로 '추세'를 보여주는 선으로 시계열 데이터와 같은 일정한 시간 단위로 만들어진 데이터에 사용해야 왜곡되지 않고 그릴 수 있습니다.
추세선을 그릴 때 주의해야하는 또 한 가지는 '정확도'인데 이를 위해 결정 계수를 참고할 수 있습니다. 주로 사용되는 값은 'R-제곱'입니다.
✅ R-제곱: 0과 1 사이의 값으로, 추세로 그린 선과 실젯값이 얼마나 비슷한지를 측정한 값. 1에 가까울 수록 비슷한 값이고 0으로 갈수록 두 값의 차이가 커짐. R-제곱값이 얼마 이상이어야 사용 가능한지는 상대적이나 최소한 0.1도 안되면 신뢰도가 낮다고 판단 가능.
📚 Further Studies..
📝 푸아송 분포: 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 나타낼 때 사용되는 확률 분포 모형
📝 t-검정, z-검정
📝 R-제곱
'STUDY > 👩🏻💻' 카테고리의 다른 글
| [내가 보려고 정리하는 Github] Fork 할 때 private로 불러오기 (0) | 2025.04.27 |
|---|---|
| [Statistics] 데이터 분석가의 숫자유감(2) (0) | 2023.11.21 |