2023.11.21 - [STUDY/📊 Data Analytics & Stats] - [Statistics] 데이터 분석가의 숫자유감(1)
[Statistics] 데이터 분석가의 숫자유감(1)
🤔 Why? Data Analysis에 대해 공부할수록 통계 지식에 대한 필요성을 느낍니다. 코드마다 데이터를 어떻게 처리해야 논리적인 근거가 될지, 한편으로는 데이터가 너무 편향적으로 해석되진 않을지
jeonyn.tistory.com
💡 Insights.
CH.08 시계열 데이터
"세상은 시간과 함께 돌아간다."
여기서 얻는 인사이트는 데이터는 일희일비가 아닌 넓은 시야로 봐야 더 많은 해석을 할 수 있다는 것입니다.
시계열 데이터를 분석할 때는 크게 1) 추세 / 2) 주기 / 3) 계절성으로 구분합니다. 책의 예시가 잘 나와있어 이를 인용합니다.
1) 추세: 장기적으로 늘어나거나 줄어드는 형태를 말합니다. 주가가 내려갔다고 말할 때 오늘은 올랐지만 추세상으로는 오르고 있다고 나타날 수도 있습니다.
2) 주기: 고정된 시간 단위로 유사한 변동 형태가 나타나는 것을 말합니다. 주중 지하철 탑승객 수의 변화 형태를 예로 들 수 있는데, 평일 출근시간에는 지하철 이용자가 급격히 증가하다 오후에는 살짝 내려가고 다시 퇴근시간에 급증합니다.
3) 계절성: 주기적으로 반복되는 때에 어떤 사건이 발생하는 것을 말합니다. 주기와 비교하자면, 주기는 형태를 의미한다면 계절성은 빈도입니다. 예를 들어 빼빼로데이가 있는 11월 초마다 빼빼로류의 판매량이 증가하는 것을 설명가능합니다.
✅ 시계열 데이터: 시간에 따른 변화를 데이터로 나타내는 것
CH.12 범위 제한을 통한 정확도 향상
"데이터 분석의 근간은 논리고, 논리는 명확한 정의와 범위의 제한으로부터 시작된다."
1. "A 게임의 주이용자는 10대일 것이다"
2. "2023년 11월 한 달간 A게임의 이용자 데이터 조사 결과 10대의 비중이 60%로 가장 높았다"
1번 문장은 보기도 쉽고 상당히 직관적입니다.
2번 문장은 길고 숫자도 있어 복잡해보여 위의 문장보다 확 와닿지는 않습니다. 끝까지 읽기 싫을 수도 있습니다. 그러나 2번 문장을 사용했을 때 더 논리적이고 정확한 근거가 될 수 있습니다.
데이터 분석을 비즈니스에서 사용하는 대표적 용도는 의사 결정의 근거를 만드는 것이고, 그 근거로 의사 결정자들을 설득하는 것입니다. 하지만 데이터는 사람들이 흔히 생각하는 것과 다른 사실을 발견할 때 주로 사용되는 것이기 때문에 아무리 결과가 논리적이더라도 쉽게 받아들이지 못하는 경우가 생길 수도 있습니다. 그래서 데이터 분석 결과를 최대한 포괄적이고 직관적인 결과로 만들고 싶은 욕구가 들 수 있는데 이를 주의해야 한다는 것을 책을 통해 되새겨볼 수 있었습니다.
CH.14 데이터 문해력
"데이터로 말하는 것은, 어쩌면 무언가를 확신하는 말을 아끼게 되는 것인지도 모른다."
1. 데이터의 출처와 목적을 우선 파악하기
2. 데이터에서 누락된 부분은 없는지 확인하기
3. 논리에 허점이 없는지 확인하기
데이터 분석에 있어서 어쩌면 당연한 자세지만, 당연하기에 놓칠 수도 있다는 것을 언제나 명심하고 있어야겠다는 것을 마지막 챕터를 통해서 다짐해봅니다.
📚 Further Studies..
📝 normalization
📝 베이즈의 정리
'STUDY > 👩🏻💻' 카테고리의 다른 글
[내가 보려고 정리하는 Github] Fork 할 때 private로 불러오기 (0) | 2025.04.27 |
---|---|
[Statistics] 데이터 분석가의 숫자유감(1) (2) | 2023.11.21 |