데이터는 예측하지 않는다 : 데이터에 관한 꼭 알아야 할 오해와 진실 추천도서/추천도서2024. 3. 28. 09:35
데이터는 예측하지 않는다 : 데이터에 관한 꼭 알아야 할 오해와 진실 / 김송규
006.312 김55ㄷ 자연과학열람실(4층)
책 소개
데이터로 의사결정을 해야 하는 사람들 그리고 데이터로 의사결정 하는 것이 필요하다고 주장하는 사람들을 위한 책이 나왔다. 이 책은 우리가 알고 있던 데이터에 대한 지식이 얼마나 잘못된 것이 많으며, 이를 제대로 알지 못하면 어떤 실수를 범하게 되는지 여러 사례를 통해 밝히고 있다. 그리고 이런 실수에서 벗어나기 위해서는 인문학적 통찰이 중요하다는 것도 잊지 않고 강조한다.
출판사 서평
좋은습관연구소의 36번째 습관은 “데이터를 읽는 습관”입니다. 작가는 데이터 읽는 습관으로 인문학적 소양 쌓기를 주장합니다. 그리고 수학자 출신답게 이를 뒷받침 하는 증명(?)으로 데이터에 관한 오해와 진실이 무엇인지 하나씩 소개합니다.
그 중 몇 가지를 소개하면 다음과 같습니다.
1. 양질의 데이터 100개가 이것저것 섞인 데이터 100만 개보다 낫다.
2. 데이터 분석은 어쨌든 모집단의 일부를 갖고서 분석하는 것으로 아무리 양질의 데이터이고, 많은 양이 있다 하더라도 결국은 진실에 가까운 추정치일 뿐이다.
3. 데이터 없이 분석결과를 얻을 수 있다면 그것이 최선이다.
4. 데이터 분석을 할 때 자주 하는 실수 중 하나가 ‘나의 데이터’ ‘남의 데이터’를 구분하지 못하는 것이다.
5. ‘당선 확률’은 당선의 미래를 예측하는 것이 아니라 미래의 오차 범위를 말하는 것이다. 그래서 “미래를 정확히 예측한다”는 말을 해서는 안 된다.
6. 데이터는 과거의 발자취일 뿐이다. 예측할 수 없다. 빅데이터를 분석한다는 것은 예측을 하기 위한 것이 아니라 패턴을 찾기 위한 것이다.
7. 분석에만 치중하다 보면 상식적인 판단이 헷갈려 엉뚱한 진단을 하는 수가 있다. 그래서 풀고자 하는 문제에 대한 통찰을 선행하는 것이 중요하다. 통찰은 결국 해당 문제 영역의 경험에서 나온다.
8. 데이터 리터러시 역량을 키운다는 것은 해결하려는 문제의 주어진 상황이나 인과관계를 논리적으로 추론할 수 있는 소양을 갖추는 것을 말한다.
9. 지금의 빅데이터가 몇 년 뒤에는 일반 데이터가 될 수도 있다. 그러니 빅데이터가 뭔가 대단한 것이라고 착각해서는 안 된다.
10. 인공지능이 표본화된 데이터를 학습한 만큼, 인공지능이 생성한 답이 반드시 진리일 수는 없다. 갈릴레오 시대의 인공지능이라면 “지구는 돈다”라고 말할 것이다.
11. 데이터 분석이 보장하는 것은 답의 진실성이 아니라, 데이터의 대표성임을 잊지 말자.
12. 문제의 본질을 읽는 것, 그래서 문제를 풀기 위해 어떤 도구를 쓸지 결정하는 능력, 그것이 곧 인문학적 능력이다.
아시다시피 데이터는 거짓말을 하지 않습니다. 거짓말을 하는 것은 데이터를 활용해 자신의 주장을 펼치는 사람입니다. 이책에서 강조하는 인문학적 소양은 바로 이러한 왜곡을 밝히고 잘못 이해하고 있는 오해를 진실과 구분짓는 데 필요한 능력입니다.
인문학적 소양이 부족하면 최신 기술을 빨리 익히는 힘은 물론이고, 기술에 앞서 풀고자 하는 문제의 본질을 보는 힘 또한 놓치게 됩니다. 이 책을 통해서 응용 수학자는 주장하는 데이터 사이언스과 인문학(고등학교 수준의 과학적 소양까지 포함한)의 중요성을 함께 고민해보았으면 합니다.
* 이런 분들에게 추천합니다.
1. 데이터 전문가로 현재 활동하고 있거나, 향후 전문가로 성장을 꿈꾸고 있는 입문자들
2. 데이터 전문가가 아닌 분 중에서는 데이터에 대한 특징을 이해해서 업무적으로 도움을 얻고자 하는 기획자, 마케터분들
목차
1부 - 데이터 분석을 제대로 하려면
1. 분석의 목적 정의 - 나는 어떤 필요 때문에 데이터를 활용하는지 알아야 한다
2. 가장 좋은 분석이란 - 문제를 정의하고 상황에 맞는 분석 기술을 아는 것이 중요하다
3. 데이터 분석, 꼭 알아야 할 15가지 - 측정, 분석, 수집에 대해 꼭 알아야 하는 15가지를 기억하자
4. 진짜 좋은 데이터란? - 나의 데이터와 남의 데이터를 구별할 줄 알아야 한다
5. 분석 결과의 진실성 - 데이터 분석의 결과는 완벽하게 실제를 대변할 수 없다
6. 데이터의 상관관계, 인과관계 - 데이터 변수들 사이의 관계를 파악하는 인사이트가 중요하다
7. 데이터 사이언스의 한계 - 데이터 사이언스는 통계학의 한계를 벗어날 수 없다
2부 - 데이터 사이언스의 오해와 진실
8. 언제까지 빅데이터? - 지금의 빅데이터가 미래에는 스몰데이터가 될 수 있다
9. 데이터 지상주의 - 데이터를 이용한 주장에는 신뢰성 이슈에서 자유로울 수 없다
10. 데이터는 잘못이 없다 - 똑같은 데이터라도 보는 관점에 따라 해석은 달라진다
11. 데이터로 미래 예측이 가능? - 데이터는 예측이 아니라 패턴을 알려준다
12. 데이터 없이 문제 해결하기 - 가장 최고의 해결책은 데이터 없이 해결하는 것이다
13. 데이터 사이언스는 과학이 아니다 - 데이터의 대표성이라는 한계를 명확히 알아야 한다
14. 도박과 확률이 다른 점 - 도박은 예측이지만 확률의 본질은 관리(매지니먼트)이다
15. 실패한 기업에 다시 투자하는 이유 - 성공 가능성이라는 확률에 투자하는 것이다
3부 - 데이터 사이언스 더 잘하기
16. 효용성 높이기 - 문제의 본질에 맞는 적절한 자원과 분석 도구가 중요하다
17. 수학적 사고의 중요성 - 잘못된 의사결정을 피하기 위해 데이터 리터러시가 필요하다
18. 나의 데이터 리터러시 - 나의 데이터 리터러시 수준을 측정해보자
19. 인지적 편향 깨기 - 인지적 편향을 깨는 데 필요한 것이 데이터 리터러시이다
20. 생활 속 게임이론 - 화려한 알고리즘이 허상일 때가 있다
21. 데이터 사이언스 설계 - 분석 설계를 잘하기 위해서는 실무를 꼭 알아야 한다
22. 데이터 사이언스 설계, 원포인트 레슨 - 시간, 비용, 품질을 개선하는 설계가 핵심이다
23. 문제의 본질 읽기 - 문제 해결의 기본 소양은 인문학에서 나온다
4부 - 데이터 사이언스와 인문학
24. 데이터 사이언스와 챗GPT - 모두가 챗GPT를 쓴다고 해서 안달복달할 이유는 없다
25. 인공지능의 비합리성 - 머신 러닝을 통해 나온 답이 진실이 될 수는 없다.
26. 인문학적 소양 - 문제의 본질에 접근하려는 습관만큼 중요한 것이 없다
< 내용 출처 : 교보문고 >
'추천도서 > 추천도서' 카테고리의 다른 글
홍보의 신 : 충주시 홍보맨의 시켜서 한 마케팅 (0) | 2024.04.03 |
---|---|
향문천의 한국어 비사 : 천 년간 풀지 못한 한국어의 수수께끼 (0) | 2024.04.02 |
한국 요약 금지 : <뉴요커> 칼럼니스트 콜린 마샬의 변화하는 한국을 읽는 N가지 방법 (0) | 2024.03.27 |
TMI : 정보가 너무 많아서 (0) | 2024.03.26 |
음악, 밀당의 기술 : 타이밍과 끌림에 관하여 (0) | 2024.03.22 |