우리 주변에는 이미 무료로 이용할 수 있는 분석 도구들이 많다. 이를 이용하면 제한적이나마 데이터 수집과 분석, 시각화가 가능하다. 이미 일상에서 느끼고 있는 것처럼 머지않은 시점에 누구나 데이터 리터러시 나아가 데이터 마인드를 갖는 세상이 올 것이다. 그때가 되면 더 이상 역량이라 부를 필요가 없을지도 모른다. 하지만 아직은 많은 사람들이 데이터 리터러시가 무엇인지, 데이터마인드가 무엇인지 잘 모른다. 이럴 때 내가 한발 앞서 나가야 한다.
--- p.16
데이터와 데이터 분석이 필요한 이유는 우리가 가지고 있는 어떤 문제를 해결하기 위한 것이지, 분석 그 자체를 위한 것은 아니다. 분석을 위해 데이터가 존재하는 것은 아니라는 뜻이다. 그런데 데이터에 집착하다 보니 어느 순간 본질(문제 해결)은 잃어버리고 수단(데이터 분석)이 중요한 것처럼 돼버렸다.
--- p.21
풀어야 할 어떤 문제가 있다면 이 문제를 해결할 수 있는 데이터는 따로 있다. 엉뚱한 데이터를 갖고 있다면 아무런 의미가 없다. 구매 이력이나 고객 행동 데이터처럼 실시간으로 자동으로 수집되는 것도 있으며, 이런 데이터를 활용해 구매 확률을 계산해 낼 수도 있다. 하지만 이 또한 내가 풀고자 하는 문제와 연관이 있어야 의미가 있다. 데이터가 있어서 분석하는 것이 아니라, 비즈니스 문제를 해결하는 데 필요한 데이터를 수집하고 분석한다는 사실을 잊어서는 안 된다. 이점이 데이터 분석에도 기획이 필요한 이유이다.
--- p.25
‘조사하면 다 나온다’는 말이 있다. 이 말은 조사자 의도에 따라 결론이 도출된다는 뜻이다. 조사해서 정답을 밝힌다는 뜻은 아니다. 설문조사나 데이터를 수집 할 때는 이처럼 기본적인 윤리와 공정성을 잘 지키는 것이 중요하다. 하지만 현실에서는 100% 완벽하기가 불가능하다. 그래서 데이터를 볼 때 어떤 현상에 대한 팩트fact가 아니라 트렌드trend의 반영 정도로 보아야 한다. 즉, 의사결정을 위한 참고 자료이지 조사 결과가 당연한 귀결인것처럼 결론이 되어서는 안 된다.
--- p.38
무더위로 아이스크림 판매량이 증가했다면 인과관계가 있다. 무더위로 인해 익사자 수가 증가했다면 역시 인과관계가 있다고 봐야 한다. 하지만 아이스크림 판매량과 익사자 수의 증가 사이에는 인과관계가 아니라 상관관계(?)만 있다. 단, 이 상관관계는 통계적으로는 상관계수가 높을 수 있지만 현실에서는 아무 의미가 없는 상관이다. 단지 우연의 일치일 뿐이다. 이를 가짜 상관관계라 한다. 두 변수사이 상관관계가 인정되려면 개연성이 있어야 한다. 그리고 상관관계가 강하다고 해서 둘 사이에 인과관계가 있다고 단정하면 오류나 왜곡이 일어난다.
--- p.51
마케터라면 자신이 1년간 투자한 비용에 대비해 마케팅 성과가 났는지 그렇지 않은지가 궁금할 것이다. 광고도 하고 판촉도 하고 이벤트도 하고 가격 할인도 했는데, 이런 활동들이 투자 대비 효과ROI, return on investment를 거뒀는지 궁금하다. 이를 어떻게 알(측정할) 수 있을까?
--- p.51
현업 데이터 분석가가 되려면 몇 가지 조건이 필요하다. 첫째, 현업에서 일어나고 있는 문제를 정의할 수 있어야 한다. 둘째, 데이터에서 진짜 의미를 찾아내기 위한 과감한 도전이 필요하다. 셋째, 변수와 변수 간의 연관성을 유심히 살펴야 한다. 넷째, 원인과 결과를 찾아내는 것에 관심을 가져야 한다. 다섯째, 리서치 마인드와 분석적 사고를 해야 한다. 여섯째, 나의 가설을 지지할 데이터를 갖고 있어야 한다. 없다면 데이터 수집도 할 수 있어야 한다. 마지막 일곱째는 데이터 분석 도구를 사용할 수 있어야 한다.
--- p.69
데이터 분석에도 수준이 있다. 현업 실무자는 어느 수준까지 갖춰야 할까? (중략) 최소한 첫 번째 수준인 탐색 혹은 기술분석까지는 할 수 있어야 한다. 그리고 두 번째 수준인 인과 혹은 예측 분석도 할 수 있도록 노력해야 한다. 세 번째 수준인 최적 혹은 처방 분석은 전문적인 학습과 연습이 필요하다. 여기까지는 아마도 데이터 과학자로 진로를 바꿔야 할지도 모른다. 따라서 데이터 과학자가 아닌 이상 처방 분석 수준까지 학습할 이유는 없다.
--- p.71
현업 실무자로서 데이터 분석을 하고자 한다면 먼저 엑셀과 빅데이터 분석 플랫폼에 가장 먼저 익숙해질 필요가 있다. 그런 다음 좀 더 깊이 있는 분석을 위한 SPSS와 같은 통계 패키지를 이용한다. 그리고 전문적인 데이터 분석 및 시각화 분석까지 해보고자 한다면 R과 같은 프로그래밍 언어를 익힌다. 코딩에 자신 없다면 래피드마이너와 같은 플랫폼으로 데이터 마이닝 및 예측 분석을 할 수 있다.
--- p.81
그동안은 엑셀을 정렬과 함수 수식 등으로 사용했지, 데이터 분석 도구로 잘 쓰지 않았다. 그래서 어색하다. 그리고 엑셀에 KESS를 추가하는 이유는 ‘엑셀 데이터 분석’ 메뉴만으로 해결이 되지 않거나 사용에 불편한 부분이 있기 때문이다. 아시다시피 원래 엑셀은 스프레드 시트로 회계 처리 등의 계산을 위한 도구였다. 데이터 분석에 대한 요구가 높아지면서 통계분석 기능을 추가했지만, 데이터 분석에는 여전히 제약이 있다. 그런데 이를 간단하게 해결하는 방법이 바로 KESS다. 이 둘을 결합하면 유료 통계패키지인 SPSS와 비슷한 정도의 성능이 나온다.
--- p.83
마이크로소프트에서는 파워BI를 ‘셀프 서비스 및 엔터프라이즈 비즈니스 인텔리전스BI를 위한 확장형 통합 플랫폼’으로 소개하고 있다. 파워BI는 데이터 분석을 위한 시각화 도구이며, 클라우드 기반의 비즈니스 인텔리전스 서비스이다. 데이터를 연결하고 시각화하여 매일 사용하는 앱에 시각 개체를 삽입할 수 있도록 지원한다.
--- p.87
최근 아마존닷컴에서 시즈닝 부분에서 히트한 제품을 살펴보자. “어떻게 하면 외국인에게 김치를 팔 수 있을까?”라는 문제에서 출발, 식품 소비 트렌드와 잠재 고객의 니즈 그리고 경쟁 브랜드와 제품을 분석하고, 이어서 자사를 분석한 다음, 이를 바탕으로 신제품에 대한 아이디어를 도출하고 사업화했다. 인터넷에 흩어져 있는 여러 자료를 찾아 분석한 결과를 정리하면 다음 그림과 같다.
--- p.97
내가 건강기능식품의 마케터나 제품 기획자라고 생각해보자. 소비자들의 건강 추구 경향은 오래전부터 있었고, 지금도 지속되고 있다. 소득의 증가, 수명의 연장, 삶의 질 추구 등 소비자의 건강 추구 욕구는 증대되고 있으며, 시장에도 이미 다양한 제품들이 출시되어 있다. 성숙 시장에 접어들었다고 봐도 무방하다. 그러면 어떤 제품으로 시장 확대를 꾀해야 할까? 상사로부터 히트할 수 있는 신제품을 개발하라는 지시를 받았다면 어떻게 해야 할까?
--- p.111
텍스트 마이닝은 자연어로 구성된 비정형 텍스트 데이터에서 특정한 패턴 또는 관계를 추출하여 의미 있는 정보를 찾아내는 기법이다. 그리고 특정 단어가 얼마나 많이 나오는지 빈도term frequency를 보여준다. 하지만 분석에 사용한 데이터는 자연어로 되어 있기 때문에 문장 그대로 쓰기 어렵다. 각각의 단어로 분리해야 하는데 이를 ‘형태소 분석’이라고 한다.
--- p.113
제주의 어느 호텔을 이용한 고객의 후기VOC를 갖고서 텍스트 데이터 분석을 예시로 한 번 해보자. 맨 먼저, 엑셀을 열고 데이터 가져오기에서 분석하고자 하는 텍스트 데이터 파일을 가져 온다. 그런 다음 분석하고자 하는 텍스트를 복사한다. 이제 빅카인즈에 들어가서 [뉴스분석〉형태소·개체명 분석〉텍스트 입력]란에 붙여넣기를 한다. 붙여 넣기를 완성했다면 분석 버턴을 누른다. 분석 결과는 하단 아래에 나온다.
--- p.123
분석 도구가 아니라 분석 목적을 생각한다면 빅카인즈 의 형태소 분석을 이용하든, 파워BI의 워드 클라우드 분석을 이용하든 충분한 시각화 결과물을 얻을 수 있다. 중요한 것은 어떤 문제(과제)가 있고, 그 문제를 해결하기 위해 텍스트 빅데이터를 수집하거나 이미 존재하는 텍스트 데이터에서 많이 언급되는 단어(핵심 키워드)를 찾아 현재까지의 변화를 읽어 내는 것이다.
--- p.137
측정과 척도는 정확하게 사용해야 한다. 정밀한 데이터보다는 정확한 데이터가 더 좋은 데이터다. 어떤 척도를 사용해서 질문하는가에 따라 분석 기법도 달라진다. 예를 들어, 변수와 변수의 상관관계를 알고 싶다면 연속형(등간이나 비율) 척도로 측정되어야 한다. 반면, 집단과 집단 사이의 차이를 비교하고 싶다면 집단은 범주형(명목) 척도가 되어야 하고, 알고 싶은 차이는 연속형(등간이나 비율) 척도가 되어야 한다.
--- p.170
구글, 아마존, 메타(페이스북), 애플, 마이크로소프트 등은 빅테크 기업들로 사업 과정에서 자연스럽게 데이터 수집을 하고 활용한다. 하버드비즈니스리뷰에 의하면 이들은 매년 1만 건이 넘는 A/B 테스트를 시행한다. 이 중에는 수백만 명의 사용자들이 참여하는 실험도 많다. (중략) 일반적으로는 기존 안(A안)은 A집단(대조군)에, 실험하고 싶은 안(B안)은 B집단(실험군)에 노출하여 전환율을 계산한다. 그리고 전환율이 통계적으로 유의미한 차이를 갖는지를 검정한다. 통계적 차이가 유의미한지 아닌지는 유의확률, p-값으로 추론한다.
--- p.185
넷플릭스는 랜딩페이지 버튼에 A/B/C/D 테스트를 했다. “30일간 무료로 보세요” “14일간 무료로 보세요” “7일 간 무료로 보세요” “지금 사용해 보세요” 이렇게 네 가지 안을 갖고서 테스트를 진행했다(2019년 5월). 결과에 따라 “지금 사용해 보세요”가 채택되었다. 나머지는 무료 이용 기간이 지나고 나면 비용을 지불해야 한다는 생각이 들어서 효과가 떨어지는 것으로 해석했다.
--- p.187
어떻게 하면 데이터 사고력을 높일 수 있을까? 몇 가지 방법을 소개한다. 첫째, 다양한 종류의 데이터를 다룰 수 있어야 한다. 서베이를 통한 정형 데이터와 소셜에 있는 비정형(텍스트 등)데이터를 통합적으로 분석하고 의미를 찾으려는 접근이 필요하다. 하나의 데이터로 복잡한 사회 현상을 설명하는 데에는 한계가 있다. 2차 자료(기존 자료)와 직접적인 조사 그리고 빅데이터를 연결해서 관련 문제를 총체적으로 이해하려는 시도가 필요하다. (중략) 둘째, 데이터 분석 방법과 시각화 결과물에 의심을 갖고 봐야 한다. 비록 조사 윤리를 잘 지켰다 해도 다양한 오류가 발생할 수 있다. 조사 설계에서 데이터 수집, 전처리 과정, 통계 분석과 시각화 방안 그리고 결과를 해석하고 활용하는 과정에서 수많은 오류가 일어난다. 오류를 최소화 하는 방법은 모든 데이터를 의심해 보는 것이다. 믿지 말라는 것이 아니라 데이터가 가지고 있는 제약 사항을 염두에 두어야 한다는 뜻이다. (중략) 셋째, 표본조사의 특성과 오류 발생 가능성에 대해 알고 대비해야 한다. 표본조사는 표본으로 모집단의 특성을 추론한다. 추론이 타당하기 위해서는 모집단에서 무작위로 표본이 추출되어야 한다. 이때 일어나는 대표적인 오류가 선택 편향Selection Bias이다. 선택 편향은 무작위 표본이 아닌 데 마치 무작위 표본인 것처럼 생각하고 사용하는 것을 말한다. 결과적으로 오류가 있는데 모르거나, 오류를 알고 도 무시하거나 할 때 발생한다. (중략) 넷째, 모든 통계가 아니라 나에게 필요한 통계는 알아야 한다. 빅데이터 분석도 통계 분석을 기반으로 한다. 통계를 모르고 분석 결과를 해석할 수 없다. 통계분석의 결과를 현실의 상황과 연결하여 대조해 보고 그 의미를 파악해야 한다. 통계를 기반으로 생각하는 통계적 사고가 습관화되어야 하고, 편견 없이 데이터를 보는 습관을 들여야 한다.
--- p.230
데이터 기반의 의사결정을 위해 전 직원을 대상으로 R 프로그래밍 교육을 한 어떤 B2B 기업이 있다. 과연 전 직원을 대상으로까지 할 필요가 있었을까? 모든 직원이 데이터 분석을 전문적으로 하면 좋겠지만, 몇 시간 교육받는다고 할 수 있는 것은 아니다.
--- p.235
간혹 데이터 분석의 결과가 나왔고 결과에 따라 의사결정을 했기 때문에 나는 아무런 책임이 없다, 이렇게 생각하는 사람이 있다. 다시 한 번 강조하지만, 의사결정은 데이터 분석의 결과를 따라 하는 것이 아니라 의사결정자의 판단으로 하는 것이다. 당연히 의사결정자는 의사결정에 대한 책임을 진다. 이는 데이터 기반의 의사결정이든, 주먹구구식의 의사결정이든 마찬가지이다. 데이터는 의사결정을 현명하게 할 수 있도록 돕기 위한 수단에 불과하다. 이 사실을 절대 잊어서는 안 된다.
--- p.242
코딩을 하지 않고 분석할 수 있다고 했지만, 실제 ‘엑셀 데이터 분석’ ‘KESS’ ‘파워 쿼리’ ‘파워BI’ 등의 소프트웨어에 익숙하지 않으면 이 역시 사용하는 데 어려움이 있다. 스스로 극복할 수밖에 없다. 열거한 데이터 분석 도구 역시 비교적 사용하기 쉽다고는 하지만 숙련의 과정을 반드시 필요로 한다. 마찬가지로 데이터 마인드가 없고, 분석에 대해 아는 게 없고, 도구를 익히겠다는 마음과 연습의 자세가 없다면, 아무리 챗GPT의 시대가 되었다 해도 제대로 이용하기 어렵다.
--- p. 256
파이썬으로 데이터 분석이 가능한 거의 모든 분석과 그래프 작업을 챗 GPT를 통해서도 할 수 있다. 파이썬으로 할 수 있는 거의 모든 통계 분석 기법을 수행한다는 뜻은 엑셀+KESS, 파워BI에서 수행하지 못했던 분석을 챗GPT로도 할 수 있음을 뜻한다.
--- p.281