데이터를 신뢰할 수 없다면 데이터 투자, 인프라 및 통찰력은 모두 소용없다. 이 책의 공동 저자인 바(Barr), 라이어(Lior), 몰리(Molly)는 데이터 신뢰의 근본적인 의미를 꼼꼼히 설명하기 위해 엄청난 노력을 기울였으며, 기업에서 데이터 품질을 구현할 때 매우 실용적으로 쓸 수 있는 프레임워크를 만들었다. 데이터 품질에 관심 있는 사람이라면 누구나 읽어야 할 필독서라고 자신 있게 추천한다.
- 데바쉬스 사하 (전 앱젠(AppZen), 인튜이트(Intuit), 이베이(eBay) 데이터 리더)
데이터 아키텍처가 점점 더 분산되고, 데이터에 대한 책임도 점점 더 분산되면서 데이터 품질이 갈수록 중요해질 것이다. 이 책은 요즘 가장 중요한 기술과 프로세스에 주목하며, 데이터의 정확성·신뢰성·사실성을 진지하게 개선하는 엔지니어링 조직을 위해 핵심 정보를 제공한다.
- 맘마드 자데 (데이터 리더 겸 전 인튜이트 엔지니어링 부사장)
데이터 엔지니어, ETL 프로그래머, 전체 데이터 파이프라인 조직은 이 책과 같은 참고 문서, 테스트 가이드가 절실히 필요하다. 데이터 애플리케이션의 품질을 보장하는 데 도움이 되는 각 요소와 프로세스 및 도구가 무엇인지, 또 그것들이 어떤 역할을 하는지 배울 수 있기 때문이다. 이 책은 특히 신선한 관점과 실용적인 테스트 시나리오를 통해 최신 데이터 파이프라인을 테스트할 때 인사이트를 제공한다.
- 웨인 야도우 (데이터 및 ETL 품질 분석가)
데이터 품질은 데이터 분석의 신뢰도와 밀접하게 연관돼 있다. 데이터가 원활하게 흐르는 조직이 되기 위해서는 구성원들이 데이터에 쉽고 빠르게 접근해서 활용할 수 있어야 하는데 이때 의사 결정 속도를 확보하는 것이 곧 비즈니스 발전 속도가 됐다. 이 책에서 데이터옵스를 통해 신뢰도 높은 데이터를 확보하는 방법과 이를 기반으로 빠른 의사 결정을 내리는 사례를 찾아보기 바란다. 현재 조직의 데이터옵스 현황도 진단해 보면 더할 나위 없겠다.
- 윤정환 (OP.GG 데이터 팀 리드)
이 책의 특별함은 데이터를 활용한 비즈니스적인 성과가 주를 이루는 많은 데이터 관련 출판물과는 달리, 데이터 활용 전에 이루어져야 하는 데이터 정합성과 무결성을 높이는 기본에 관한 방법론을 제시하는 데 있다.
- 장재영 (신한카드 D&D 연구소장, 최고 데이터 책임자)
데이터 품질 문제는 데이터 엔지니어링 분야에서 빈번하게 발생한다. 이 책은 그 문제를 해결할 데이터 팀의 기술, 프로세스, 문화를 종합적으로 다뤘다. 그래서 데이터 분석가, 데이터 과학자, 데이터 파이프라인을 구축하고 관리하는 모든 분에게 자신 있게 추천할 수 있는 책이다.
- 조승완 (비바리퍼블리카 데이터 엔지니어)
데이터가 없는 것보다 잘못된 데이터에 기반한 의사 결정이 더 무섭다고 생각한다. 이 책은 데이터 품질을 챙기고 싶지만 어디서부터 시작해야 할지 혼란스러운 실무자와 의사 결정권자들에게 다양한 규모의 조직에서 적용해 볼 수 있는 실질적인 방법론을 제시한다. 더불어 기술에만 국한되지 않고 조직 관점에서 실제 사례를 제공하기 때문에 지침서로서도 손색이 없다.
- 조재영 (오토피디아 데이터 엔지니어)
과거와 달리 이제는 데이터 파이프라인이라는 개념이 어느 정도 정립되었다. 수집할 데이터의 텔레메트리 디자인부터 시작하여 데이터 전송과 수집, 가공, 공급, 테스트, 모니터링 등으로 분화되어 데이터 파이프라인을 구성하는데, 그 모든 분야에서 품질 관리가 필수적이다. 컴퓨터라는 단어조차 없을 때의 격언은 지금의 첨단 기술에도 해당된다- garbage in, garbage out. 제대로 관리되지 않은 데이터를 기반으로 한 AI라면 아무리 훌륭한 기술이라도 좋은 결과를 낼 수가 없다. 신뢰할 수 있는 데이터 시스템을 거대 스케일로 구축하는 데에 필요한 구성 요소를 폭넓게 커버하는 이런 책이 꼭 필요하다고 본다.
- 양파(주한나) (MS 코파일럿 응용 AI 팀, 데이터 과학자)