세이노 저
임솔아 저
애나 렘키 저/김두완 역
로랑스 드빌레르 저/이주영 역
천선란 저
백온유 저
빅데이터,
21세기를 살아가면서 이 말을 모르는 사람이 존재할까?
사람들은 언제나 진실과 정의를 좇는다. 그리고 이를 추구하는 과정에서 기술의 발전이 보다 객관적인 사실을 보여줄 것이라고 믿는다. 글쎄, 실제로도 그렇다고 단정짓기는 곤란할 것이다.
사람들은 말한다. 인간은 완벽히 이성적일 수 없다고. 덕지덕지 얽혀버린 감정들이 그의 판단력을 흐릴 것이라고. 편견과 자기중심적인 판단 때문에 눈물을 흘리는 사람들은 분명히 존재한다.
이런 현상을 해결하고 보다 효율적으로 시간과 자원들을 배치하기 위해 우리는 빅데이터라는 시스템을 도입하기 시작했다. 원래의 목적과도 같게, 빅데이터는 정말 편리했다. 많은 양의 정보를 단시간에 처리할 수 있으니 말이다. 무엇보다도 빅데이터는 결과를 도출할 때 감정이 섞일 수 없기 때문에 사람들은 이에 열광했다.
하지만 모든 사람들이 계속 열광했을까? 아니, 이건 애초부터 잘못된 명제다. 데이터 자체가 사람이 만들었다는 사실을 간과해서 생긴 결과가 정의롭지 못했기 때문이다. 편견으로 가득찬 사람들이 만든 데이터는 편견으로 가득차있다. 또한 인간을 부품으로 취급해버리기도 한다.
이 책을 통해 깨닫게 된 것은, 이 세상에는 내가 모르는 많은 정보들이 떠돌아다니고 이를 악용되는 경우가 많다는 것이다. 차별과 편견이 점점 고착화되면서 많은 사람들이 눈물짓게 된다는 사실에 마음이 아팠다. 모두가 이를 인지하고 바꾸려고 노력을 해야한다고 생각한다. 세상이 좋은 방향으로 하루빨리 바뀔 수 있기를 바란다.
나는 개인적인 배경으로 인해 나는 인공지능에 관한 조그마한 이해 정도는 가지고 있었고, 그래서 다음과 같은 기사를 접했을 때 빠르게 문제를 파악할 수 있었다. 'Amazon’s sexist AI recruiting tool: how did it go so wrong?'
아직 취준을 해보지 않아 정확히는 모르겠지만, AI 면접은 현재의 대한민국에서도 상용화되어 있는 줄로 알고 있다. 또, 말도 안 되는 판례가 기사화되었을 때 댓글창에서는 거의 언제나 AI에게 맡겨야 한다는 주장을 발견할 수 있다. 사람들은 AI라고 하면 그 어떤 편견에도 영향을 받지 않는 줄로 알고 있는 듯하다.
문제는, AI는 데이터를 통해 현실 세계가 어떻게 생겼는지를 학습하고, 그 데이터는 언제나 과거에 머무른다는 것이다.
위의 아마존 채용 건을 보자. 여기서 데이터는 과거의 인간이 내린 판단들이다. 이 사람은 적합하고, 저 사람은 적합하지 않고... 여러 이유들을 복합적으로 고려하여 내려왔던 수많은 판단들을 단지 숫자로 바꾸어 데이터화한 것일 뿐이다. AI는 그러한 데이터셋으로부터 학습하여, 엄청나게 많은 양의 그것과 똑같은 판단들을 굉장히 빠른 속도로 내려줄 뿐인 것이다.
그런데 우리는 그러한 AI가 어떻게 작용하는지 아직도 알지 못한다. 그래서 AI를 '블랙박스'라고 부르는 것인데, 이 책에서는 그것을 문제로 지적한다. 이것이 왜 문제가 되는가? 어떤 문제가 발생하더라도 그 책임을 물을 대상이 안개 속에 엉켜 있어 보이지 않는다는 것이다.
또한 확장성과 피해도 지적이 되는데, 인공지능을 다뤄본 사람이라면 확장성이라는 단어를 들었을 때 대충 무슨 의미로 지적이 되었는지 알 것이다. 이러한 모델들이 신용 평가나 범죄 예방 관리와 같은 태스크에 이용될 경우 사회적 낙인 또는 기회로의 접근 가능성 제한으로 이어져 사다리 걷어차기의 방법으로 사용될 수 있다는 것도, 관심이 있는 사람이라면 무슨 이야기인지 알 것이다. 이 책에서는 이러한 문제점들을 총 10개의 장에 걸쳐 정돈하여 고발한다.
이 책을 읽기 전 나는 AI가 적어도 사법이나 채용과 같은 분야에서는 적용되지 않아야 한다고 생각했다. AI가 방대한 양의 판례를 분석할 수는 있어도, 인간은 그 분석된 결과의 함의를 읽고 주체적으로 판단하여 더욱 진보된 판례를 만들어나갈 수 있어야 한다는 식으로 생각해왔던 것인데, 저자가 주장하는 조건-투명성과 선한 의도-이 만족된다면 아주 보수적인 범위 내에서는 사용되어도 괜찮을 것 같다.
AI 모델의 사회적 사용에 관해 다시 생각해볼 수 있는 기회가 되어 좋았던 책이었다고 생각한다.
사실 제목만 듣고서는 무슨 판타지 같은 책인가...... 싶었는데 판타지보다 훨씬 무서운 현실에 대한 이야기네요. 초등학교 1학년부터 배우는 수학이지만, 그게 우리 생활에서 빼놓을 수 없는 요소가 되었다는 건 누구나 알고 있지만 이런 식으로 현대의 새로운 힘들을 움직이고 있다는 건 그리 상상하기 쉬운 일은 아닐 겁니다. 사람들에게 선택권이 주어지지만, 그 선택을 어떻게 유도해가는지 우리는 잘 알지 못합니다. 이 책이 우리에게 그런 시각을 일깨워주는 좋은 책이라 생각합니다.
올해 나름 이과의 해로 정했다. 무슨 말이고 하니, 매번 읽던 책들에서 벗어나 수학과 과학 계통의 책을 읽자고 정했다. 평소에 문학, 역사, 사회 계통은 많이 읽었으니, 더 늦기전에 새로운 분야에 발을 들여 놓자는 취지였다. 그리고 그 첫 시작이 이 책이었고, 읽은지 4개월이 지났음에도 쉽사리 글을 쓰지 못했다. 업무적으로 바쁘기도 했지만, 우선 덜컥 겁이 났다. 당최 무슨 소린지 알아듣기가 어려운 용어들이 튀어나오고, 간단한 수리적 이해도 필요하도보니 도저히 개소리라도 지껄이기가 두려웠다. 그럼에도 억지로 지껄이는 이유는 간단하다. 꼭 필요한, 알아야만 하는 이야기다.
세상은 데이터가 넘쳐자는 시대다. 데이터 마이닝, 빅데이터, 체인블록이니 시시각각 새로운 용어들이 튀어나온다. 물론, 그렇지 않은 시대는 없었지만. 그만큼 데이터가 권력이고, 데이터를 가공하고 운용하는 일은 새로운 노다지를 캐는 일이다. 그리고, 이를 이해하고 사용하기 위해서는 수학적인 무언가, 저자의 표현대로 수학모형이 필수적이다. 더더욱이 모든 것을 수치화하고, 계량화하여 평가하고 객관화해야 하는 지금의 세상에서 수학모형은 "신을 닮았다.(p.21)" 아니 신이다. "무언가를 명확히 정의하기보다는 강렬한 인상을 주기 위해 수학 공식들을 의도적으로 이용(p.115)" 이들에 의해 신이 되었다. 그리고 현재의 신은 그 작동법을 모르는 사람이나 약자에게 관대하지 않다. 이 모형은 "실수가 있을 수밖에 없는 인간의 선택에 기반을" 두었기에 "인간의 편견, 오해, 편향성을 코드화(p.20)" 했다. "무계획적인 데이터 수집과 허위상관에 의해 작동하고, 제도적 불공평에 의해 강화되며, 확증편향에 의해 오염(p.65)" 되었다. "그저 기술로 편견을 감(p.70)"추었을 뿐이다.
<대량 살상수학무기>는 사실 수학책이 아니다. 수학모형이라는, 아니면 대량살상수학 무기라는 새로운 신이 지배하는 시대에 관한 책이다. 정의에 관한 책이고, 공정성에 관한 책이다. "사회 전체가 공정성을 위해 효과성을 어느 정도 희생시킬 의지가 있느냐(p.233)"를 묻는 정치에 관한 책이다. 새로운 신은 공정하지 않다. 공정해 보일 뿐이다. 새로운 신은 "과거를 코드화할 뿐, 미래를 창조하지 않는다. 미래를 창조하려면 도덕적 상상력이 필요하다. 그런 능력은 오직 인간만이 가지고 있다. (p.475)" 데이터는 공정하거나 중립적일지 모른다. 하지만 데이터를 선택하는 기준, 새로운 신의 행동은 본질적으로 선택과 관련한다. 공정성과 효과성에 대한 미묘한 차이를 우리는 선택해야 한다. 새로운 신을 "날씨와 조수 같은 중립적인 불가항력으로 생각하면서 수학 모형에서 멀찍이 떨어져 있다면, 이는 우리의 책무를 유기하는 행위다. (p.505)" 그렇기에 알아야만 한다. 미래는 인간만이 선택할 수 있음을.
-------------------------------------------------------------------------------
빅데이터 경제의 원동력인 수학 모형 프로그램들은 실수가 있을 수밖에 없는 인간의 선택에 기반을 둔다. 분명 이런 선택 중 일부는 선한 의도를 가지고 있다. 그러나 대다수 모형은 인간의 편견, 오해, 편향성을 코드화했다. 그리고 이 코드들은 점점 더 우리 삶을 깊이 지배하는 시스템에 그대로 주입됐다. p.20
수학 모형은 여러 가지 면에서 신을 닮았다. 신처럼 불투명해서 이해하기 힘들다. 각 영역의 최고 사제들, 즉 수학자(p.20)와 컴퓨터 과학자들을 제외하고는 그 누구에게도 내부의 작동 방식을 보여주지 않는다. 그리고 신의 평결처럼, 잘못되거나 유해한 결정을 내릴지라도 반박하거나 수정해달라고 요구할 수 없다. 무엇보다 사회적 약자와 가난한 사람들을 차별하고 부자는 더욱더 부자로 만들어주는 경향이 있다. p.21
WMD는 가난한 사람들을 저평가하는 경향이 있다. ... 특권층은 주로 개별적인 대인면담을 통해 평가받고, 대부분의 평범한 사람들은 주로 기계가 일괄적으로 처리한다. p.32
금전적 이익이 진실에 대한 대체 혹은 대리 데이터 역할을 한다는 점이다. p.43
모형들은 수학에 깊이 뿌리내린 지극히 개인적인 의견이라고 할 수 있다. ... 우리는 개인이든 기업이든 누가 모형을 만들었는지, 그리고 개발자가 모형을 통해 성취하려는 목표가 무엇인지 알아야 한다. p.62
인종차별 모형은 무계획적인 데이터 수집과 허위상관에 의해 작동하고, 제도적 불공평에 의해 강화되며, 확증편향에 의해 오염된다. p.65
인간의 편견이 완벽히 제거되었을까? 그저 기술로 편견을 감춘 것은 아닐까? p.70
우리는 '우리가 누구인가'가 아니라 '우리가 무슨 행동을 하는가'에 따라 법의 심판을 받아야 한다. p.73
사람들은 자신이 모형에 포함된다거나 그 모형이 어떻게 사용되는지 알더라도 그 모형이 불투명하거나 비공개적인지 따져보아야 한다. p.77
WMD의 세 가지 요소 : 불투명성, 확장성, 피해 p.83
핵심은, WMD 모형으로 혜택을 얻는 사람들이 있다는 것이 아니다. 일부 예외를 제외하면 고통 받는 사람이 너무 많다는 것이 문제다. 알고리즘에 의해 작동되는 모형은 수백만 명의 면전에서 기회의 문을 당아버리고 이의를 제기할 가능성조차 허용하지 않는다. 더욱이 가끔은 지극히 하찮은 이유로 그렇게 한다. p.84
수학은 외부인들에게 진실을 가리는 장막에 불과했다. 수학의 목적은 오직 판매자의 단기이익을 최적화하는 데 있었다. p.108
사람들은 무언가를 명확히 정의하기보다는 강렬한 인상을 주기 위해 수학 공식들을 의도적으로 이용했다. p.115
대리 데이터로 구축된 모형에는 심각한 결함이 있다. 쉽게 말해 장난치기가 쉽다. 이는 대리 데이터가 대표하는 복잡한 현실 데이터 자체를 조작하기가 더(p.140) 쉽기 때문이다. p.141
WMD는 모든 사람이 정확히 똑같은 목표를 따르도록 강제한다. 이는 사람들을 무한경쟁에 내몰고 이전에는 겪지 않았을 다양한 부작용에 시달리게 한다. p.149
불공정한 조건에서 이길 수 있는 방법은 하나뿐이다. 수단과 방법을 가리지 않고 우위를 차지하고 다른 사람이 자(p.161)신보다 앞서지 못하게 하는 것이다. p.162
관건은 사회 전체가 공정성을 위해 효과성을 어느 정도 희생시킬 의지가 있느냐는 것이다. p.233
정의는 사회의 한 부분이 다른 부분에 가하는 것이 되어서는 절대 안 된다. p.236
시스템을 개선하거나 문제를 제기하기 위해서가 아니라 시스템의 작동 방식을 정당화하기 위해 데이터를 취선택하고 있다. p.238
현실에서 인성적성검사는 마치 불순물을 걸러내듯 부적합하다고 여겨지는 지원자들을 가려내는 여과장치로 이용된다. "검사의 주요 목표는 최고의 인재를 찾는(p.261)것이 아닙니다. 오히려 가능한 한 저렴한 비용으로 가능한 많은 사람을 걸러내는 일입니다."라고 롤런드 벨이 말했다. p.262
문제는 채용 과정에서 이렇듯 공평하게 심사할 수 있는 직종이 거의 없다는 점이다. p.272
기회로 이어지는 불평등한 경로는 전혀 새로운 것이 아니다. 단순히 새로운 옷으로 갈아입었을 뿐이다. 오늘날 사회에서 승자가 되려면 기계 문지기를 통과해야 한다. p.275
인간에게서 지원자들을 차별하는 법을 배운 컴퓨터는 인간들보다 한 술 더 떠서 기가 막힐 만큼 효율적으로 차별적인 심사를 했다. p.278
수학 모형들이 데이터를 철저히 조사해서 범죄, 빈곤, 교육 등 중요한 문제에 직면할 가능성이 높은 사람들을 걸러 낼 수 있음을 보여주는 사례는 주변에 널려 있다. 그런 정보를 어떻게 이용할지는 사회가 선택할 몫이다. 그들을 배제하고 처벌하기 위해 이용할 수도 있고, 그들에게 필요한 자원을 제공하면서 끌어안을 수도 있다. 요컨대 WMD를 치명적인 무기로 만드는 2가지 특징인 확장성과 효율성을 사(p.281)람들에게 도움을 주기 위해 이용할 수 있다. 그것은 온전히 우리가 어떤 목표를 선택하느냐에 달려 있다. p.282
모형 개발자들의 과제는, 거대한 빅데이터 세상에서 넘쳐나는 정보 가운데 창의성이나 사회적 기술과 관련 있는 정보를 정확히 찾아내는 것이다. p.284
데이터 세상은 끊임없이 확장되고, 우리 각자는 자신의 삶에 대해 더 많은 새로운 데이터를 지속적으로 만들어내고 있다. 이 모든 데이터는 우리의 미래 고용주들에게 고스란히 전달되어 우리를 꿰뚫어보는 통찰력을 제공할 것이다. 그런데 그런 통찰력은 검증 과정을 거칠까? 아니면 단순히 현상을 정당화하고 편경을 강화하기 위해 이용될까? p.289
WMD는 모형에 현실을 반영해 수정하기보다는 원하는 현실을 창조한다. p.315
'심슨의 역설' 하나의 추세를 나타내는 전체 데이터를 하위 그룹으로 나누면 각각의 하위 그룹에서는 전체와 정반대되는 추세가 나타나는 현상. p.322
만약 시험의 목적이 책임 지울 누군가를 찾는 것이라면, 그리고 노동자들을 겁주기 위한 것이라면, 지금까지 살펴보았듯 무의미한 점수를 생산하는 WMD는 가장 효율적인 도구다. p.331
"데이터는 많을수록 좋다."는 것이 오늘날 정보화 시대의 기본원칙이다. 그러나 일부 데이터는 공정성을 위해 함부로 이용할 수 없도록 보호되어야 한다. p.351
데이터 경제에서 인간은 외부자이고 구닥다리다. 반면 시스템은 자동으로 작동하도록 만들어진다. 그것이 바로 효율성이고, 그래서 수익 창출원이 된 것이다. p.360
오직 인간만이 시스템에 공정성을 주입할 수 있다. p.363
우리의 개인적 행동을 추적하는 모형조차도 우리와 다른 사람들을 비교함으로써 위험을 평가한다. p.396
감시는 보험의 본질을 변화시키고 있다. 전통적인 관점에서 볼 때, 보험은 지역사회의 불행한 소수의 필요에 반응하기 위해 다수에 의존하는 산업이다. ... 시장경제에서는 우리는 이런 도움을 보험사들에게 위탁하고, 보험사들은 그에 대한 보상으로 보험료의 일부를 취한다. ... 표적화의 세상에서 우리는 더 이상 평균치만을 부담할 수 없다. 예상되는 미래 비용 또한 부담해야 한다. 보험사들은 우리가 삶의 장애물을 수월하게 넘어가도록 도와주는 대신에, 장애물에 대비해 미(p.399)리 비용을 청구할 것이다. 이것은 보험의 근본적인 취지를 훼손하는 것이며, 장애물을 극복하기 힘든 사람들에게는 더욱 혹독한 일이 될 것이다. p.400
기계지능, 다른 말로 인공지능의 시대에 거의 모든 변수는 미스터리로 남게 된다. 시스템이 사람들을 이 집단에서 저 집단으로 끊임없이 이동시킴에 따라 부족은 매 시간 매 분 변화할 것이다. p.404
정치인들은 미심쩍은 약속들을 제공하는 공급자이면서도, 그런 약속을(터(p.449)무니없이 비싼 값에) 구매하는 소비자이기도 하다. p.450
데이터 처리 과정은 과거를 코드화할 뿐, 미래를 창조하지 않는다. 미래를 창조하려면 도덕적 상상력이 필요하다. 그런 능력은 오직 인간만이 가지고 있다. p.475
모형은 비단 데이터뿐만 아니라 우리가 어떤 데이터에 관심을 기울이고 어떤 데이터를 배제할지에 관한 선택을 토대로 만들어진다. 당연히 물류, 이익, 효율성과 관련된 선택도 있지만, 본질적으로 그런 선택은 도덕과 관련 있다. p.505
수학 모형을 날씨와 조수 같은 중립적인 불가항력으로 생각하면서 수학 모형에서 멀찍이 떨어져 있다면, 이는 우리의 책무를 유기하는 행위다. p.505