여러분이 시험공부를 할 때 공부할 교과서, 8시간은 거뜬히 버틸 수 있는 체력까지 준비되었다고 가정해 봅시다. 그러나 공부하는 방법을 몰라서 무작정 교과서를 한 장씩 뜯어 먹었다면 어떨까요? 전혀 머리에 남는 게 없고 시험은 망치게 될 것입니다. 여기서 교과서는 데이터, 체력은 컴퓨터 성능이라고 본다면, 공부하는 방법은 인공지능 알고리즘에 해당합니다.
--- p.14~15
‘딥러닝(Deep Learning)’은 머신러닝의 한 종류입니다. 그러나 더 복잡한 문제의 규칙을 잘 찾아낼 수 있도록 인간의 뇌를 본떠 만든 ‘인공신경망(Artificial Neural Network)’을 이용합니다. 딥러닝은 기존 머신러닝이 처리하기 어려웠던 비정형 데이터를 잘 처리하고 학습할 수 있습니다. ChatGPT도 이 딥러닝 방식으로 학습되었습니다. 비정형 데이터가 무엇이냐고요? 데이터는 크게 정형 데이터와 비정형 데이터로 나눌 수 있습니다. 정형 데이터는 구조화된 데이터로, 학생들의 나이, 성적, 키, 객관식 문제의 정답 등이 해당합니다. 비정형 데이터는 구조화되지 않은 데이터로, 오늘의 급식 메뉴, 자기 소개서 내용, 서술형 문제의 정답 등이 해당합니다.
--- p.19~20
여러분은 혹시 반려견을 키우고 있나요? 강아지에게 ‘앉아’를 가르치고 싶으면 어떻게 하세요? ‘앉아’라고 말했을 때 강아지가 앉는다면 간식을 주고, 앉지 않는다면 간식을 주지 않으면서 가르칩니다. 강화 학습(Reinforcement Learning)도 같은 방식으로 인공지능을 학습시킵니다. 이세돌을 이긴 알파고가 강아지와 같은 방식으로 학습했다는 사실이 신기하지 않나요?
--- p.42
인공지능이 얼마나 잘 학습했는지 평가하려면 어떻게 해야 할까요? 바로 시험을 보면 됩니다. 여러분이 공부한 후에 시험을 보는 것과 같은 이치입니다. 그런데 문제집에서 봤던 문제와 똑같은 문제가 시험에 출제된다면, 이걸 시험이라고 볼 수 있을까요? 진짜 이해하고 그 문제를 풀이한 것이 아니라, 문제의 답을 외우기만 하면 되니 이런 문제를 맞히는 건 의미가 없습니다. 그래서 인공지능을 학습하기 위해 모은 데이터는 일반적으로 80%는 학습용, 나머지 20%는 시험용으로 나눕니다.
--- p.48
GPT-1은 2018년, GPT-2는 2019년, GPT-3는 2020년, ChatGP T와 함께 공개된 GP T-3.5는 2022년, GP T-4는 2023년에 공개되었습니다. 버전이 높아질수록 학습에 사용한 데이터 양도, 모델 매개변수의 개수도 크게 늘었는데요. 매개변수가 많을수록 더 크고 복잡한 모델이라고 생각하면 됩니다. GPT-1은 1억 개, GPT-2는 15억 개, GPT-3는 무려 1,750억 개의 매개변수를 갖고 있습니다. 일대일 대응이 되지는 않겠지만, 인간 뇌의 뉴런이 약 1,000억 개라고 하니 이와 맞먹는 수치입니다.
--- p.112~113
ChatGPT는 다음과 같은 과정으로 학습되었습니다. 우선 GPT를 채팅에 최적화시키기 위해 미세조정을 합니다. 랜덤하게 채팅 시작 문구를 선택하면, 사람이 직접 적절한 답변 문장을 적습니다. 이를 정답으로 보고 지도학습 방식으로 미세조정을 진행합니다. 다음으로 강화 학습에 사용할 수 있는 보상 모델을 학습합니다. 하나의 채팅 시작 문구를 주면, 여러 모델로부터 각기 다른 답변 문장을 받아냅니다. 이후 사람이 직접 여러 답변 중 가장 적절한 순서로 순위를 매깁니다. 이를 바탕으로 보상 모델을 학습해 특정 시작 문구에 가장 적절한 답변이 무엇인지, 가장 부적절한 답변이 무엇인지 가르칩니다. 마지막으로 임의로 채팅 시작 문구를 선택하면, 모델이 답변 문장을 생성하고, 보상 모델이 이 문장이 얼마나 적절한지 판단한 다음, 이에 따른 보상을 제공합니다. 이러한 강화 학습을 통해 ChatGPT는 점점 더 적절한 문장을 생성하게 됩니다.
--- p.116
여러분은 인공지능이 사람보다 공정한 판단을 내릴 수 있다고 생각하나요? 사람은 이런저런 편견에 휘둘리지만, 인공지능은 공정한 법칙에 따라 판단할 것이라고 생각하기 쉽습니다. 물론 그런 인공지능도 있을 수 있습니다. 아주 정교한 규칙 기반 모델은 규칙이 공정하다면 항상 공정한 판단을 내리게 될 것입니다. 하지만 앞서 살펴봤듯이 규칙 기반 모델은 실제로 활용하기 힘듭니다. 이 세상의 문제는 너무 복잡한데 그 복잡한 문제를 일일이 규칙으로 만드는 건 사실상 불가능하니까요. 그래서 등장한 딥러닝에는 규칙이 없습니다. 그리고 딥러닝 모델이 아는 세상은 인간이 제공하는 데이터가 전부입니다. 다양한 편견으로 얼룩진 그 데이터가 전부라는 의미입니다. 그래서 기본적으로 인공지능은 인간의 편견을 그대로 답습하게 됩니다.
--- p.120~121
인공지능은 인간을 전부 대체할 수 있을까요? 같은 직업을 가진 사람들끼리도 각각 더 잘할 수 있는 영역과 부족한 영역이 있습니다. 같은 축구 선수라도 공격수는 골키퍼보다 골 결정력이 좋고, 골키퍼는 공격수보다 펀칭을 잘하는 것처럼요. 인공지능과 인간도 그런 관계라고 생각합니다. 인공지능이 더 빠르게 잘할 수 있는 부분이 있는가 하면, 인간이 인공지능보다 뛰어난 부분도 있습니다.
--- p.147