이상수의 경제톡㉖ 미래를 바라보는 새로운 눈(3)

빅데이터는 어떻게 불평등 확산하고 민주주의 위협하는가?

미래는 아직 오지 않은 시간이다. 아직 오지 않은 시간이 어떤 식으로 다가올지 예측하고자 많은 학자들이 연구하고 있다. 늘 미래는 예측한 것과 다른 방향으로 가기 일쑤다. 그러한 미래에 대해 우리는 불확실이라는 수식어를 붙인다. 이러한 불확실을 다소나마 줄여보기 위한 방법으로 최근에는 빅데이터(<시민의소리> 제868호, 2018.02.12.기사 참조)를 활용하여 사회현상의 추이를 예측하려는 시도가 있다. 이러한 시도로 혜택을 얻는 사람들이 있기도 하지만 일부 예외를 제외하면 고통받는 사람이 너무 많다는 것이 문제이다. 알고리즘에 의해 작동되는 예측 모형은 수백만 명의 면전에서 기회의 문을 닫아버리고 이의를 제기할 가능성초자 허용하지 않는다. 우리가 흔히 '대량살상 화학무기' 나 '대량살상 핵무기' 등에 대해서는 듣지만 수학무기라는 것은 생소한데, 캐시 오닐(Cathy O'Neil)은 수학과 데이터, IT기술의 결합으로 탄생한 빅데이터 모형이 얼마나 인간의 삶에 큰 영향을 주고 위협할 수 있는지에 대해 제시하고자 『대량살상수학무기』 (2017)를 출간하였다. 여기서는 그가 제시한 책을 중심으로 빅데이터가 어떻게 불평등을 조장하는가에 대하여 소개한다.<필자 주>

대량살상 수학무기(WMD)

수학자이자 퀀트(Quant : quantitative와 analyst의 합성어로 수학·통계에 기반해 투자모델을 만들거나 금융시장 변화를 예측하는 사람)이며 데이터 과학자인 캐시오닐은 빅데이터와 인공지능이 가진 파괴적인 힘을 수년간 목격했다고 한다. 이 책은 저자의 삶의 기록이자 내부고발이며 전문가로서 제안이다. 수학, 데이터, IT기술의 결합으로 만들어진 알고리즘들은 지금 이 순간에도 곳곳에서 '보이지 않는 손'이 되어 무소불위의 권력을 휘두르고 있다.

특히 인간의 편견과 무지, 오만을 코드화한 프로그램들은 차별을 정당화하고, 민주주의를 위협한다. 그녀는 이런 프로그램들이 '대량살상무기(Weapons of Mass Destruction :WMD)'만큼 위험하다고 생각해서 대량살상 수학무기(Weapons of Math Destruction :WMD)라고 이름을 붙였다.

2016년 세계 곳곳에서 파괴적인 WMD의 다양한 폐해를 목격했는데, 중국에서는 사회적인 신용도를 평가하는 척도로 사생활이 고스란히 담긴 소셜네트워크 정보를 이용하는 알고리즘이 도입되었다. 많은 국가에서 선거 결과에 영향을 주기 위하여 만들어진 '가짜 뉴스'가 정교한 WMD의 도움을 받아 퍼져나갔다. 범죄를 예방한다는 미명하에 성격과 감정까지 포착하는 안면인식 소프트웨어 사용이 늘고 있다.

시민으로서 소비자로서 우리에 대한 수없이 많은 정보가 어떤 제약도 없이 수집되고 있으며, 수상쩍은 알고리즘은 개성을 싫어하기 때문에 일관된 프로그램에 의하여 수집된 정보를 이용해 우리를 점수화하여 평가 내리고 있다. 결국 쓰레기를 넣으면 쓰레기가 나오듯이 데이터가 어떤 것이냐에 따라 그 결과도 마찬가지로 나타날 수 있다는 것이다.

알고리즘의 역습과 데이터 포로가 된 인간

빅데이터의 이점은 이루 말할 수 없이 많다. 그렇지만 그 자체가 구조적인 모순을 갖고 있기 때문에 불평등을 확산하고 민주주의를 위협하는 도구가 될 수 있다는 주장이 최근 제기되고 있다. 한마디로 빅데이터는 인류가 만들어낸 대량살상 수학무기가 될 수 있다는 것이다. 따라서 여기서는 빅데이터가 내포하고 있는 문제점을 지적하고 있다.

첫 번째, 빅데이터는 불투명성을 갖고 있다. 물론 빅데이터를 기반으로 수많은 의사결정을 내리고 있는 관리자들은 빅데이터가 보이지 않는 사실을 보여주는 가장 명확한 방법이라고 주장할 수도 있다. 우리들은 기계가 판단을 도와주기에 빅데이터 시스템을 도입하여 결과를 산출해 내면 매우 만족스럽게 생각하고, 그 결과에 대하여 매우 높은 신뢰도를 나타낸다. 그렇지만 결과를 산출하는 과정에서 인간이 만든 알고리즘이 있고, 그것이 잘못 되었다고는 생각하지 않는다. 애초에 잘못된 결론에 끼워 맞추기 위한 알고리즘이었고, 알고리즘은 외부에서 판별할 수 없도록 코드화 되었고, 추진하는 주체가 평가기준을 제시하지도 않았다면 그 알고리즘을 정확하게 알고 있는 사람은 오로지 개발자뿐이라는 사실이다. 그런 과정을 모르고 대부분의 사람들은 기계에 의하여 판결되었기에 무조건 따르는 경향이 있다는 점이다.

두 번째는 빅데이터는 확장성을 갖고 있다. 빅데이터는 그 무엇보다 편리함을 동반하기 때문이다. 예를 들어 기업들이 인재 채용에서 인∙적성검사를 할 때 빅데이터를 사용하고 있다. 기업들이 시행하는 인∙적성검사는 현실과 동떨어져 있고 제대로 된 인재를 선별할 수 있는 능력도 없다. 그럼에도 많은 기업들이 인∙적성검사를 계속해서 시행하는 이유는 효율과 수익 때문이다. 이런 결과로 이력서의 72퍼센트는 기계로 걸러져서 인간의 눈으로 심사받을 기회조차 주어지지 않는다.

세 번째, 빅데이터는 피해의 악순환을 부른다. 물론 빅데이터가 모든 경우에 사람들에게 피해를 주지는 않는다. 그렇지만 빅데이터는 천사도 악마도 될 수 있다. 여기서 논하고자 하는 것은 빅데이터는 기회를 얻는 사람보다는 이로 인하여 기회를 박탈당하고 고통 받는 선량한 피해자들이 더 많다는 점이다. 알고리즘은 정서적, 직관적으로 생각하지 못하고 프로그래머가 개발한 알고리즘에 따라 정해진 기준으로 사람들을 수치화하고 분류하기 때문이다. 여기에서 직관적인 판단이나 예외는 존재하지 않는다. 그렇게 해서 기회의 문은 여지없이 닫혀버리고, 그 누구도 이의를 제기할 수 없는 시스템이 만들어지는 것이다.

수학적인 예측 모형의 세 가지

야구는 수학적인 예측 모형에 관한 이상적인 소재이다. 야구는 지구상에 등장한 이래 수많은 데이터 광들을 매혹시켰다. 야구팬들은 야구 카드 뒷면에 통계수치를 달달 외우고 선수들의 홈런 타구 각도, 비거리, 방향 등을 분석한다. 이러한 야구모형은 엄격성이 매우 높고 투명하고 지속적으로 추가되며 가정과 결론이 모든 사람에게 명백히 공개된다.

식단에 관한 모형도 있을 수 있다. 어느 개인이 식단을 만드는데 경제적이든, 음식과 관련된 것이든, 수학적 모형의 근간이 된 가정들에 대해 명확히 설명해 줄 수 있다. 내가 열심히 설득한다면 식단 모형의 편리함, 경제성, 건강, 좋은 식습관 등에 대한 공통된 목표에 마지못해서라도 동의할 것이다. 이는 업데이트와 조정과정을 거치면서 통계학자들이 말하는 동적모형(dynamic model)이 된다.

그렇지만, 세 번째 사례인 '재범(再犯) 위험성모형'은 이야기가 다르다. 먼저 사람들은 자신이 모형에 포함된다거나 그 모형이 어떻게 사용되는지 알더라도 그 모형이 불투명하거나 비공개적인지 따져보아야 한다. 의무적으로 LSI-R(Level of Service Inventory-Revised) 설문지를 작성해야 하는 범죄자에게는 많은 정보가 감추어질 수 있고 또한 자신의 위험성 점수를 알지 못한다. 또한 재범위험성모형은 해당범죄자가 출소 후 재범을 저지를지 어떻게 판단할 수 있을가이다. 재범위험성모형은 해당 범죄자가 사는 지역, 경제력, 전과여부, 주위친구들 또는 가족들의 전과여부 등의 범죄자 자체의 데이터가 아닌 대리 데이터(proxy data)를 토대로 만들어진다. 하지만, 주위 친구들이 전과가 있다고 해서 해당 범죄자가 재범을 저지를 가능성이 높을 수 있을까? 또는 사는 지역이 빈민가라고 해서 재범을 저지를 가능성이 높다고 말할 수 있을까? 교도소의 생활이 범죄자에게 미치는 재범 위험성에 대해서는 왜 고려하지 않을까? 흑인, 저소득층 등 사회적으로 소외된 계층의 사람들의 형량이 백인이나 중산층 이상의 계층보다 더욱 높다는 연구결과는 이러한 현상을 방증한다.

위험한 기업의 알고리즘

일반인인 우리도 모형에 의해 적극적인 소비자, 백수, 환자, 대출신청자 등으로 분류되지만 정작 누구도 자신이 어떤 분류에 속하는지 알지 못한다. 심지어 자신의 손으로 신청서를 작성하면서도 자신이 모형화의 대상이 됐다는 사실조차 알지 못한다.

많은 기업이 모형의 산출물이나 심지어 모형이 존재한다는 사실 자체를 숨기기 위해 갖은 노력을 기울인다. 이런 행동을 정상화하기 위해 기업들이 사용한 보편적인 논리는 이러한 알고리즘이 비즈니스에 절대적으로 중요한 '영업비밀'이라고 주장하는 것이다.

구글, 아마존, 페이스북 등과 같은 거대 인터넷 기업의 경우, 한 치의 오차도 없이 정확히 맞춤화된 알고리즘을 갖고 있고, 그 자체로 수백억 달러의 가치를 가진다고 주장한다.

디지털 골상학

골상학은 사람의 두개골 생김새로 그 사람의 성격과 가치관을 평가하는 학문이다. 물론 이는 바로 과학적 근거가 전혀 없는 학문으로 비판받고 사장되었지만, 오늘날 빅데이터와 알고리즘이 탄생시킨 WMD는 이를 최신 기술로 포장하여, 실생활에 적용하고 있다. 특히 개인 신용평가 점수를 기준으로 급여, 직업, 주거형태, 총부채 등을 고려하여 점수를 매긴 'e점수'가 대표적인 예이다. 가령 중고차 판매 홈페이지에서 신형 재규어를 검색하는 사람이 중고토러스를 클릭하는 사람보다 더 부자일 가능성이 높다. 혹은 부촌인 샌프란시스코 테라스에서 접속하는 사람이 빈민가에서 접속하는 사람보다 더 부자일 가능성이 높다. 이러한 기준으로 은행에서는 잠재고객을 분류한다,

결국 기업이 사람을 고용할 때, 그 사람 자체의 능력을 보는 것이 아니라 그 사람이 사는 도시, 신용도, 주위사람, 가족 등의 대리 데이터를 가지고 평가를 한다. 해당 지원자가 얼마나 부채를 가지고 있는지, 얼마나 성실하게 부채를, 또는 세금을 납부했는지 여부에 따라 'e점수'가 달리진다. 결국 기업이 'e점수'를 통해 그 사람의 성실도를 평가한다는 것은 'e점수'가 높을수록 그 사람의 성실도가 높은 것이라는 가정을 전제하고 있다는 것을 보여준다. 하지만 정말로 이러한 'e점수'가 그 사람의 성실도를 반영한다고 할 수 있을까? 만약 중하위 계층의 사람이 경제적 여력 때문에 학자금대출을 받은 이력이 있으며, 열심히 성실하게 부채를 갚아 나아갔지만, 여력이 되지 않아 연체를 하게 된다면, 이 때문에 신용평가점수가 떨어지고 일자리를 구할 수 없게 된다면, 결국 신용평가점수가 더욱 떨어지고 일자리를 더욱 구할 수 없게 될 것이다. 이는 파괴적인 피드백 루프를 재생산하게 되는 것이다.

'당신은' VS '당신 같은 사람은'

결국 현재의 WMD는 효율성이라는 미명하에 정당성을 훼손시키고 있다. 판결의 신속함을 위해 혹은 치안의 효율성을 위해, 무분별하게 데이터를 수집했으며, 그렇게 수집된 데이터가 정당한 정보인지 이 데이터가 어떠한 파괴적인 영향을 가져올지 고려하지 않는다. 또한 인간을 직접적으로 판단할 수 있는 데이터를 사용하지 않고, 그 사람의 주변을 알 수 있는 대리 데이터를 무분별하게 사용한다. 결국 WMD는 "당신은 어떤 사람이다"가 아닌 "당신 같은 사람은 어떤 사람일 것이다"라고 판단을 하기 때문에, 많은 저소득층이나 사회적 약자들이 피해를 보게 되는 부작용을 초래한다. 더욱 심각한 사실은, 이 모든 것이 톱니바퀴처럼 맞물리면서 작동한다는 것이다.

빈민촌에서 열심히 살아가던 사람이 자신의 출신지와 주위 사람들의 전과로 인해 교육에서 불이익을 받고 더 나아가 대학 입학에서까지 차별을 받게 된다. 뿐만 아니라 예비 범죄자 취급을 받으며, 직장을 구할 때 자기 자신의 능력이 아닌 수많은 대리 데이터를 통해 불합리한 평가를 받게 된다. '당신 같은 사람은' 이라는 말을 들으면서 말이다.

모든 길은 신용점수로 이어진다

취업도, 대출도, 사랑도 결정하는 것은 신용평가 점수이다. 예를 들어 은행의 대출심사모형이 당신에 대해 채무불이행 위험이 높다고 판단하면 어떻게 될까? 이것이 지독한 오해에 불과할지라도 온 세상이 당신에게 '예비채무 불이행자'라는 똑같은 꼬리표를 붙일 것이다. 이 꼬리표는 당신이 아파트나 일자리를 구할 때는 물론이고 자동차를 렌트할 때조차 기준이 되어 당신의 삶 전체에 영향을 미칠 것이다. 이것이 WMD의 '확장성'이다. 확장성에 관한 한 재범위험성모형의 잠재력은 지속적으로 커지고 있다. 이미 미국 대다수의 주에서 이와 비슷한 모형이 사용되고 있다.

물론 WMD가 모든 사람에게 파괴적인 영향을 미치는 것은 아니다. WMD 모형 덕분에 어떤 학생은 하버드 대학교에 진학하고, 누구는 저금이 대출을 받거나 좋은 직장을 구하고, 일부 운이 좋은 범죄자는 가벼운 양형을 받는 것이 사실이다.

그렇지만 핵심은 WMD모형으로 혜택을 받는 사람들이 있지만 일부 예외를 제외하면 이로 인해 고통받는 사람이 너무 많다는 것이 문제이다. 알고리즘에 의해 작동되는 모형은 수백만 명이 면전에서 기회의 문을 닫아버리기에 이의를 제기할 가능서조차 허용되지 않는다. 그러니까 WMD 모형이 불공정하다고 할 수밖에 없는 것이다.

마지막으로 알고리즘은 하나의 분야에서 전혀 다른 분야로 이동할 수 있다. 실제로 그런 일은 빈번히 있어왔다. 가령, 전염병에 관한 역학연구는 영화 흥행을 예측하는 데 활용된다. 스팸 필터링 기업을 응용해 에이즈 바이러스를 식별할 수도 있다.

WMD도 마찬가지이다. 교도소에서 수학모형들이 본연의 목적을 성공적으로 달성하면, 그 모형들은 다양한 영역으로 응용되고 확산되면서 우리에게 부수적 피해를 안겨줄 수 있다.

알고리즘의 공정성과 효율성

그동안 알고리즘은 비교적 공정하고 객관적이라고 생각했지만 개개인에게 부당한 대우를 할 수 있다는 사실을 깨닫게 되었다. 사실 생각해보면 빅데이터가 등장하기 전부터 우리는 WMD라는 무기들을 '차별'과 '편견'이라는 이름으로 머릿속에 가지고 있었다. 각자 자신만의 WMD를 가지고 주위 사람들을 평가하였고, 더 나아가 수많은 차별과 편견으로 사회적 약자들을 배척하고 억압하였다. 이러한 주관적 편견과 차별을 타파하기 위해서 만든 알고리즘이 과거 우리의 편견과 차별에서 벗어나지 못하고 있는 것을 알 수 있다. 예를 들어 사람의 성실성이나 성품, 공정성, 긍정성을 판단하려할 때, 이에 대한 모형의 구현이 비용이 많이 들고 어렵기 때문에 직접적인 데이터가 아닌 대리데이터를 사용하기 때문이다. 이때 등장하는 딜레마가 바로 '효율성'과 '공정성'이다. 효율성을 높이기 위해서는 복잡하고 추상적인 사회현상을 단순하고 구체적으로 바꿔야 하고 수집하기 어려운 직접 데이터보다 대리데이터를 이용하게 된다. 하지만 그렇게 되면 앞서 말한 수많은 WMD의 부작용에 많은 사람들이 직간접적인 피해를 볼 것이다.

시장경제에 있어서 효율성은 빠질 수 없는 가치인 것처럼 빅데이터 분야에서도 효율성은 매우 중요한 가치이다. 때문에 공정성을 위해서 효율성을 완전히 포기하라고 말할 수도 없다. 하지만 과거의 시장실패의 사례처럼 WMD의 효율성이 심각한 부작용을 일으킬 때, 정부가 나서서 적극적으로 이에 개입하여 이러한 부작용을 막아야한다고 생각한다. 데이터 감사제도가 그 예가 될 수 있으며, WMD에 들어가는 모든 데이터 유형을 감사한다면 WMD의 고질적인 문제인 불투명성을 해소시킬 수 있을 것이다.

<참고자료>

이동우 지음(2018). 『미래를 읽는 기술』. 서울 : 비즈니스북스.

캐시 오닐 지음, 김정혜 옮김 (2017). 『대량살상 수학무기』. 서울 : 흐름출판.

https://brunch.co.kr/@pedkang01/647