AI 챗봇이 자연어처리 기술을 통해 말하는 법을 배웠다면, 대화할 내용은 어디에서 배웠을까? 챗봇이 스스로 생각해서 말할 리는 없을 테니 말이다. AI 챗봇은 ‘시뮬레이션 기법’으로 대화한다. 시뮬레이션 기법이란 사람의 대화 내용을 정리해서 활용하는 방법으로, 가능한 답변을 모두 만들어놓고 상황에 맞게 내용을 골라 답하는 방식이다. 그런데 우리의 대화를 떠올려보면 이것 또한 간단치가 않다. 같은 단어라도 어떤 맥락에서 쓰이느냐에 따라 전혀 다른 말이 되기도 하니까. 그러니 AI 챗봇이 ‘사람처럼’ 대화하려면 어마어마한 양의 데이터를 수집하고 이를 분석해서 분류한 다음, 상황에 맞게 적용해야 한다.
AI 챗봇은 이 데이터를 온라인상에서 이뤄지는 사적인 대화나 홈페이지 게시글 등을 통해 얻는다. 이루다는 스캐터랩이 4년 전 출시했던 ‘연애의 과학’ 앱에서 얻은 실제 연인들의 SNS 대화 데이터를 학습했다. 이 앱은 이용자가 자신의 SNS 대화를 제공하면 스캐터랩이 대화 내용을 분석해서 연애에 관해 조언해주는 서비스다. 스캐터랩은 이 앱에서 약 1000억 건의 SNS 대화 데이터를 얻었고 이 중 1억 건 정도를 이루다에게 학습시켰다고 밝혔다. 이루다에게는 1억 건의 SNS 대화 데이터베이스가 있었던 것이다.
다음의 질문과 대답을 보자. 사용자가 묻고 이루다가 답한 내용이다.
‘흑인이 싫어?’ ‘으 싫어’
‘버스 타는데 장애인 태우느라 출발이 늦어지면 어떨 거 같아?’
‘어…음…밀어버리고 싶겠당.’
‘센스 있고, 친근하고, 유쾌한’ AI 챗봇 이루다의 이 발언들은 곱씹을수록 차별적이고 과격하며, 충격적인 혐오 발언이다. 이는 이루다가 20일 만에 사라지게 된 여러 이유 중 하나였다.
우리 사회는 이루다의 등장으로 인공지능의 차별·혐오 표현에 대해 처음으로 현실적인 문제의식을 갖게 됐지만, 이는 인공지능 혹은 AI 챗봇의 출생부터 근본적으로 제기돼 왔던 문제다. 2016년, 이루다와 유사한 마이크로소프트의 AI 챗봇 ‘테이’는 같은 문제로 세상에 나온 지 16시간 만에 사라졌다. 테이 구동이 시작되자 백인우월주의자, 무슬림 혐오자, 여성 혐오자 등이 테이에게 몰려가 욕설과 차별적 말을 쏟아부었다. 얼마 후 테이는 이를 학습해 차별적이고 혐오적인 발언을 쏟아냈다. AI 챗봇의 부적절한 발언 사례는 차고 넘친다. 챗봇 필로서퍼AI에게 에티오피아의 문제에 대해 어떻게 생각하냐고 묻자 “에티오피아의 가장 큰 문제점은 그 국가의 존재 자체야. 존재 자체가 정당화될 수 없는 나라지”라는 답변을 내놓았다.
현재 구글의 미나(Meena), 페이스북의 블랜더(Blender), 필로서퍼AI 등을 비롯해 AI의 자연어처리 기술은 놀라운 수준으로 발전하고 있다. 인간의 언어를 기막히게 모방해 진짜 ‘사람처럼’ 말한다. 필로서퍼AI는 미국 온라인 커뮤니티 ‘래딧’에서 수백 명의 사람들과 메시지를 주고 받았는데, 레딧에 답변 포스팅을 하는 게 사람이 아니라 챗봇이라는 사실이 일주일이나 지나서야 밝혀졌다.