최근 네이버 파파고나 구글 번역을 사용해 보면 결과물에 깜짝 놀라곤 한다. 외국어 번역의 결과물이 매우 자연스럽다. CNN이나 BBC 같은 외국 언론 기사를 한글 지문으로 번역해서 읽어 봐도 거의 어색하지 않다. 예전에는 주어·동사·접속사가 뒤죽박죽 섞여서 새로운 언어를 창조한다거나 이해가 되지 않는 문장으로 번역했는데 이제는 많이 개선되었다. 최근 몇 년 동안 인공지능(AI)을 활용한 통·번역 기술이 비약적으로 발전했기 때문이다.
통상 사람이 아닌 컴퓨터가 하는 번역을 ‘기계번역’이라고 한다. 기계번역의 역사는 60년 전으로 거슬러 올라간다. 1950년대 냉전 초기, 미국은 러시아어를 빠르게 해석하기 위해 기계번역을 처음 시도했다. 당시에 번역이란 마치 제2차 세계 대전의 승패를 좌우했던 독일군 암호 해독과 같은 일이었다. 다만 완벽한 번역이라고 하기엔 초라한 수준이었는데, 번역기라고 해봐야 러시아-영어사전을 그냥 컴퓨터에 집어넣은 수준이었고, 단어 하나하나를 해석하는 정도라 전체 문장을 번역하기란 어려웠다.
이런 기계번역의 수준을 높인 것은 컴퓨터 하드웨어 기업인 ‘아이비엠(IBM)’이다. 1980년대 IBM의 연구진은 통계를 활용하면 번역 품질을 획기적으로 높일 수 있다는 사실을 깨달았다. 인간이 번역한 수많은 결과물을 분석해 데이터화하면 통계적으로 어떤 단어 다음에 어떤 단어가 나오는지를 산출할 수 있던 것이다. 이러한 기법을 ‘통계기반 기계번역(SMT, Statiscal Machine Translation)’이라고 부른다.
다만 통계가 적중할 확률을 높이려면 데이터를 많이 확보하는 게 관건이었다. 2006년, 인터넷 전체를 데이터베이스화 할 수 있는 구글이 데이터 확보에 앞서가면서 제대로 된 번역기를 만들기 시작했다. 이로써 구글 번역기가 등장했다. 물론 당시의 결과물은 결코 만족할 만한 정도가 아니었다. 문장 구석구석 어색한 흔적이 보여 인간의 언어 표현만큼 자연스럽지가 않았다. 누가 봐도 ‘기계번역’임을 쉽게 느낄 수 있는 수준이었다.