챗GPT와 LLaMa 등 생성형 AI 열풍을 불러일으키면서 세계적인 주목을 끌고 있는 거대언어모델(LLM, '대규모언어모델'로도 불림)의 능력과 한계에 관한 논문이 쏟아지고 있다. 아주 제한적인 규모의 언어와 제한적인 패턴에 기반해 작동하던 이전 모델과 달리 LLM은 막대한 양의 자연어를 이해하고 생성할 수 있도록 훈련된 AI 모델로 각광을 받고 있다.
심지어 LLM이 많은 분야에서 인간의 능력을 앞서고 인간의 노동을 대체하리라는 전망도 쏟아지고 있다. 여기에 덧붙여, 경제와 관련해 가장 광범위하고 신속하며 정확한 정보 수집과 처리, 그리고 분석과 예측 기능을 보유해야 하는 기관 중 하나인 중앙은행 업무에 과연 조만간 LLM이 인간을 대체할 수 있을 것인가?
이런 질문과 관련해 국제결제은행(BIS)이 "아직은 부족한 점이 많다"는 결론을 제시한 간이 보고서를 발간했다. 이 보고서(스위스데이터사이언스센터의 페르난도-페레즈 크루즈와 BIS의 신현송 공동 저술) 주요 내용을 소개하고 링크 전문을 공유한다. 보고서 자체는 비교적 짧지만, 생성형 AI 관련 참고자료 목록이 공개돼 있어서 관심 있는 사람에게 큰 도움이 될 것이다.
LLM은 컴퓨터 코딩, 이미지 생성, 복잡한 수학 문제 풀기 등 여러 분야에서 인상적인 능력을 보이며 전 세계에서 대중의 상상력을 자극하고 있다. 그러나, 이런 LLM이 과연 자신이 생성해내는 진술에 담긴 내용을 '알고' '이해'하고 있는지, 아니면 그저 광범위한 훈련 과정에서 인터넷에서 접한 텍스트를 앵무새처럼 따라하고 있는지에 대한 의문이 남는다.
이런 의문에 답하기 위한 노력 중 하나로 셰릴의 생일 퍼즐을 통해 GPT-4를 시험해 보았다. 광범위한 공개 데이터를 이미 학습했기에 GPT-4도 아마 내용을 잘 알고 있을 것이다. 시험 결과 GPT-4는 퍼즐의 원래 문구가 제시되었을 때는 완벽하게 퍼즐을 풀었지만, 등장 인물의 이름이나 특정 날짜와 같은 사소한 세부 사항을 변경했을 때는 지속적으로 실패했다.
물론 이 보고서가 공개되면 GPT-4도 이를 반영해 재빨리 수정하겠지만, 그 전에는 실패를 계속할 수밖에 없을 것이다.
중앙은행의 업무는 정형⸱비정형 데이터를 막대한 규모로 이용하고 정교한 분석을 필요로 한다는 점을 고려하면 머신러닝과 AI을 확용하기에 매우 적합하다. AI가 지금처럼 널리 알려지기 전부터 중앙은행들은 이미 통계, 거시경제 분석, 규제/감독 분야에서 머신러닝 방법을 채택해 왔다. 따라서 이 보고서가 AI의 발전 속도와 가능성을 폄하하려는 것은 아니다.
그럼에도 불구하고 이번 연구 결과는 신중하고 엄격한 경제적 추론이 필요한 상황에서 LLM을 실제로 사용할 때 주의를 기울여야 하는 이유를 다시 한번 확인했다. 즉, LLM은 인터넷에 이미 공개된 퍼즐의 원래 문구를 제시할 때는 완벽하게 작동하지만, 세부 사항을 변경하면 성능이 저하되며, 이는 기본 논리에 대한 진정한 이해가 부족함을 시사한다.
따라서, 이번 연구 결과는 중앙은행이 데이터 관리, 거시적 분석, 규제/감독에 머신러닝을 적용하는 데 있어 상당한 진전을 이룬 것과는 별개로, 경제 분석에서 엄격한 추론이 요구되는 상황에서 LLM을 사용할 때는 주의를 기울여야 한다는 점을 시사한다.
▶ 간이 보고서 전문 보기: Testing the cognitive limits of large language models