“AI 기술로 온라인 여론조사는 사실상 무력화”

FT, “캡챠 등 봇 탐지 방어벽 6000가지중 99.8% 통과…가짜여론 조성한 ‘거짓 합의’ 위험 커져”

  • 카카오공유 
  • 메타공유 
  • X공유 
  • 네이버밴드 공유 
  • 프린트
  • 메일
  • 스크랩
  • 목록
  • 글자크기
  • 크게
  • 작게
생성형 인공지능(AI) 기술의 발달로 인해, 민주주의와 시장경제의 눈과 귀 역할을 해온 온라인 여론조사의 신뢰성이 위협받고 있다. 캡차(CAPTCHA), 함정 질문 등 과거의 봇 탐지 기술은, 고도화된 AI에 의해 99.8%가 무력화됐다고 영국 경제지 파이낸셜타임스(FT)가 최근 보도했다. 

이에따라, 악의적인 행위자가 대규모로 가짜 여론을 조성해, ‘거짓 합의’를 만들어낼 위험이 커지고 있다. 이를 막기 위해서는, 비용이 많이 드는 과거 오프라인의 우편 검증 방식으로 회귀해야 한다는 전문가들의 지적도 나오고 있다.

대안 기술로는, 실제 데이터를 바탕으로 AI가 인간을 연기하는 ‘합성 표본(Synthetic Samples)’이 제시되고 있다. 이는 비용과 시간을 절약해주며, 무엇이 좋은지에 대한 정책의 효과적 ‘방향성’을 예측하는 데는 유용하다고 FT는 전했다. 하지만, 정밀한 의사결정 데이터로 사용하는 것는 위험하다고 지적됐다.

시장조사와 여론조사는, 온라인에서 사람들에게 쉽고 저렴하게 접근해 인터뷰하는 능력에 점점 더 의존하고 있다. FT는, △그 ‘사람들’이 실제로는 사람이 아닐 수도 있는 상황에서는 어떻게 될까, 그리고 △사람 대신 AI를 설문 조사하는 것이 인간의 신념과 행동에 대해 유용한 정보를 제공하는 경우가 실제로 존재할까를 질문했다.

FT에 따르면, 봇을 걸러내기 위해 업계가 최근 몇 년간 구축해 온 방어벽을 AI가 우회하는 것이 이제는 쉬운 일이 됐다. 자율 거대언어모델(LLM)의 발전 때문이다. 그러나 이는 기업, 정치 캠페인, 그리고 대중이 여론과 선호도를 추적하기 위해 사용하는 ‘우물’ 자체를 오염시킬 위험이 있다고 FT는 우려했다. 인터넷이 만든 문제를 AI가 훨씬 더 악화시키고 있다는 것이다.

인터넷 이전 시대의 설문은 보통, 무작위 주소로 우편물을 보내 응답자를 모집한 뒤 전화로 조사를 수행했다. 인터넷은 이 모든 것을 바꾸어 놓았다. 기업들은 급성장하는 온라인 인구에서 훨씬 낮은 비용으로 표본을 추출하고, 노동력이 덜 드는 웹 설문지를 작성하게 했다.

하지만, 편의성 증가와 비용 절감에는 그에 따른 대가가 따른다고 FT는 설명했다. 현실 세계에서 공들여 표본을 모집하고 관리할 때는 상대방이 누구인지 알 수 있다. 반면, 인터넷에서는 다르다. 미국 만화가 피터 스타이너가 1993년 뉴요커 만화에서 썼듯이 “인터넷에서는 당신이 개라는 사실을 아무도 모른다”는 것.

온라인 설문 응답자가 자신이 주장하는 사람이 아니거나, 질문에 거짓 답변하는 문제는 새로운게 아니다. 보상을 얻기 위해 최소한의 노력이나 진정성 없이 설문을 빠르게 해치우는 ‘가짜 응답자’에 대해, 자발적 참여형 온라인 표본이 특히 취약하다는 사실은 입증됐다. 2022년 미국의 여론조사 전문 기관 퓨 리서치의 실험 결과다. 인구통계학적 가중치를 적용했음에도 불구하고, 표본 내 청년층의 12%가 자신이 ‘핵잠수함 운전면허’를 갖고 있다고 답했다.

이에 대응해, 조사 업체들은 응답자가 △너무 빨리 답변하거나, △지시 사항을 제대로 읽지 않거나, △모든 문항에 같은 옵션을 선택하거나, △명백한 함정 질문에 속는지 등을 확인하는 일련의 방어벽을 세웠다. 봇과 LLM의 시대에 이러한 군비 경쟁은 계속 고조돼 왔다. 이제 설문조사는 캡차퍼즐과 ‘역(逆) 쉬볼레스(reverse shibboleths. LLM에게는 쉽지만 인간에게는 어렵거나 불가능한 함정 질문) 등으로 스크리닝 되고 있다.

최근까지는 양측이 팽팽하게 맞서고 있다고 추정할 수 있었다고 FT는 밝혔다. 선거 여론조사의 오차는 과거 아날로그 시대에 비해, 온라인 시대에 체계적으로 더 커지지는 않았기 때문이다. 하지만 최근 발표된 새로운 연구는 이러한 상황이 곧 바뀔 수 있음을 시사한다. 

자율 AI 에이전트를 사용하면 봇이 자신의 정체를 드러내지 않고 온라인 설문을 완료하는 것이 이제는 간단하다고 입증됐다. 미국 다트머스 대학의 정치학자 숀 웨스트우드의 연구결과다. 웨스트우드의 봇은, 특정 신념을 가진 사람처럼 현실적인 응답을 생성하고 입력했다. 이 봇은 비인간 또는 가짜 응답자를 걸러내기 위한 6000개의 체크리스트 중 99.8%를 회피했다. 여기에는 역 시볼레스 통과와 캡차 퍼즐 해결도 포함됐다. 사실 힌트는 이름에 있었다. 캡차는 ‘컴퓨터와 인간을 구별하기 위한 완전 자동 튜링 테스트(Completely Automated Public Turing test to tell Computers and Humans Apart)’의 약자다. 하지만 LLM은 이미 1년 넘게 튜링 테스트를 통과해 왔다.

이 연구 결과는 가짜 응답자가 이제 대규모로 운영될 수 있음을 보여준다. 그리고, 악의적인 행위자가 의도적으로 여론을 특정 방향으로 조작해 거짓된 합의를 만들어낼 가능성을 제기한다. 일부 온라인 여론조사 기관은 군비 경쟁이 계속됨에 따라, 아이디 확인으로 눈을 돌리고 있다. 하지만, 이는 민감한 질문에 대한 응답을 저해할 수 있는 프라이버시 문제를 야기할 수 있다.

결국, 저렴한 온라인 설문조사의 시대는 얼마 남지 않았을지 모른다. 교육 분야에서 LLM이 미친 영향에서 보았듯이, 유일하고 확실한 방어책은 더 느리고 비싼 예전 방식으로 돌아가는 것이다. 즉, 우편물의 사용 그리고 철저한 검증을 통한 신뢰할 수 있는 패널의 구축 뿐이다. 

그렇다고 해서 AI가 설문 조사 연구에 무조건 나쁜 소식만은 아니다. 대안으로, ‘합성 표본’의 세계가 열리고 있다. 이는 ‘실제 사람들의 실제 데이터’를 사용해 AI 기반의 대리인(proxy)을 생성하고, 이들이 새로운 질문에 어떻게 응답할지 시뮬레이션하는 것.

이 새로운 방법의 장단점을 파악하기 위해 신중한 실험을 진행해 온 영국의 ‘행동 통찰 팀’ 엘리자베스 코스타는 이를 이렇게 설명했다. “실제 데이터 기반의 인구통계와 특성이 정의된 개인을 LLM에게 롤 플레이하도록 프롬프트를 입력한 다음, 설문 질문에 답하게 하거나 특정 시나리오에서 어떻게 행동할지 진술하게 하는 것”.

실제 인간을 조사하는 데 드는 시간과 비용을 고려할 때, 바쁜 연구원, 정부, 마케터들에게 이것이 얼마나 매력적인지 알 수 있다. 하지만 ‘합성 표본’이 사람들의 생각과 행동을 정확하게 반영하고 예측할 수 있을까? 아직 초기 단계이며 결과는 엇갈린다고 FT는 설명했다.

시뮬레이션된 참가자들이 행동 결과를 예측할 수 있는지 알아보기 위해 수행한 실험은 이랬다. 그들은 실제 대표 데이터로 합성 표본을 만든 다음, 이를 실제 사람들의 표본과 비교했다. 한 실험은 사람들에게, 에어컨 사용을 줄이도록 설득하기 위한 다양한 개입에 어떻게 반응할지 물었다.

합성 표본은 어떤 개입이 가장 효과적일지, 또는 가장 덜 효과적일지 예측하는 데는 훌륭했다. 하지만 그 ‘영향력의 크기’를 예측하는 데는 형편없었다. 가장 효과적인 개입에 대해 실제 인간 응답자의 약 1/3만이 에어컨 온도를 높이겠다고 답한 반면, 합성 표본은 그 수치가 80%에 가까울 것이라고 예측했다.

합성 표본은 비즈니스나 정책 아이디어에 대한 신속한 파악이나 예비적인 방향 설정을 얻는 데 가장 적합해 보인다고 코스타는 말했다. 하지만 그녀는 “인간 상호작용과 질적 연구의 즐거움 중 하나는, 사람들이 당신을 놀라게 할 수 있다는 점—정신 모델이나 숨겨진 장벽에 대한 새로운 통찰력을 주는 것—이라고 생각한다. 합성 참가자에게서는 놀라움을 기대하기 어렵다”고 경고했다.

또 다른 위험은, 합성 표본을 설정하는 방식에 대한 결정이 결과를 크게 좌우할 수 있다는 점이다. 베른 대학 제이미 커민스의 최근 연구는 “분석적 결정에 따라, 기본적으로 원하는 효과를 보여주도록 표본을 만들 수 있다”는 것을 시사한다.

질적 연구에는 AI를 활용할 수 있는 더 간단한 사례들이 있다. 예를 들어, LLM은 방대한 인터뷰 녹취록이나 상담 응답을 분석해, 주요 주제와 추가 조사가 필요한 영역을 식별하는 데 매우 적합하다. AI 이전 시대에는 연구원들이 이 질적 데이터를 수동으로 읽고 분류해야 했다. 영국 혁신 기관인 네스타의 응용 연구 및 방법론 이사인 맬러리 듀란은 “몇 주, 경우에 따라서는 몇 달이 걸리던 분석이 이제 몇 시간 만에 완료될 수 있다”고 말했다. 이는 연구원들에게는 분명한 혜택이며, 수천 건의 대중 상담 응답에 직면한 공무원들에게도 마찬가지다. (하지만 대중이 LLM을 사용해 더 많은 상담 응답으로 ‘존(zone)’을 홍수처럼 채우기 시작해도, 공무원들이 여전히 AI를 혜택으로 느낄지는 의문이다.)

이제 △온라인 참여형 패널, 그리고 △표본 모집 방식과 △신원 확인 여부를 공개하지 않는 모든 여론조사는 의심을 품고 대해야 할 시점에 왔다. 합성 표본에 대해서는 현재로서는 강력한 회의론이 필요하다. 하지만, 개방형 응답을 분류하거나 객관식 질문 대신 LLM 중재자가 광범위한 인터뷰를 수행하는 것과 같은 덜 화려한 용도는 실질적인 진전을 나타낸다.

봇이 온라인 여론조사를 타락시키는 것을 막는 유일한 방법은 더 비싼 예전 방법으로 회귀하는 것이 맞다면, 이는 오히려 합성 표본을 사용하려는 유인을 증가시킬 수 있다. 하지만 극도로 주의해서 사용하지 않는다면, 이 기술이 기업과 정책 입안자들을 막다른 골목으로 이끌 수도 있다고 FT는 경고했다.

권세인 기자