heron

4. Using GPT-4 to measure the passage of time in fiction (Ted Underwood, 2023)

서지 정보


1. 연구 요약

2. 연구 내용

2.1. 배경

문학 텍스트를 자동적으로 분석(automate content analysis)하는 기존의 방법론들이 있다. 대표적인 것은 Named entity extractionTopic modeling 이 있다. 그러나 이들 방법은 근본적으로 '단어를 세어' 통계량을 얻는 것이기에, 명확한 한계를 갖는다. 예를 들면 "소설 한 페이지에 평균적으로 얼마나 긴 시간이 흐르는지"와 같은 질문은 통계적인 방법으로 산출할 수 없다.

정말로 그런가? 그렇다. 문장 내부의 지표는 의미가 때때로 변화하기 때문이다. 저자는 다음과 같이 설명한다.

We decided to characterize passages manually because references to time in fiction can’t always be taken literally. If a character thinks (or says) “wow, it’s been thirty years but feels like yesterday,” you don’t want to conclude that thirty years have passed on the page. So word-counting seemed risky. Even as human readers we often found it hard to decide how much time was passing. But when a passage was read by two different people, our estimates agreed with each other well enough to conclude that “fictive time” was a meaningful construct, if not a precise one (r = .74 on log-transformed durations).

핵심적인 부분을 굵게 표시하였다. 문장 내의 'thirty years'이라는 문구가 실제 30년을 의미하지 않는다는 것이다. 그런데 이러한 내용을 읽고 시간 흐름을 판단하는 것은 매우 어렵다. 인간에게도 어렵고, 빈도 기반의 방법론에서도 마찬가지이다. 그러므로 저자들은, 빈도 분석과 LLM의 성능 평가 지표로서 '두 인간 독자의 추정치의 일치도'를 사용하기로 결정하였다. 그것이 위의 인용구 후반부에 나오는 (두 인간 독자의 추정치가 비슷한 경우의)'fictive time'이다. (r = .74)

이제 위와 같은 인식을 기반으로, 통계적인 NLP와, LLM 기반의 시간 흐름 추정과, 두 인간 독자에 의한 fictive time의 정확도를 비교한다. (저자가 선행 연구로 미리 라벨링을 해 둔 소설 텍스트를 기반으로 r 값 산출.)

2.2. 시간 흐름 측정의 세 방법

연구는 세 가지 방법론으로 '소설 속 시간 흐름'을 측정하고, 그것의 정확도를 비교한다. 먼저 해당 결과를 제시하겠다.

방법론 정확도
두 인간 독자 비교 [1] r = .74
GPT-4 [1] r = .68
단어 수 측정(Word-counting methods) [2] r = .35 - .49

Underwood의 'fictive time'에 관련된 논문 발표 1년 후, Greg Yauney는 빈도 분석 기반의 시간 추정 연구를 선보였다. (그것이 세 번째 행의 연구이다.) 이때 세 번째 방법의 r = .35 가 매우 낮아 보이나, 시대에 따른 소설의 시간 흐름 경향을 분석하는 것에는 매우 충분한 수치이다. 연구에서는 다음과 같이 설명하며, '충분히 안정적'이라 평한다.

The model-predicted durations correlated with human estimates at r = .35. While this is much lower than inter-human agreement, the model was stable enough to precisely measure a trend (across thousands of books) that matched the trend we had sketched using laborious human reading of a hundred books. [1]

그러나 인간에 비하여 성능이 낮은 것 또한 사실이다. 이에 착안하여 Underwood는 LLM에게 시간 추정을 시키는 시도를 한다.

2.3. LLM이 시간을 추정하도록 하는 적합한 프롬프트에 대한 고찰

구체적인 내용은 소스코드를 통해 볼 수 있을 것이다. 핵심은 다음과 같다.

적절하지 않은 프롬프트로 인하여, LLM은 대답을 거부하거나, 불평을 한다.

2.4. LLM을 통한 '모호한 개념' 측정에 대한 긍정적 시선

저자는 LLM이 '소설 속 시간 흐름'을 유효한 정확도로 측정해낸 것 처럼, 다른 '모호한 개념'들 또한 LLM으로 측정해낼 수 있음을 역설한다. 이때 LLM 사용에 대한 주요 비판은, 모델이 폐쇄(closed model)되어 있다는 점에서 출발한다. 어떤 과정을 거쳐 나온 답인지 알 수 없는 딥러닝의 특징으로 인하여, 결과의 이유를 설명할 수 없고, 재현과 감사가 어렵다. 그러나 저자는 이와 같은 한계 지적이 사실상 무의미하다고 주장하며 다음과 같이 말한다.

For me, the most surprising take-away from this experiment was not that deep learning is more accurate than statistical NLP, but that it may also be in some ways more interpretable. Because a language model has to think out loud, it tends to automatically document its own reasoning. [1]

LLM이 통계 기반의 NLP보다 정확한 것은 딱히 중요한 것이 아니다. 통계 기반 NLP도 연구를 진행하기에 충분히 정확하기 때문이다. 이때 저자는 LLM이 사고 과정을 자동적으로 문서화하여 출력할 수 있다는 점을 높이 평가한다. 이것이 인문 연구자들에게(이것이 비록 엄밀하지 않다고 하더라도) 유용하다고 생각하는 것이다.

한편으로는 언어모델이 인간 연구자와 비교하여 갖는 큰 장점이 또 있다. 인간 연구자는 필연적으로 이전의 평가 기억을 갖고 있고, 그것을 지울 수 없다. 그러나 LLM은 매 평가마다 완전히 초기화된 기억 상태에서 새롭게 평가를 진행하므로, 여러 번 질문하여 일관성과 강건성을 점검 가능하다는 것이 저자의 주장이다.

이 두 번째 주장은 나에게 매우 흥미롭게 들린다. 인간 인문 연구자를 속박하는 것은 텍스트에 대한 평가가 '재현 불가능'하다는 점이다. 이것은 사실 너무도 당연한 것이라, 하나의 글을 처음 읽을 때와 다시 읽을 때가 다른 것을 불편하다고 인식하기는 쉽지 않다. 그러나 Underwood는 이것을 문제로 인식했다. 인문 연구에서 측정을 원하는 '모호한 개념'들은 일반적으로 연구자의 반복적인 감상과 해석을 통해 계측되지만, LLM을 사용하면 깨끗한 상태로 반복적인 질의를 통해 강건하고 일관성 있는 '대답의 경향' 혹은 '지배적인 대답'을 산출할 수 있다는 것이다. 비로소 '모호한 개념'이 측정 가능한 영역으로 편입된다는 뜻이다. 말 그대로, LLM이 '모호한 개념'의 측정 잣대가 되었다.

2.5. 우려와 제안

저자는 다음과 같은 우려와 제안을 던진다.

2.6. 결론

3. 인문학적 의미

이미 Underwood가 여러번 언급했듯이, 문학의 '모호한 개념'을 LLM을 통해 정량적으로 다룰 수 있다는 사실을 증명하고, 학계에 제시한다는 점에서 큰 의미를 갖는다.

4. 비판적 분석

몇 가지 의문이 있다.

  1. 인간 연구자 '두 명'의 평가 유사도를 기준으로 한 이유가 무엇인가? 더 나은 기준은 없었을까? 그 이전에, 라벨링 된 데이터를 만든 것 또한 인간 인문학자인데, 새로운 인간 인문학자 두 명의 평가를 굳이 진행하여 r값을 산출하고 NLP 모델과 LLM을 비교하는데 사용한 것은 이유가 무엇인가? 이것에 필연적인 이유가 없다고 느낀다.
  2. LLM의 사고 과정 출력을 얼마나 신뢰할 수 있는가? 현재 논문의 구성에서 '사고 과정 출력'이 인문학자에게 도움을 준다는 내용은 다소 뜬금없다. 통계적 근거 없이 경험적인 장점을 갑자기 기술하니 당혹스럽다.

5. 확장

이 연구를 접하고, 이와 같은 방식의 '텍스트의 시간 흐름 산출'라이브러리가 만들어졌는지 찾아보았다. 그러나 내 능력이 닿는 한도 내에서는 알려진 라이브러리를 찾지 못하였다. 그러므로, 이 연구 내용을 라이브러리로 만들어, pip 등의 저장소에 배포하고, 다른 인문학자들이 유용하게 사용할 수 있도록 공개하는 것은 어떨까?

한편으로는, 이것을 국문에 적용할 수 있도록, 프롬프트와 언어모델을 잘 선택하고 조정하여, 위와 동일하게 라이브러리로 만들어 배포하는 것도 좋겠다[3].

참고문헌


사담

아주 흥미로운 논문이다. 리뷰 번호 1번에서 언급된 연구가 현재 페이지의 대상 연구인데, 인문학자로서 LLM만의 장점과 가능성을 통찰해낸 것이 놀랍다.

"인간과 유사한 대답을 내놓을 수 있는 것이 언어모델이라면, 일반적으로 '새로운 정보'를 창출하지 못하는 언어모델로 새로운 정보를 창출하려면 어떻게 해야 하는가?" 라는 질문에 대한 훌륭한 답이다.

2025-09-05 작성 완료