2. 링크드 데이터, 무엇을 어떻게 연결하는가? (박진호, 2024)

서지 정보

Title: 링크드 데이터, 무엇을 어떻게 연결하는가?
Author / Publication Year: 박진호(Park, Jin Ho) / 2024
DOI: https://doi.org/10.23287/KJDH.2024.1.1.3

연구 요약

핵심 문제의식: 웹은 글로벌 데이터베이스로 변화하고 있으며, 디지털 인문학 연구자는 그 유용성과 한계를 이해해야 한다.
핵심 주장: 링크드 데이터로 실현되는 시멘틱 웹은 연구에 유용하지만, '데이터셋의 근본적인 한계'와 더불어 '표준화 과정에서 발생하는 근본적인 문제점'을 갖고 있다. (연구에 도움이 되기 위하여)연구자는 이것을 확실히 인지하고 데이터셋을 사용해야 한다.
중요성: 구조화되고 연결된 데이터가 시멘틱 웹으로 공개되어 있다는 정보 전달. 데이터베이스로서의 시멘틱 웹이 갖는 한계와 문제점을 설명하는 것으로, 연구자가 함정에 빠지는 것을 미연에 방지. 기본적인 정보 연결의 방법론(RDF)을 소개하고 관련 키워드들을 제시하는 것으로, 연구자에게 새로운 도구와 개념 제시.

연구 내용

처음 구상한 것에 따르면, 논문 리뷰를 할 때 "인문학적 의미 -> 디지털 방법론 -> 비판적 분석 -> 확장" 순서로 리뷰 글을 전개할 생각이었지만, 이 논문에는 적합하지 않은 것 같다. 그리하여 논문에서 제공하는 핵심 개념에 대하여, 내가 이해한 것을 기록으로 남기도록 하겠다.

1. 웹과 시멘틱 웹

기존의 웹은 문법(Syntax) 중심의 HTML로 작성되어 있다. 이들 웹 문서는 서로 연결(Hyperlink)되어 있고, 훌륭한 정보자원으로서 역할을 잘 수행하고 있다. 그러나 팀 버너스 리는 웹을 확장하기를 원하고, '시멘틱 웹'의 개념을 제안하였다.

시멘틱 웹(Semantic Web): "현재 웹이 확장된 형태로, 잘 정의된 의미를 정보에 부여함으로서 사람과 컴퓨터의 협업을 보다 원활하게 할 수 있도록 하는 것." (Berners-Lee, Hedndler and Lassila, 2001)

이를 보면 XML을 떠올릴 수 있으나, 그것이 아니다. 다음 예시를 보자.

<h1>링크드 데이터의 이해</h1>    <!-- 문법 중심. -->
<title>링크드 데이터의 이해</title>  <!-- 의미 중심. 그러나 title은 컴퓨터가 이해 불가. -->

XML의 태그는 인간이 임의로 지정하는 것이고, 컴퓨터의 이해는 고려하지 않는다. 그러므로 '의미 전달'을 목표로 하는 새로운 표현 언어를 만들게 되었는데, 그것이 바로 RDF(Resource Description Framework)이다.

2. 시멘틱 웹과 링크드 데이터

링크드 데이터는 시멘틱 웹을 구현하기 위한 방법론이다. 잘 구현된 시멘틱 웹은 일종의 데이터베이스로서 기능한다. 데이터간의 관계가 명시적으로 저장되어 있으며, 특정 정보를 얻기 위한 질의 연산이 가능하다는 뜻이다. 개별 문서가 링크드 데이터가 되기 위해서는 다음과 같은 원칙을 지켜야만 한다. (W3C, 2023)

특정 개념(things)을 URI를 사용해서 명명함.
HTTP를 활용해서 URIs로 명명된 자원에 접근할 수 있도록 함.
URI로 정보를 찾았을 때 RDF(S), SPARQL과 같은 표준을 활용해서 유용한 정보를 제공해야 함.
또 다른 URI를 포함하고 있어서 더 많은 것(개념, things)들을 탐색할 수 있어야 함.

이때 RDF의 구조는 다음과 같다.

	주어(Subject)	술어(Predicate)	목적어(Object)
예시	<http://dbpedia.org/ resource/Seoul>	<http://dbpedia.org/ ontology/PopulatedPlace/areaTotal>	"605.21"
분류	URI	URI	Literal
의미	기술 대상 데이터 자원	주어와 목적어의 관계를 설명하는 속성.	주어와 관계 맺는 또 다른 자원 또는 값(Literal) (이 자리에는 URI 또는 Literal 이 모두 올 수 있다.)

즉, 위의 예시를 보면, '서울'을 설명하는 속성의 하나로 '총면적 값'이 있고, 그 값이 "605.21"이다.

어딘가 익숙하지 않은가? 결국 정보를 그래프 형태로 표현하는 한가지 방식일 뿐이다. 개별 문서(URI)는 모두 노드이고, 각 노드 사이의 간선에 목적어가 부여되어 있는 것이다. 그렇기에 RDF 형식으로 조직된 웹이 질의가 가능한 데이터베이스를 이루는 것이리라.

다만 웹사이트마다 내부적으로 사용하는 속성에 대한 규칙을 준수해야만 한다. 논문에서 예시로 언급하는 https://dbpedia.org/의 온톨로지 모델은 'dbo' 라는 네임스페이스를 사용하여 속성을 정의한다.

예:

'dbo:areaTotal'
'dbo:country'

이와 같이, 데이터셋에서 규정하여 사용하는 온톨로지를 준수하여 정보자원을 기술해야, 상호운용성을 지키며 데이터를 추가할 수 있다.

한편, 링크드 데이터는 개방형 데이터(open data) 형태로 증가하고 있으며, 새로운 웹 생태계를 만들고 있다. 반대로 생각하면, 개방형일 때 더욱 큰 의미를 갖는 구조가 곧 링크드 데이터라는 말이다. 그리하여 팀 버너스 리는 가장 높은 수준의 오픈 데이터로 LOD(Linked Open Data)를 꼽는다. (PDF < XLS < CSV < RDF < LOD)

3. 링크드 데이터의 의미

몇 가지 문장을 뽑아서 제시하겠다. 링크드 데이터가 디지털인문학에 어떤 긍정적 영향을 주는지 살펴보는 문장들이다.

링크드 데이터의 확산은 자유롭게 활용할 수 있는 고품질 데이터의 확보라는 관점에서 보면 긍정적이다.
웹을 플랫폼으로 하는 대규모 데이터세트라는 점에서 매력적이다.
링크드 데이터는 잘 정의되고 표준화된 개념과 속성에 기반을 두기에, 다양한 플랫폼과 응용 프로그램에서 데이터에 대한 일관된 해석을 보장한다. 그렇기에 기계 처리에 적합하고, 학술 및 산업에서 응용에 대한 유용성을 향상시킬 수 있다.
일관된 의미 구조 덕분에 ... 서로 다른 학문의 통찰을 활용하는 연구를 촉진할 수 있다.
링크드 데이터의 원칙을 채택함으로서, 맥락과 유용성이 풍부한 데이터세트 생성을 촉진할 수 있다.

위와 같은 언급 이후, 링크드 데이터가 이해하기 어렵지 않으며, 그렇기에 링크드 데이터의 한계를 명확히 인지하는 것이 더 중요하다고 주장한다. 전적으로 동의한다.

4. 링크드 데이터의 한계

저자는 한계를 두 가지 관점에서 보아야 한다고 주장한다. 모든 데이터셋이 갖는 근본적인 문제와 표준을 기반으로 데이터를 기술하는 것의 문제 말이다.

4.1. '데이터셋'이 갖는 문제

데이터 형식, 정확성, 완성도에서의 불일치는 오해의 소지가 있는 결론이나 불완전한 분석으로 이어질 수 있다. (데이터의 질에 좌우되는 연구 결과.)
개방성이 개인정보 보호 및 보안에 대한 우려 야기.
기술적 장벽의 존재. (링크드 데이터의 조작과 질의에는 일정 수준의 프로그래밍 또는 기술 지식이 필요.)
링크드 데이터의 확장에 따라서, 점점 더 정교한 기술과 인프라가 필요.

4.2. '표준화'의 문제

복잡성의 축소 문제: 표준화는 원 데이터의 풍부함을 과도하게 단순화하고 왜곡할 수 있다. (맥락과 의미가 손실됨.)
일반화, 보편화된 프레임워크 강제의 문제: 데이터 표준의 맥락에서 지역과 맥락의 변화에 관계 없이 특정 언어적 및 개념적 프레임워크를 보편적으로 강제할 수 있다. (아마도, 표준화 규칙이 맥락과 연동되지 못하는 경우를 말하는 듯 하다.)
유연성 부족 문제: 동적이고 진화하는 분야의 지식을 수용하기 어렵다. (표준화 규칙은 안정성과 일관성을 중시하기에 그렇다.)
권력 역학과 통제의 문제: 어떤 것이 표준화되는지는, 분류 시스템을 정의하고 통제할 권한을 가진 권력 역학 속에 있다.
데이터의 동질화 문제: 다양하고 이질적인 데이터 세트를 통일된 구조에 맞추게 되면, 동질화의 문제가 발생.

5. 링크드 데이터의 가능성

링크드 데이터로 많은 대상들이 혜택을 받는다. 논문에서는 도서관을 예시로 하여 다양한 혜택을 나열하는데, 핵심은 다음과 같다.

정보기술의 용이성.
다양한 분야간 정확한 연결.
데이터 중복 방지 및 품질 향상이 용이.
웹 기반이므로, 기술적 배경지식 없이 데이터 탐색 및 활용 가능.

6. 결론

디지털 인문학에서의 링크드 데이터 활용은 연구 방법을 혁신적으로 변화시킬 잠재력을 가지고 있다.

그러나 이 기술은 데이터의 질과 일관성에 크게 의존하며, 표준화 과정에서 개입되는 주관성과 관련한 문제를 갖는다.

앞으로 링크드 데이터의 발전을 위해, 기술적 진보와 데이터의 표준화, 개방성 달성이 필요하다.

연결과 확장

다양한 개념을 그래프 구조로 표현해낸 웹 사이트가 존재함을 처음 알았다. 당장 명확한 아이디어가 떠오르지는 않는다. 추후 이러한 링크드 데이터를 활용한 연구를 발견하게 된다면 좋겠다. 학자들은 지금 어떤 방식으로 이것을 활용하고 있는가? 이 데이터의 주관성에도 불구하고, 유의미한 연구가 가능한가? 의문이다.

참고문헌

박진호. (2024). 링크드 데이터, 무엇을 어떻게 연결하는가?. , 1(1), 34-50, https://doi.org/10.23287/KJDH.2024.1.1.3
Berners-Lee, T., Hendler, J., & Lassila, O. (2001). “The semantic web”. Scientific american 284-5 34-43. https://doi.org/10.1145/3591366.3591376
W3C. “LinkedData”. https://www.w3.org/wiki/LinkedData
Hausenblas, Michael. “5 ★ OPEN DATA”. https://5stardata.info/en/
DBpedia. “About DBpedia”. https://www.dbpedia.org/about/

사담

흥미로운 논문이다. 무엇보다 웹사이트에 SQL과 유사한 질의가 가능하도록 하는 아이디어가 놀랍다. RDF의 그 단순한 노드 및 간선 표현 규칙이, 관계 대수의 사용 가능성을 열었다는 말 아닌가?

개별 문학 작품의 모든 단어에 대하여 RDF와 같은 구조로 주석을 추가한 사례가 있는지 궁금하다. 개인적으로는, 이러한 링크드 데이터(DBpedia 같은 서비스)는 그 근본적인 주관성으로 인하여 현실의 대상을 표현하기보다는, 소설과 같은 가공의 대상이 어떤 의미망을 갖추고 있는지 표현하는데 더 적합하다고 생각한다. 모든 개별 단어에 등장 순서대로 고유 번호를 붙이고, 모든 개별 단어 주위에, 단어로부터 연상될 수 있는 모든 단어 조합을 연결하면 어떤가? 추후 선행연구를 찾아보고, 없다면 내가 직접 연구해 보겠다. (이것은 예전부터 생각하던, "개별 문학 작품을 압축하여 대표하는 일종의 해시 값을 얻을 수 있는가?"라는 질문의 답이 될지도 모르겠다. 그래프를 행렬로 환원하여 행렬식(Determinant)을 구하면 그것이 대표값 아니겠는가? 아... 아닐 수도 있겠다.)

2025-08-21 기록