PDF, AI 생성 여부 어떻게 알 수 있을까?
PDF 파일 구조의 비표준성(Non-standard Structure)으로 인해 편집 여부 판단이 어렵다는 점을 지적함.
다양한 PDF 생성 방식과 편집 과정에서 발생하는 편집 잔여물(Edit Residues)로 인해 진위 판별이 더욱 복잡해짐.
AI가 생성한 PDF 문서의 특징을 파악하여 AI 생성 PDF 탐지 기술 개발(AI-Generated PDF Detection)에 대한 연구가 진행 중임.
PDF 파일 구조의 복잡성
PDF 파일은 ISO 32000 표준(ISO 32000 Standard)을 따르지만, 실제 구현은 매우 다양하다. PDF는 버전, 객체(Objects), Xref 테이블, EOF, startxref 등 필수 구성 요소를 갖지만, 각 요소의 구현 방식이 일관되지 않다. 특히, PDF 버전 정보의 불일치, 객체 식별자(Object Identifiers)의 중복 사용, 잘못된 참조(Bad References) 등은 분석을 어렵게 만드는 주요 요인으로 작용한다. 이러한 비표준성은 PDF 감정의 핵심적인 문제로 이어진다.
편집 흔적과 PDF 생성 과정
PDF 파일은 다양한 방식으로 편집될 수 있으며, 각 편집 방식은 고유한 흔적을 남긴다. 예를 들어, EOF 이후 추가 객체 삽입, startxref 중복, 객체 재작성 등이 편집의 징후로 나타날 수 있다. 하지만, 이러한 흔적만으로는 편집 여부를 단정하기 어렵다. 다단계 PDF 생성 파이프라인(Multi-stage PDF Generation Pipeline)으로 인해 편집 잔여물이 자연스럽게 발생할 수 있기 때문이다. 따라서, 편집 흔적의 맥락을 이해하는 것이 중요하다.
AI 생성 PDF 탐지의 어려움
AI가 생성한 PDF 문서는 기존 PDF와 다른 특징을 보일 수 있다. 예를 들어, 템플릿과 개인화된 정보 사이에 편집 흔적이 없는 경우가 있다. 이는 AI가 템플릿 생성과 정보 입력을 동시에 수행하기 때문이다. 하지만, AI 생성 PDF를 탐지하는 것은 매우 어려운 과제이다. AI 환각(Hallucination)으로 인해 생성된 정보의 신뢰성을 판단하기 어렵고, AI 모델의 발전으로 인해 탐지 기술의 정확성이 지속적으로 감소할 수 있기 때문이다.
PDF 버전 문제와 호환성
PDF 파일의 버전 정보는 뷰어의 호환성에 영향을 미친다. 파일 헤더에 명시된 버전이 뷰어가 지원하는 범위를 벗어나면, 파일이 열리지 않거나 잘못 렌더링될 수 있다. 하지만, 버전 정보는 편집 여부를 판단하는 결정적인 지표가 아니다. PDF 생성기의 오류로 인해 버전 정보가 실제 파일 내용과 일치하지 않는 경우가 많기 때문이다. 따라서, PDF 버전 정보는 분석의 보조 지표로 활용되어야 한다.