450 likes | 716 Views
목 차 6.1 소개 6.2 메타데이터 6.3 텍스트 6.4 마크업 언어 6.5 멀티미디어 6.6 연구 동향 및 쟁점. 6장 텍스트와 멀티미디어 언어 및 특성. 6.1 소 개. 텍스트 - 지식 전달의 주된 형태 - 다양한 형식과 언어로 작성 문헌( document) - 정보의 한 단위 - 주로 디지털 형태의 텍스트 - 다른 미디어도 포함 - 논리적 단위: 논문, 단락, 사전 항목, … - 물리적 단위: 파일, 전자 메일, 웹 페이지, …. 6.1 소 개(계속). 문헌의 구성
E N D
목 차 6.1 소개 6.2 메타데이터 6.3 텍스트 6.4 마크업 언어 6.5 멀티미디어 6.6 연구 동향 및 쟁점 6장 텍스트와 멀티미디어 언어 및 특성 Chapter 6
6.1 소 개 • 텍스트 - 지식 전달의 주된 형태 - 다양한 형식과 언어로 작성 • 문헌(document) - 정보의 한 단위 - 주로 디지털 형태의 텍스트 - 다른 미디어도 포함 - 논리적 단위: 논문, 단락, 사전 항목, … - 물리적 단위: 파일, 전자 메일, 웹 페이지, … Chapter 6
6.1 소 개(계속) • 문헌의 구성 - 작성자가 기술한 일정 형태의 구문, 구조 - 저자가 명시한 의미 - 스타일: 프린터나 화면에 출력될 문헌의 외양 - 메타데이터(metadata): 문헌 자신에 관한 정보 Chapter 6
6.1 소 개(계속) • 문헌의 구문(syntax) • 구조, 스타일, 의미, 외부 기능 등을 표현 • 많은 경우 암시적으로 주어짐 • 선언적 언어나 프로그래밍 언어로 표현하기도 함 • 문헌 편집기: 서술적 형태 • TeX: 식자용 언어 • SGML: 개방적 언어 -- 호환성과 융통성 제공 • 문헌의 의미는 용도와도 관련이 있음 • 포스트스크립트(postscript) 지시자: 출력 목적 Chapter 6
6.1 소 개(계속) • 문헌의 스타일(style) • 대부분의 문헌은 특정 포맷 스타일을 지님 • 정보와 스타일간의 독립성 추구 • TeX, RTF(Rich Text Format): 스타일이 문헌에 내재 • 스타일은 매크로로 보완 가능 • 예) TeX에서 LaTeX • 스타일은 보통 저자에 의해 정의됨 • 독자가 스타일의 일부 결정 가능 • 예) 웹 브라우저의 옵션 • 오디오, 비디오 같은 다른 미디어의 처리도 포함 Chapter 6
6.2 메타데이터 • 메타데이터 • 데이터의 구성 및 정의역과 이들간의 관계에 대한 정보 • 데이터에 대한 데이터 • 예) DBMS: 스키마, 관계의 명칭/필드/속성, 속성의 정의역 • 메타데이터의 유형[Marchionini] • 서술적 메타데이터(Descriptive Metadata) • 의미 외적인 메타데이터 • 문헌 작성 방법에 관한 정보 • 저자, 출판일, 출처, 길이, 장르 등을 포함 • 예) Dublin Core Metadata Element Set: 15개 필드 Chapter 6
6.2 메타데이터(계속) • 메타데이터의 유형(계속) • 의미적 메타데이터(Semantic Metadata) • 문헌의 내용/주제에 대한 정보 • 예) 미국 국회 도서관 주제 코드 • 예) MEDLINE 시스템의 생체 임상 의학 논문 • 질병, 해부학, 약품 등에 관련된 주제 항목 부여 • 용어 체계(ontology) • 주제 기술을 위한 용어의 계층 분류(taxonomy) • 의미적 용어를 표준화화기 위해 사용 • 메타데이터 포맷 • MARC(Machine Readable Cataloging Record) • 도서관 레코드 포맷, 제목/저자 등 서지 항목 필드 존재 • USMARC: MARC의 미국 버전 • 서지 정보 교환용 미국 국가 표준 Chapter 6
6.2 메타데이터(계속) • 웹 메타데이터 • 용도 • 목록 작성(예: BibTeX), 내용 등급 부여, 지적 재산권, 디지털 서명, 프라이버시 수준, 전자상거래 응용 등 • RDF(Resource Description Framework) • 웹 메타데이터 표준 • 노드와 부가적인 속성/값(attribute/value) 쌍으로 구성 • 노드 • URL(Uniform Resource Locator) • URI(Uniform Resource Identifier) • 비텍스트 객체의 메타 서술에도 유용 • 예) 이미지 서술용 키워드 집합 Chapter 6
6.3 텍스트 • 텍스트 코딩 체계 • 초기: 7비트 사용 • EBCDIC, ASCII • ISO-Latin: 8비트 ASCII • 악센트, 발음 구분 기호 포함 • Unicode(ISO 10616): 16비트 코드 • 한글, 한자 등 동양 언어 표현 가능 Chapter 6
6.3.1 포맷 • 텍스트 포맷의 유형 • ASCII 형태: 높은 호환성, 정보의 추출/수정이 용이 • 예) TeX • 이진 형태: 필터 필요 • 예) Word, HWP 같은 워드프로세서로 작성된 문헌 • 주요 텍스트 포맷 • RTF: 워드프로세서용, ASCII 구문 • PDF(Portable Document Format) : 인쇄용 • 포스트스크립트: 인쇄용 • MIME(Multipurpose Internet Mail Exchange) • 전자 메일용 • 다중 문자 집합, 다중 언어, 다중 미디어 지원 Chapter 6
6.3.1 포맷(계속) • 대표적인 압축 소프트웨어/포맷 • Compress: Unix • ARJ: PC • ZIP: gzip, Winzip • uuencode/uudecode, binhex • 이진 파일과 7비트 ASCII 텍스트 사이의 변환 Chapter 6
6.3.2 정보 이론(information theory) • 엔트로피(entropy) • 정보의 내용(content)/불확실성(uncertainty)을 포착하기 위한 개념 • 텍스트의 정보량을 정량화 • 정의 • : 알파벳의 심볼 수, pi: 심볼의 출현 확률 • 심볼의 확률에 따라 다름 • 예) =2일 때, 확률이 같으면 1, 한 심볼만 나타나면 0 • 심볼의 확률을 구하기 위한 텍스트 모델 필요 • 텍스트 압축의 한계 Chapter 6
6.3.3 자연언어 모델링 • 자연언어 모델 • 이항(binomial) 모델 • 심볼의 출현 확률이 독립적인 것으로 간주 • 유한 문맥(finite-context) 모델, 마코프(Markov) 모델 • 현재 심볼의 출현 확률을 구할 때, 이전 k개의 심볼을 고려 k차 모델 (이항 모델은 0차 모델로 간주됨) • 유한 상태(finite-state) 모델: 정규 언어 정의 • 문법 모델: 문맥 자유(context free) 언어등을 정의 Chapter 6
6.3.3 자연언어 모델링(계속) • Zipf의 법칙 • 문헌 내에서 단어의 분포에 대한 모델 • 빈도가 i번째인 단어의 빈도는 최고 빈도 단어의 1/i배 • n/(iHV()):빈도가 i번째인 단어의 출현 횟수 F • V: 어휘(서로 구분되는 단어) 수, n: 텍스트의 단어 수 • HV(): 전체 출현 빈도의 합이 n이 되도록 다음과 같이 정의되는 V의 차 조화수(harmonic number) • 간단한 공식에서는 =1을 사용: HV() = O(log n), 부정확함 • >0인 경우: HV() = O(1), 실제 데이터에 잘 맞음 • 보통 는 1.5 ~ 2.0을 사용 Chapter 6
6.3.3 자연언어 모델링(계속) • Zipf의 법칙(계속) • Mandelbrot 분포 • c: 추가된 매개 변수 • k: 모든 빈도의 합이 n이 되도록 하는 값 • 데이터 실험 결과 더 좋은 모델로 제안됨 Chapter 6
6.3.3 자연언어 모델링(계속) • 불용어(stopword) • 의미를 전달하지 않는 단어 무시 가능 • 텍스트의 약 50%를 차지하는 고빈도 단어는 대부분 불용어 • 예) TREC-2 컬렉션에서 가장 빈도가 높은 단어 the, of, and, a, to, in • 음의 이항 분포(negative binomial distribution) • 문헌 컬렉션에서 단어의 분포에 대한 모델 • 어떤 단어를 k번 포함하는 문헌의 수 • p, : 단어와 문헌 컬렉션에 종속적인 매개 변수 • 예) Brown Corpus에서 ‘said’의 경우 • p=9.24, =0.42 Chapter 6
6.3.3 자연언어 모델링(계속) • Heaps의 법칙 • 어휘의 크기 증가를 예측하는 매우 정확한 법칙 • 단어 수가 n인 텍스트의 어휘 수 V = Kn = O(n ) • k, : 특정 텍스트에 종속적인 값 • 보통 k는 10 ~ 100, 는 0 ~ 1; 의 일반적인 값은 0.4 ~ 0.6 • 문헌 컬렉션에도 적용 • 단어의 평균 길이 • 전체 텍스트에서 평균적인 단어의 길이는 일정 • 짧은 단어가 충분히 반복하여 출현하기 때문 • 예) TREC-2 컬렉션의 경우 • 평균 단어 길이: 5문자 • 변동 범위는 4.8 ~ 5.3 , 불용어 제외시: 6 ~ 7 문자 • 어휘 집합 단어의 평균 길이: 8 ~ 9 문자 어휘 저장 공간 결정 Chapter 6
6.3.4 유사도 모델 • 유사도(similarity) • 문자열이나 문헌 사이의 구문적 유사도 • 거리 함수(distance function)를 사용하여 측정 • 대칭적이어야 함: 인자의 순서에 무관 • 삼각 부등식 관계를 만족해야 함 • distance(a,c) distance(a,b) + distance(b,c) • 해밍 거리(Hamming distance) • 길이가 같은 경우, 문자가 서로 다른 위치의 수 • 편집 거리(edit distance): Levenshtein 거리 • 동일한 문자열이 되도록 연산을 적용할 최소 문자 수 • 연산: 삽입(insertion), 삭제(deletion), 치환(substitution) • 예) color ~ colour: 1, survey ~ surgery: 2 • 편집 거리 개념의 확장 • 가중치 부여, 전치(transposition) 연산 추가 Chapter 6
6.3.4 유사도 모델(계속) • 최장 공통 부분열(LCS : Longest Common Subsequence) • 공통이 아닌 문자를 삭제하고 남은 문자열 • 연속할 필요는 없지만 원래 문자열 순서는 유지 • 예) survey ~ surgery: surey • 문헌의 유사도 • 행을 심볼로 간주하고 최장 공통 행을 구하는 방법 • 유닉스의 diff • 많은 시간이 걸리고 유사한 행들이 고려되지 않음 • 유사한 행들을 고려하는 방법 • 행들 사이에 가중치를 부여한 편집 거리 • 모든 문자에 대해 LCS 계산 • 문헌의 특징을 추출하여 비교하는 방법 • Dotplot: 문헌의 유사도를 가시적으로 보여주는 도구 Chapter 6
6.4 마크업 언어 • 마크업(markup) • 텍스트의 포맷 방식, 구조 정보, 의미, 속성 등을 기술하는 데 사용될 수 있는 부가적인 텍스트 구문 • 예) TeX의 포맷 명령어 • 마크(mark): 태그(tag) • <시작 태그> 마크된 부분 <종료 태그> • SGML: 마크업용 표준 메타언어 • XML: 웹용 메타언어 • SGML의 부분 집합 • HTML: 웹용 마크업 언어 • SGML의 실례(instance) Chapter 6
6.4.1 SGML • SGML(표준 일반 마크업 언어, Standard Generalized Markup Language – ISO 8879) • 텍스트 마크업용 메타언어 • Goldfab 주도 그룹이 개발 • 태그에 기초하여 마크업 언어를 정의하는 규칙 제공 • 문헌 형식 정의(document type definition) • 문헌 구조를 기술 • 문헌의 구성 부분을 기술하고 명명 • 문헌의 구성 부분 사이의 관련성 정의 • SGML 문헌의 구성 • 문헌 구조 기술 • 태그로 마크된 텍스트 자체 Chapter 6
6.4.1 SGML(계속) • DTD(문헌 형식 선언: Document Type Declaration) • 문헌 형식 정의 부분을 명시 • 구성 요소나 속성의 의미, 응용 관례 • 형식적으로 표현 못하지만, • 주석(comment)을 사용하여 비공식적으로 표현 가능 • 의미적 정보는 주석이나 별도의 문서로 주어짐 • 태그 • 시작 태그: <tagname> • 종료 태그: </tagname> • 동일한 태그가 응용에 따라 다른 의미를 지닐 수 있음 • 태그의 속성(attribute) • 시작 태그 부분에 ‘attname=value’형식으로 주어짐 Chapter 6
6.4.1 SGML(계속) Chapter 6
6.4.1 SGML(계속) • SGML 포맷 • SGML은 포맷과 내용을 분리 • 포맷을 기술할 장치가 없음 • SGML 문헌에는 종종 출력 명세(포맷 방법)가 추가됨 • 출력 명세 표준 • DSSSL(Document Style Semantic Specification Language) • FOSI(Formatted Output Specification Instance) • 문헌과 스타일 정보를 연관짓는 방식을 정의 • SGML의 이용 예: TEI(Text Encoding Initiative) • 목적: 전자 텍스트 작성 및 교환에 대한 지침 제공 • SGML DTD를 통해 여러 문헌 포맷 제공 • TEI Lite가 많이 사용됨 Chapter 6
6.4.2 HTML • HTML(Hyper Text Markup Language) • SGML의 한 실례 • SGML의 관례를 준수 • 1992년에 개발, 1997년에 4.0 발표 • 대부분의 웹 문서는 HTML로 작성됨 • 하이퍼텍스트, 멀티미디어, 작고 단순한 문헌에 적합 • HTML DTD가 있으나 보통 명시적으로 참조하지는 않음 • 이미지, 오디오 같은 다른 미디어도 포함 가능 • 메타데이터 필드 제공: 특정 응용에 사용 가능 • 동적 HTML(DHTML, Dynamic HTML) • 자바 스크립트 같은 프로그램이 포함된 경우 Chapter 6
6.4.2 HTML(계속) Chapter 6
6.4.2 HTML(계속) • 단계식 스타일 시트(CSS: Cascade Style Sheets) • HTML은 문헌의 표현 스타일을 고정시키지 않음 • 저자, 예술가, 식자공이 HTML 페이지에 대해 미적 감각을 향상시키는 가시적 효과를 생성할 수 있는 강력하고도 조작하기 쉬운 방법을 제공 • 서로 다른 구성 요소의 표현 스타일을 정의하기 위해 차례로(단계적으로) 사용 가능 • 문헌의 표현 정보와 내용을 분리 • 웹 사이트 유지 단순화 • 웹의 접근성 증가 • 문제점: 스타일 시트간의 일관성 부재, 불완전성 Chapter 6
6.4.2 HTML(계속) • HTML 4.0의 기능 및 용도 • 스타일 시트, 국제화, 프레임, 풍부한 테이블과 폼(form), 장애인을 위한 접근 연산 등을 지원 • 순수(strict) HTML • 모든 표시 정보를 CSS에 맡기고 단지 표시 방법과는 무관한 마크업에만 관심을 둠 • 과도기적(transitional) HTML • CSS를 이해하지 못하는 과거의 브라우저가 페이지를 판독할 경우를 위해 모든 표시 자질을 사용 • 프레임셋(frameset) HTML • 브라우저의 윈도우를 프레임으로 분할할 때 사용 Chapter 6
6.4.2 HTML(계속) • HTML의 제약 • 데이터를 매개 변수화하거나(parameterize) 의미 자질을 부여하기 위해 사용자가 자신의 태그나 속성을 명시하는 것을 허용 못함 • 데이터베이스 스키마나 객체지향 계층 구조를 표현하기 위한 중첩 구조의 명시를 지원 못함 • 데이터를 소비하는 응용 프로그램이 데이터를 삽입할 때, 그 구조적 유효성 검사를 허용하는 유형의 언어 명세를 지원 못함 • SGML, HTML, XML • SGML은 HTML에서 결여된 확장성, 구조화, 유효성 처리 가능 • SGML은 웹 응용에서 불필요한 선택 자질 포함 • 비용/이득 비율이 나쁨 • 보다 단순한 메타 언어인 XML 개발 Chapter 6
6.4.3 XML • XML(eXtensible Markup Language) • SGML을 단순화한 부분 집합: 일종의 메타 언어 • HTML의 제약을 많이 제거 • 의미 마크업 허용 • 새로운 태그 정의 가능 • 복잡한 구조 정의 허용 – 예) 제한이 없는 중첩 구조 • 데이터의 유효성 검사 기능 • 자바 스크립트나 프로그램 인터페이스를 통한 작업 대체 가능 • 보다 엄격한 마크업 구문 요구 • 종결 태그 생략 불가 • 대소문자 구분 • 모든 속성 값은 인용 부호로 싸야 함 Chapter 6
6.4.3 XML(계속) Chapter 6
6.4.3 XML(계속) • XML의 DTD • DTD의 사용이 선택적 • DTD가 없으면, 분석 중에 태그 수집 • 태그 이름에 중의성이 있으면, 이름 공간(namespace)을 사용하여 해결 가능 • 확장 스타일 시트 언어(XSL: Extensible Style sheet Language) • CSS에 대응 • 고도로 구조적임 • XML 문서 변환 및 스타일 부여 기능 • 예) 표 내용의 자동 추출 • 확장 링크 언어(XLL: Extensible Linking Language) • 외부/내부 링크등 여러 유형의 링크 정의 Chapter 6
6.4.3 XML(계속) • XML의 활용 • 수학 마크업 언어(MathML: Mathematical Markup Language) • 수식 표현과 수학적 표현의 의미를 나타내기 위한 두 가지 태그 집합 • 동기화 멀티미디어 통합 언어(SMIL: Synchronized Multimedia Integration Language) • 웹에서 다양한 유형의 객체에 대해 위치와 활성 시간을 명시할 수 있는 멀티미디어 표현의 스케줄을 나타낼 수 있는 선언적 언어 • 자원 기술 형식(Resource Description Format) • RDF를 사용하여 기술해야 하는 XML용 메타데이터 정보 Chapter 6
6.5 멀티미디어 • 멀티미디어 • 여러 유형의 매체에서 기원한 다양한 디지털 데이터 취급 • 매체 유형: 텍스트, 오디오, 이미지, 비디오 • 용량, 포맷, 처리 제약 등에서 차이가 있음 • 예) 오디오, 비디오는 실시간 제약 조건 요구 • 매체 유형에 따라 서로 다른 이진 포맷 필요 Chapter 6
6.5.1 포맷 • 이미지 포맷 • XBM, BMP, PCX: 단순한 비트맵 포맷 • 많은 기억 공간 요구 • GIF(Graphic Interchange Format): Compuserve • 압축 저장 형식 • JPEG(Joint Photographic Experts Group) 포맷 • 손실 압축 • TIFF(Tagged Image File Format) • 문서 교환용 • TGA(Truevision Targa image file) • 비디오 게임 보드와 관련 • PNG(Portable Network Graphics) • 1996년에 인터넷용의 비트맵 이미지 포맷으로 제안 Chapter 6
6.5.1 포맷(계속) • 오디오 포맷 • AU, WAVE • MIDI: 전자 악기와 컴퓨터 사이의 음악 교환용 표준 • Real Audio, CD 포맷: 오디오 도서관용으로 활용 • 애니메이션/동영상 포맷 • MPEG(Moving Pictures Expert Group) 포맷 • 기본 이미지를 기준으로 변화를 코딩 • 압축 지원, 관련 오디오 포함 • AVI, FLI • QuickTime: Apple • 압축 지원, 관련 오디오 포함 Chapter 6
6.5.2 텍스트 이미지 • 텍스트 이미지(textual image) • 텍스트를 포함하는 문헌의 이미지 • 보통 스캔하여 만듬 • 많은 부분이 텍스트이므로 검색 및 효율적인 압축이 가능 • 텍스트 심볼을 추출하여 검색 및 압축 향상 가능 • 텍스트 이미지 검색 • 이미지를 서술하는 키워드 집합 사용 • OCR을 사용하여 텍스트 인식 • 오인식 문제로 인해 근사 탐색이 적합, 하지만 이 경우 속도 저하 • 추출된 심볼을 통해 이미지 검색이나 순차 검색 기법 적용 Chapter 6
6.5.3 그래픽과 가상 현실 • 컴퓨터 그래픽 메타파일 (CGM: Computer Graphic Metafile) • 그래픽 객체와 관련 속성을 개방적으로 교환하기 위해 제정 • 장치 독립적인 방법으로 그래픽 데이터 저장 • 벡터 그래픽, 래스터(raster) 그래픽, 텍스트 표현 가능 • 메타파일: 그래픽 성분의 집합 • 가상 현실 모델 언어(VRML: Virtual Reality Modeling Language) • 3D 객체 세계 기술을 위한 파일 포맷 • Silicon Graphics OpenInventor 파일 포맷의 한 부분 • 3D 그래픽과 멀티미디어가 통합된 경우까지 고려 • 응용 영역 • 공학, 과학의 시각화, 멀티미디어 프리젠테이션, 오락 • 교육용 타이틀, 웹 페이지, 공유 가상 세계 • 사실상 웹의 표준 모델링 언어 Chapter 6
6.5.4 HyTime • HyTime(Hypermedia/Time-based Structuring Language) • 멀티미디어 문헌 마크업을 위해 정의된 표준(ISO/IEC 10744) • SGML 구조 • 코딩된 문헌의 표현에 독립적인 구조 • HyTime 구성체를 사용하는 개별 문헌 모델에 대해 DTD 작성 허용 • 몇몇 메타 DTD를 제공 • 새로운 멀티미디어 마크업 언어의 설계가 용이 • 그래픽 인터페이스, 사용자의 항해(navigation) 상호작용, 시간대와 화면상의 미디어 배치를 직접 명시하지는 않음 • 하이퍼미디어 개념 • 문헌 객체의 복잡한 위치 표현 • 문헌 객체 사이의 관계(하이퍼링크) • 문헌 객체 사이의 수치적 조정 관계 Chapter 6
6.5.4 HyTime(계속) • HyTime 구조 • 링크 및 주소 설정 기본 구조 • 하이퍼링크의 구문과 의미를 담당 • 스케줄 구조 • 기본 구조에서 유도 • 임의의 복잡한 하이퍼미디어 구조에 대한 추상적 프리젠테이션 정의 • 음악과 대화식 프리젠테이션을 포함 • 표현 변환(rendition) 구조 • 스케줄 구조의 응용 • 표현 변환 규칙을 적용하여 새로운 스케줄의 생성을 정의 Chapter 6
6.5.4 HyTime(계속) • HyTime의 응용 • 표준 음악 기술 언어(SMDL: Standard Music Description Language) • 음악 정보를 단독으로 혹은 다른 매체와 함께 표현하는 구조 • 멀티미디어의 시간적 순차화 정보 지원 • 대화 문헌용 메타파일(MID: Metafile for Interactive Documents) • SGML과 HyTime에 기반을 둔 공통 교환 구조 • 다양한 저작 시스템으로부터 데이터를 취함 • 사람의 개입이 최소인 형태로 상이한 프리젠테이션 시스템에서 보여주기 위해 구조화함 Chapter 6
6.6 연구 동향 및 쟁점 • 웹 언어의 분류 Chapter 6
6.6 연구 동향 및 쟁점(계속) • 주요 동향 • 주로 웹을 중심으로 적용 • 다른 작업 결과들의 통합과 집중 • 개방 문헌 구조(ODA: Open Document Architecture) • SGML의 유럽 대안 표준 (ISO 8613) • 전자적으로 문헌을 공유하기 위해 설계 • 논리적 구조, 배치, 내용(벡터와 래스터 그래픽 포함)을 정의 • ODA 파일의 형태 • 포맷된(formatted) 형태: 편집 불가 • 내용이나 배치에 관한 정보를 지닐 수 없음 • 처리 가능(processable) 형태: 편집 가능 • 논리적 정보를 지닐 수 있음 • 포맷된 처리 가능(formatted processable) 형태: 편집 가능 • 모든 정보를 지닐 수 있음 • 요즘은 ODA를 많이 사용하지 않음 Chapter 6
6.6 연구 동향 및 쟁점(계속) • 최근 개발 동향 • 문헌 객체 모델(DOM: Document Object Model)에 대한 정의 • DOM은 자바 같은 프로그래밍 언어로부터 HTML과 XML 객체를 조작하기 위해 상호 운영 가능한 클래스와 메소드의 집합을 제공 • VRML과 DHTML의 통합 • HTML과 웹 브라우저에 대해 단계식 스타일 시트와 문헌 객체 모델을 포함하는 개선된 자질과 구조 확장을 제공 • STEP(Standard Exchange for Product Data format)과 SGML의 통합 • STEP은 상품 데이터 포맷을 다룸 • MARC • MARC를 XML로 변환 • DTD 정의를 통해 MARC를 SGML로 변환 • CGM: XML로 분석 가능한 새로운 코딩 방법 개발 • 웹 연구자와 상업적 판매자에게 주목을 받고 있음 Chapter 6
6.6 연구 동향 및 쟁점(계속) • 최근 개발 동향(계속) • 기타 새로운 제안 • DML(Signed Document Markup Language) • VML(Vector Markup Language) • PGML(Precision Graphics Markup Language) • 포스트스크립트와 PDF의 2D 이미지 모델에 기반 Chapter 6