270 likes | 591 Views
1. 정보처리시스템 모형. 2. 색인의 모형 . 1. 3. 색인의 모형 : 시소러스의 위치. 쉬어가기. 쉬어가기. 기초지식 (2 진수와 배열 ). 이진수 (binary number) 란 0 과 1 로 표현한 수 . 'binary' 란 2 를 기본으로 한다는 의미 . 십진수 202 는 2 가 1 개 , 0 이 10 개 , 2 가 100 개로 된 數임 . 이진수 '01000001' 는 다음과 같이 표현될 수 있음. 0. 1. 0. 0. 0. 0. 0. 1.
E N D
기초지식(2진수와 배열) • 이진수(binary number)란 0과 1로 표현한 수. • 'binary'란 2를 기본으로 한다는 의미. • 십진수 202는 2가 1개, 0이 10개, 2가 100개로 된 數임. • 이진수 '01000001'는 다음과 같이 표현될 수 있음. 0 1 0 0 0 0 0 1 1 × 20 = 1 0 × 21 = 0 0 × 22 = 0 0 × 23 = 0 0 × 24 = 0 0 × 25 = 0 1 × 26 = 64 0 × 27 = 0 65
컴퓨터는 심볼, 문자, 숫자 등을 표현하기 위한 이진패턴을 표준으로 • 정해 두고 있음. • 표준을 ASCII(American Standard Code for Information Interchange)라함. • 이 표준코드는 '01000001'(십진수로 65)이란 이진패턴(비트패턴)은 • 문자 'A'를 나타냄. • 모든 문자는 코드의 값을 가지며 이 코드값의 크기로 배열순서가 결정됨. • 기초지식(부울 대수) • 부울(Boole, George, 1815-1864)은 영국의 수학자, 논리학자. • 논리학을 대수학으로 취급하는 기호이론학(부울대수학)의 창시자 • 기본이론 • x가 흰 것을, 기호 y가 양을 나타낸다고 하면 논리곱의 기호 xy는 • x와 y의 양쪽에 속하는 것, 즉 “흰양”을 나타냄. • 기호 +는 “또는”을 나타냄. • z가 유럽인을, x와 y가 각각 남자와 여자를 나타낸다고 하면 • 대수학에서의 분배법칙 z(x+y)=zx+zy는 “유럽인 남여”가 • “유럽인 남자”와 “유럽인 여자”로 나뉠 수 있다는 것을 의미 • 대수학에서 xy=x성립하기 위해서는 x=0 또는 y=1일 때이지만 • Boole의 이론에서는 이것이 포함관계를 나타냄. 즉,“x가 독일인, • y가 유럽인을 나타낸다고 하면 유럽인이면서 독일인인 사람은 • 독일인이다”라는 의미임. • x=y인 경우도 있으므로 이 때는 x2 = x가 되며 언제나 성립함. • 위 식은 x2-x=0, x-x2=0 즉, x(1-x)=0.이 식은 x에 속하면서 x에 • 속하지 않는 것은 존재하지 않는다는 것을 나타냄.
다음의 법칙이 성립한다. 결합법칙: (x∨y)∨z=x∨(y∨z), (x‧y)‧z=x‧(y‧z) 교환법칙: x∨y=y∨x, x‧y=y‧x 분배법칙: x∨(y‧z)=(x∨y)‧(x∨z), x‧(y∨z)=(x‧y)∨(x‧z)
기초지식(논리 대수) • 부울대수를 논리대수라고도 하지만 일반적으로 0과 1의 두 값을 취급하는 대수를 논리대수(logical algebra)라 함. • 논리대수는 여러가지 논리연산이 있으며 논리연산기호로 정의됨. • 논리곱(and ; logical product ; intersection ; disjunction ; 論理곱 ; 論理積 등) • 논리합(or ; logical sum ; union ; conjunction ; inclusive-or ; 論理合; 論理和 등) • 논리차(not ; logical difference ; negation ; 論理差 ; 否定 등) • 배타적 논리화(xor ; ex-or ; eor ; exclusive-or ; 排他的 論理合 ; 排他的 論理和 등) • 노어(nor ; Pierce operation ; 피어스연산 등) • 난드(nand) • 논리연산의 결과
기초지식(논리연산) • 논리적(and) • x, y가 함께 1일 때만 1, 그 이외에는 0이 되는 논리연산 • 연산기호로는 ‧이나 ∧을 사용하여 x ‧ y나 x ∧ y로 표현 • 일반의 곱셈과 같이 기호 ‧를 생략하고 xy나, *기호를 사용하여 x * y로 나타내기도 함.
논리화(or) • x, y의 어느 한쪽이 1이면 1이 되는 논리연산 • 연산기호로 ∨을 사용하여 x ∨ y로 표현하거나 덧셈기호 와 혼동되지 않을 때 x + y 로 나타내는 경우도 많다. • 일반의 곱셈과 같이 기호 ‧를 생략하고 xy나, *기호를 사용하여 x * y로 나타내기도 함. • 논리차(not) • not x로 쓰며, x가 1일 때 not x는 0, x가 0일 때 not x 는 1인 논리연산 • x not y나 -기호를 사용하여 x - y로 나타내기도 함.
배타적 논리화(xor) • x, y 어느 한쪽이 1일때만 1, 나머지는 0이 되는 논리연산 • ⊕기호를 이용하여 x ⊕ y로 표현하며 and, or, not을 이용하여 x ⊕ y = not x ‧ y ∨ x ‧ not y로 표현가능. • 난드(nand) • 연산기호로서는 |를 사용하여 (x | y)와 같이 기술함. • 난드는 and, or, not을 이용하여 (x | y) = not(x ‧ y) = not x ∨ not y로 표현가능 • and를 부정하는 연산이며 대응되는 연산은 노어(nor) 임.
노어(nor) • 노어는 or를 부정하는 연산임. • 연산기호로서는 ↓를 사용하여 (x ↓ y)와 같이 기술한다. • 노어는 and, or, not을 이용하여 (x ↓ y) = not(x ∨ y) = not x ‧ not y로 표현할 수 있다.
문헌번호화일 4. 도치화일과 정보검색 서지화일 색인화일 1 and 2
도치파일이란 서지정보를 모두 스캐닝할 수 없으므로 주요어를 • 추출하여 색인어로 삼고 어느 색인어가 어느 문헌의 색인으로 • 사용되었는가를 바로 알 수 있도록 색인어를 축으로 배열한 파일을 말함. • 색인파일은 사전파일(dictionary file)이라고 하며 검색 가능한 색인어의 • 자모순리스트로서 2종류의 정보가 수록되어 있다. • 하나는 그 색인어가 포함되어 있는 문헌의 문헌번호가 기억되어 있는 • 디스크상의 어드레스이고 • 또 하나는 해당 색인어가 포함되어 있는 문헌의 건수에 대한 정보이다. • 위 예에서 '도서관'이란 색인어가 192건의 문헌에, • '자동화'란 색인어가 50건의 문헌에 부여되어 있음을 나타내고 있다. • 색인파일은 저자, 청구기호, 서명, 주제명, 출판사 등의 필드를 • 통합하거나 분리하여 필요에 따라 여러 가지 색인파일을 만들 수 있으며, • 색인파일을 디소러스형식으로 구성하여 상/하위개념어도 디스플레이하게 • 할 수 있다. • 문헌번호파일은 문헌번호도치파일, 포스팅역파일(inverted file of • postings)이라고도 함. • 색인파일에 있는 각 색인어가 부여된 모든 문헌의 문헌번호를 갖고 있다. • '도서관'에 해당되는 문헌번호는 「57, 82, 94, 108, 176, 224, ... • 문헌번호파일은 색인파일과 합할 수도 있으나 문헌의 건수가 많아지게 되면 • 색인어에 따라 해당문헌수가 달라 색인어파일의 각 레코드길이에 큰 차이가 • 발생되므로 문헌번호만을 따로 구성하는 것이 바람직. • 문헌번호를 분리함으로써 색인파일과 문헌번호파일을 고정길이레코드로 • 처리 가능하게 됨. • 서지파일을 제외한 모든 도치색인파일은 빈번하게 액세스되며 갱신되므로 • 고정길이레코드가 아니면 처리에 많은 시간과 노력을 요하게 됨.
서지파일은 데이터파일(data file)이라고도 하며 • 서지정보를 문헌번호로 배열한 파일임. • 이 파일은 여러 가지 서지데이터와 초록이나 색인어를 가질 수 있음. • 검색보조기능(검색수단) 용어절단 탐색(일치검색) • 절단기능은 절단하지 않은 나머지가 같은 것을 검색하는 것임. • 이는 어간이나 어미을 끊어버리고 나머지로 검색하기 위한 것. • 절단에는후방절단(전방일치), 전방절단(후방일치)등이 사용됨. • 대부분의 경우 후방절단을 제공함. • 절단기능을 위해별표(*)나 퍼센트(%)가 많이 사용됨. • 검색어가 comput*라고 하면, computer, compute, computing • 등 comput로 시작하는 단어를 가리김. • 정확하게 일치하는 것으로 하는 검색을완전검색또는완전일치검색, • 일치검색이라고 함. • Whole words, Complete words, Exact, 단독찾기 등으로 불림.
제한 탐색 • 특정필드만을 탐색대상필드로 제한하는 필드지정법을 사용하거나 • 검색된 문헌들을 출판년, 언어, 문헌형식 등에 의해 2차적 탐색하는 것 비교 탐색 • 대소관계를 나타내는 연산자를 사용하여 특정 필드값을 비교하여 • 탐색어를 만족하는 문헌을 찾아내는 기법 • 연산기호는 =, >, <, <=, >=, NOT= 등이 사용될 수 있음. • 이 기법은 주로 발행연도 탐색에 사용됨. 본문 탐색(인접 탐색) • 탐색어들이 한 필드나 한 문장 속에 인접하여 출현하는 문헌검색. • 탐색어들의 순서를 고려하는 것과 고려하지 않는 방식이 있음. • DIALOG에서 연산자 W는 순서고려, F는 순서고려치 않는 연산자임. • 일반적으로 인접정도를 단어수로 판단함.
불리안 검색의 문제점 • 탐색어로 표현되는 각 개념의 상대적인 중요도를 나타내지 못한다. • 문헌과 탐색어와의 유사도의 크기순으로 검색된 문헌을 출력할 수 없다. • 완전일치검색이므로 탐색문과 완전히 일치되는 문헌만 검색되므로 부분적으로 일치하는 문헌은 검색될 수 없다. • 해결방안 • 가중치를 불리안검색기법에 결합시킨 검색기법 • 색인어, 탐색어 모두, 양자중 하나만 가중치부여 • 일반적으로 색인어에만 가중치-개념의 중요도 표현 • 정활율 향상 수단 예시: A and B and C를 만족시키는 문헌들 가운데 • 특정색인어의 가중치가 일정치 이상(A>3인 것) • 가중치의 합이 일정치 이상인 것(A+B+C > 8)
5. 전거 통제 5.1 전거 통제의 필요성 • 색인작업이란 색인자와 이용자간의 검색어에 대한 약속임. • 「이광수」라고 색인했는데 「춘원」으로 찾는다면 양자의 약속은 • 이행될 수 없을 것임. • 왜냐하면 컴퓨터는 기호(패턴)를 비교하며 검색하는 것이지 • 기호가 표현하는 개념으로 검색하는 것은 아니기 때문임. • 서지(목록)정보(bibliographic information)는 검색의 실마리를 제공하고 • 대상이 되는 특정자료를 정확히 식별할 수 있는 정보를 제공하여 • 이용자를 원자료로 손쉽게 인도하는 것을 목적으로 함. • 목록규칙(cataloging rules)은 바로 이 목적을 달성하기 위하여 • 도서관학자, 정보처리전문가, 서지학자, 출판관계자들이 오랜 동안의 • 연구결과라 할 수 있음. • 목록규칙에서는 다음과 같은 중요한 원칙을 따르고 있음. • 「서명사항, 저자사항, 판차사항, 발행사항, 총서사항은 • 그 자료에 씌어진 언어나 문자 그대로 기술한다. • 오기와 오식까지도 그대로 기술하고 필요할 경우 보충 해주며, • 띄어쓰기도 씌어진 그대로의 것을 원칙으로 한다」 • 이로부터 만들어진 색인은 이용자가 선택하는 검색어와 다를 수 있다.
색인된 표목을 이용자가 다르게 접근할 가능성은 광범위함. • 인명, 서명, 주제명, 지역명, 단체명, 총서명 등에 대하여 • 모든 표현을 수집하고 각각의 경우에 따라 • 대표표현(전거형: authority)과 이형(변형: variant)을 선정하는 일과 • 처리방법의 연구가 서지정보처리를 위해 시급을 요함. • 예컨대 단순히 인명만을 대상으로 했을 때 표현될 수 있는 • 경우를 보면 다음과 같이 다양하다. • 이 중에서 어느 것을, 어디까지를 액세스포인트(색인어)로 채택할 • 것인가를 우리는 결정해야 할 것이다 • 완전한 개인명(법에 등록된 이름):李光洙, Mary Roverta Smith • 칭호:세종대왕 ; Prime Minister of Lower Slobbovia • 약어:세종, Mary R. Smith, M. Roverta Smith, M.R. Smith • 별명(많이 알려진): Bobbie, Buckie, Cuddles • 호(필명, 자, 시호, 아호 등):春園, Agent 009, M.R.S., Jane • Doe • 공식 이름(상기 이름들에 대하여): Mrs. John Young, • The Duchess of Worcester • 한자의 한글음:이광수(李光洙), 삼도유기부(三島由紀夫), • 빙우란(憑友蘭), 모택동(毛澤東) • 외국인명의 한글표기:마크 트웨인(Mark Twain), 미시마 • 유키오(みしまゆきお - 三島由紀夫), • 세익스피어(William Shakespeare) • 외국인명의 다른 한글표기:마-크 트웨인(Mark Twain), • 미시마 유끼오(みしまゆきお - 三島由紀夫), • 쉐익스피어(William Shakespeare) ▯
한글표기 인명의 로마자번자: Doo Young Lee(李斗榮) • 비로마자 인명의 자국어 표현:みしまゆきお(三島由紀夫), • А.П. Чехов(Anton Cechov) • 비로마자 인명의 자국음에 대한 로마자번자: Yukio • Mishima(三島由紀夫), Yu-lan Feng(憑友蘭), • Anton Cechov(А.П. Чехов) • 비로마자 인명의 다른 로마자 표현: Anton Cechov, • Anton Tchekhoff, Anton Tchekhov, Anton Cexov, • ... (А.П. Чехов) • 도치명(姓/名으로의 도치): Mao, Tse-tung; • Mao Tse-tung(毛澤東), Lee, Doo Young; • Lee Too Young(李斗榮) 모든 색인은 데이터가 만들어진 후에도 결정할 수 있으나 전거만은 입력하기 전에 결정되어 있거나 입력시에 결정해야 하기 때문에 전거 데이터 없이는 불완전한 데이터가 된다는 점은 근본적인 문제를 야기한다.
5.1 전거 통제의 정의 • 전거작업에 의해 전거데이터(전거레코드, 전거파일)가 만들어지며 • 이것을 이용하여 전거통제가 행해진다. • 전거레코드, 전거파일, 전거작업, 전거통제 등에 대한 이해가 요구됨. • 전거 작업 • 액세스포인트형의 결정과 결정된 정보를 기록하는 작업 • 다음의 다섯가지 과정으로 구성됨. • 전거를 신규로 작성하는 과정(전거레코드와 전거파일의 작성). • 작성된 전거레코드群을 하나의 전거파일내에 모으는 과정. • 전거파일을 서지파일과 연결함으로써 전체로서 전거시스템을 형성하는 과정. • 전거파일과 전거시스템을 유지관리하는 과정. • 전거파일과 전거시스템을 평가하는 과정.
전거 통제 • 서지파일에서 표목으로 사용되고 있는 이름, 주제, 통일서명 등의 • 전거형이 일관성있게 사용되고 유지되도록 통제하는 방법이다. • 필요한 참조와 함께 전거형을 기록한 전거파일과 기계가독레코드파일 • 에서는 전거파일과의 정합성을 유지하기 위하여 • 모든 레코드를 자동적으로 갱신할 수 있는 메카니즘을 포함한다. • 전거통제의 목적 • 모든 정보는 • 그 정보에 대한 액세스포인트, • 그 정보의 서지기술(bibliographic description), • 그 정보의 소재정보 3가지로 구성됨. • 서지기술은 기술된 자료의 대체물이다. • 전거통제란 액세스포인트를 관리하여 • 정보를 찾는 기능(finding function)과 • 모으는 기능(assembling function)을 직접적으로 지원하며, • 이 중 찾는 기능보다 모으는 기능과 더 밀접하게 관련된다
'Dostoevski, Fedor Mikhailovich‘ 'Maugham, William Somerset‘이 저작에 실제로 표현된 예 Dostoevski, Fedor Mikhailovich. 1821-1881 Dostoievski, F. M. Dostoyevsky, Fyodor 도스토예브스키, 훼더 미카이로빗치 도스또옙스키 도스토예프스키 도스또예브스끼 도스토엡스키 도스또에프스키 도스토에프스키이 또스토이에프스키 또스또예프스키 또스또예브스키 또스또에프스키
Maugham, William Somerset, 1874-1965 모옴 모옴, 서머셋 모옴, 서머셋셑 모옴, 써머싯 모옴, 윌리암 서머셋셑 모옴, 윌리엄 서머셋 모움, 서머싯 • 정보의 탐색시 여러 가지 다른 표현중의 하나를 사용하는 경우 • 그렇게 기술된 정보만이 탐색될 것이다. • 그러나 전거통제파일을 유지하며 탐색시 전거파일을 이용한다면 • 상기 표현 중 어느 형식으로 탐색하더라도 전거레코드내에 표기된 • 전체 자료가 망라되어 탐색될 것이다. • 왜냐하면 상기 여러 가지 형식중 하나를 전거로 채택하여 • 표목(색인어)으로 삼아 색인하고 있으며 • 나머지를 표목에 대하여 '보라참조'로 안내하거나 • 직접 해당 표목 아래 모아져 있기 때문임. • 즉, 서지데이터에는 전거인 표목만 기술, 그변형은 전거파일에 기록유지 • 색인어는 표목들이 되지만 탐색시 항상 전거파일을 참조하여 전거를 확인 • 그 전거로 탐색하게 함. 새로운 변형이 출현했을 때는 서지데이터베이스를 • 갱신할 필요 없이 전거파일의 전거형 아래 기록함으로 됨.
통제어휘(시소러스) BT (broader term) → 상위개념어 BTG (broader term/generic) → 상위개념어/屬 BTI (broader term/instance) → 상위개념어/사례 BTP (broader term/partial) → 상위개념어/부분 NT (narrower term) → 하위개념어 NTG (narrower term/generic) → 하위개념어/屬 NTI (narrower term/instance) → 하위개념어/사례 NTP (narrower term/partial) → 하위개념어/부분 RT (related term) → 관련어 SN (scope note) : 범위주기 TT (top term) : 최상위개념. 하위개념을 갖는 최상위개념을 나타냄. UF (used for혹은 use for) : 비우선어. ~대신 사용하라 USE (use) : 비우선어에서 우선어로의 참조. ~를 사용하라 ENG (각 언어의 코드) 말(도량형) [斗]“측정단위, 단위, 그릇, ...” 말(동물) [馬] horse“생물, 가축, 짐승, ...” 말(식물) [藻] pondweed“풀, 물풀, 해초, ...” 말(언어) [言語] language“소리, ...” 말(장기) chessman“長技, 將棋, 臟器, ...”