1 / 27

1. 정보처리시스템 모형

1. 정보처리시스템 모형. 2. 색인의 모형 . 1. 3. 색인의 모형 : 시소러스의 위치. 쉬어가기. 쉬어가기. 기초지식 (2 진수와 배열 ). 이진수 (binary number) 란 0 과 1 로 표현한 수 . 'binary' 란 2 를 기본으로 한다는 의미 . 십진수 202 는 2 가 1 개 , 0 이 10 개 , 2 가 100 개로 된 數임 . 이진수 '01000001' 는 다음과 같이 표현될 수 있음. 0. 1. 0. 0. 0. 0. 0. 1.

Download Presentation

1. 정보처리시스템 모형

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 1. 정보처리시스템 모형

  2. 2. 색인의 모형. 1

  3. 3. 색인의 모형 : 시소러스의 위치

  4. 쉬어가기

  5. 쉬어가기

  6. 기초지식(2진수와 배열) • 이진수(binary number)란 0과 1로 표현한 수. • 'binary'란 2를 기본으로 한다는 의미. • 십진수 202는 2가 1개, 0이 10개, 2가 100개로 된 數임. • 이진수 '01000001'는 다음과 같이 표현될 수 있음. 0 1 0 0 0 0 0 1 1 × 20 = 1 0 × 21 = 0 0 × 22 = 0 0 × 23 = 0 0 × 24 = 0 0 × 25 = 0 1 × 26 = 64 0 × 27 = 0 65

  7. 컴퓨터는 심볼, 문자, 숫자 등을 표현하기 위한 이진패턴을 표준으로 • 정해 두고 있음. • 표준을 ASCII(American Standard Code for Information Interchange)라함. • 이 표준코드는 '01000001'(십진수로 65)이란 이진패턴(비트패턴)은 • 문자 'A'를 나타냄. • 모든 문자는 코드의 값을 가지며 이 코드값의 크기로 배열순서가 결정됨. • 기초지식(부울 대수) • 부울(Boole, George, 1815-1864)은 영국의 수학자, 논리학자. • 논리학을 대수학으로 취급하는 기호이론학(부울대수학)의 창시자 • 기본이론 • x가 흰 것을, 기호 y가 양을 나타낸다고 하면 논리곱의 기호 xy는 • x와 y의 양쪽에 속하는 것, 즉 “흰양”을 나타냄. • 기호 +는 “또는”을 나타냄. • z가 유럽인을, x와 y가 각각 남자와 여자를 나타낸다고 하면 • 대수학에서의 분배법칙 z(x+y)=zx+zy는 “유럽인 남여”가 • “유럽인 남자”와 “유럽인 여자”로 나뉠 수 있다는 것을 의미 • 대수학에서 xy=x성립하기 위해서는 x=0 또는 y=1일 때이지만 • Boole의 이론에서는 이것이 포함관계를 나타냄. 즉,“x가 독일인, • y가 유럽인을 나타낸다고 하면 유럽인이면서 독일인인 사람은 • 독일인이다”라는 의미임. • x=y인 경우도 있으므로 이 때는 x2 = x가 되며 언제나 성립함. • 위 식은 x2-x=0, x-x2=0 즉, x(1-x)=0.이 식은 x에 속하면서 x에 • 속하지 않는 것은 존재하지 않는다는 것을 나타냄.

  8. 다음의 법칙이 성립한다. 결합법칙: (x∨y)∨z=x∨(y∨z), (x‧y)‧z=x‧(y‧z) 교환법칙: x∨y=y∨x, x‧y=y‧x 분배법칙: x∨(y‧z)=(x∨y)‧(x∨z), x‧(y∨z)=(x‧y)∨(x‧z)

  9. 기초지식(논리 대수) • 부울대수를 논리대수라고도 하지만 일반적으로 0과 1의 두 값을 취급하는 대수를 논리대수(logical algebra)라 함. • 논리대수는 여러가지 논리연산이 있으며 논리연산기호로 정의됨. • 논리곱(and ; logical product ; intersection ; disjunction ; 論理곱 ; 論理積 등) • 논리합(or ; logical sum ; union ; conjunction ; inclusive-or ; 論理合; 論理和 등) • 논리차(not ; logical difference ; negation ; 論理差 ; 否定 등) • 배타적 논리화(xor ; ex-or ; eor ; exclusive-or ; 排他的 論理合 ; 排他的 論理和 등) • 노어(nor ; Pierce operation ; 피어스연산 등) • 난드(nand) • 논리연산의 결과

  10. 기초지식(논리연산) • 논리적(and) • x, y가 함께 1일 때만 1, 그 이외에는 0이 되는 논리연산 • 연산기호로는 ‧이나 ∧을 사용하여 x ‧ y나 x ∧ y로 표현 • 일반의 곱셈과 같이 기호 ‧를 생략하고 xy나, *기호를 사용하여 x * y로 나타내기도 함.

  11. 논리화(or) • x, y의 어느 한쪽이 1이면 1이 되는 논리연산 • 연산기호로 ∨을 사용하여 x ∨ y로 표현하거나 덧셈기호 와 혼동되지 않을 때 x + y 로 나타내는 경우도 많다. • 일반의 곱셈과 같이 기호 ‧를 생략하고 xy나, *기호를 사용하여 x * y로 나타내기도 함. • 논리차(not) • not x로 쓰며, x가 1일 때 not x는 0, x가 0일 때 not x 는 1인 논리연산 • x not y나 -기호를 사용하여 x - y로 나타내기도 함.

  12. 배타적 논리화(xor) • x, y 어느 한쪽이 1일때만 1, 나머지는 0이 되는 논리연산 • ⊕기호를 이용하여 x ⊕ y로 표현하며 and, or, not을 이용하여 x ⊕ y = not x ‧ y ∨ x ‧ not y로 표현가능. • 난드(nand) • 연산기호로서는 |를 사용하여 (x | y)와 같이 기술함. • 난드는 and, or, not을 이용하여 (x | y) = not(x ‧ y) = not x ∨ not y로 표현가능 • and를 부정하는 연산이며 대응되는 연산은 노어(nor) 임.

  13. 노어(nor) • 노어는 or를 부정하는 연산임. • 연산기호로서는 ↓를 사용하여 (x ↓ y)와 같이 기술한다. • 노어는 and, or, not을 이용하여 (x ↓ y) = not(x ∨ y) = not x ‧ not y로 표현할 수 있다.

  14. 문헌번호화일 4. 도치화일과 정보검색 서지화일 색인화일 1 and 2

  15. 도치파일이란 서지정보를 모두 스캐닝할 수 없으므로 주요어를 • 추출하여 색인어로 삼고 어느 색인어가 어느 문헌의 색인으로 • 사용되었는가를 바로 알 수 있도록 색인어를 축으로 배열한 파일을 말함. • 색인파일은 사전파일(dictionary file)이라고 하며 검색 가능한 색인어의 • 자모순리스트로서 2종류의 정보가 수록되어 있다. • 하나는 그 색인어가 포함되어 있는 문헌의 문헌번호가 기억되어 있는 • 디스크상의 어드레스이고 • 또 하나는 해당 색인어가 포함되어 있는 문헌의 건수에 대한 정보이다. • 위 예에서 '도서관'이란 색인어가 192건의 문헌에, • '자동화'란 색인어가 50건의 문헌에 부여되어 있음을 나타내고 있다. • 색인파일은 저자, 청구기호, 서명, 주제명, 출판사 등의 필드를 • 통합하거나 분리하여 필요에 따라 여러 가지 색인파일을 만들 수 있으며, • 색인파일을 디소러스형식으로 구성하여 상/하위개념어도 디스플레이하게 • 할 수 있다. • 문헌번호파일은 문헌번호도치파일, 포스팅역파일(inverted file of • postings)이라고도 함. • 색인파일에 있는 각 색인어가 부여된 모든 문헌의 문헌번호를 갖고 있다. • '도서관'에 해당되는 문헌번호는 「57, 82, 94, 108, 176, 224, ... • 문헌번호파일은 색인파일과 합할 수도 있으나 문헌의 건수가 많아지게 되면 • 색인어에 따라 해당문헌수가 달라 색인어파일의 각 레코드길이에 큰 차이가 • 발생되므로 문헌번호만을 따로 구성하는 것이 바람직. • 문헌번호를 분리함으로써 색인파일과 문헌번호파일을 고정길이레코드로 • 처리 가능하게 됨. • 서지파일을 제외한 모든 도치색인파일은 빈번하게 액세스되며 갱신되므로 • 고정길이레코드가 아니면 처리에 많은 시간과 노력을 요하게 됨.

  16. 서지파일은 데이터파일(data file)이라고도 하며 • 서지정보를 문헌번호로 배열한 파일임. • 이 파일은 여러 가지 서지데이터와 초록이나 색인어를 가질 수 있음. • 검색보조기능(검색수단) 용어절단 탐색(일치검색) • 절단기능은 절단하지 않은 나머지가 같은 것을 검색하는 것임. • 이는 어간이나 어미을 끊어버리고 나머지로 검색하기 위한 것. • 절단에는후방절단(전방일치), 전방절단(후방일치)등이 사용됨. • 대부분의 경우 후방절단을 제공함. • 절단기능을 위해별표(*)나 퍼센트(%)가 많이 사용됨. • 검색어가 comput*라고 하면, computer, compute, computing • 등 comput로 시작하는 단어를 가리김. • 정확하게 일치하는 것으로 하는 검색을완전검색또는완전일치검색, • 일치검색이라고 함. • Whole words, Complete words, Exact, 단독찾기 등으로 불림.

  17. 제한 탐색 • 특정필드만을 탐색대상필드로 제한하는 필드지정법을 사용하거나 • 검색된 문헌들을 출판년, 언어, 문헌형식 등에 의해 2차적 탐색하는 것 비교 탐색 • 대소관계를 나타내는 연산자를 사용하여 특정 필드값을 비교하여 • 탐색어를 만족하는 문헌을 찾아내는 기법 • 연산기호는 =, >, <, <=, >=, NOT= 등이 사용될 수 있음. • 이 기법은 주로 발행연도 탐색에 사용됨. 본문 탐색(인접 탐색) • 탐색어들이 한 필드나 한 문장 속에 인접하여 출현하는 문헌검색. • 탐색어들의 순서를 고려하는 것과 고려하지 않는 방식이 있음. • DIALOG에서 연산자 W는 순서고려, F는 순서고려치 않는 연산자임. • 일반적으로 인접정도를 단어수로 판단함.

  18. 불리안 검색의 문제점 • 탐색어로 표현되는 각 개념의 상대적인 중요도를 나타내지 못한다. • 문헌과 탐색어와의 유사도의 크기순으로 검색된 문헌을 출력할 수 없다. • 완전일치검색이므로 탐색문과 완전히 일치되는 문헌만 검색되므로 부분적으로 일치하는 문헌은 검색될 수 없다. • 해결방안 • 가중치를 불리안검색기법에 결합시킨 검색기법 • 색인어, 탐색어 모두, 양자중 하나만 가중치부여 • 일반적으로 색인어에만 가중치-개념의 중요도 표현 • 정활율 향상 수단 예시: A and B and C를 만족시키는 문헌들 가운데 • 특정색인어의 가중치가 일정치 이상(A>3인 것) • 가중치의 합이 일정치 이상인 것(A+B+C > 8)

  19. 5. 전거 통제 5.1 전거 통제의 필요성 • 색인작업이란 색인자와 이용자간의 검색어에 대한 약속임. • 「이광수」라고 색인했는데 「춘원」으로 찾는다면 양자의 약속은 • 이행될 수 없을 것임. • 왜냐하면 컴퓨터는 기호(패턴)를 비교하며 검색하는 것이지 • 기호가 표현하는 개념으로 검색하는 것은 아니기 때문임. • 서지(목록)정보(bibliographic information)는 검색의 실마리를 제공하고 • 대상이 되는 특정자료를 정확히 식별할 수 있는 정보를 제공하여 • 이용자를 원자료로 손쉽게 인도하는 것을 목적으로 함. • 목록규칙(cataloging rules)은 바로 이 목적을 달성하기 위하여 • 도서관학자, 정보처리전문가, 서지학자, 출판관계자들이 오랜 동안의 • 연구결과라 할 수 있음. • 목록규칙에서는 다음과 같은 중요한 원칙을 따르고 있음. • 「서명사항, 저자사항, 판차사항, 발행사항, 총서사항은 • 그 자료에 씌어진 언어나 문자 그대로 기술한다. • 오기와 오식까지도 그대로 기술하고 필요할 경우 보충 해주며, • 띄어쓰기도 씌어진 그대로의 것을 원칙으로 한다」 • 이로부터 만들어진 색인은 이용자가 선택하는 검색어와 다를 수 있다.

  20. 색인된 표목을 이용자가 다르게 접근할 가능성은 광범위함. • 인명, 서명, 주제명, 지역명, 단체명, 총서명 등에 대하여 • 모든 표현을 수집하고 각각의 경우에 따라 • 대표표현(전거형: authority)과 이형(변형: variant)을 선정하는 일과 • 처리방법의 연구가 서지정보처리를 위해 시급을 요함. • 예컨대 단순히 인명만을 대상으로 했을 때 표현될 수 있는 • 경우를 보면 다음과 같이 다양하다. • 이 중에서 어느 것을, 어디까지를 액세스포인트(색인어)로 채택할 • 것인가를 우리는 결정해야 할 것이다 • 완전한 개인명(법에 등록된 이름):李光洙, Mary Roverta Smith • 칭호:세종대왕 ; Prime Minister of Lower Slobbovia • 약어:세종, Mary R. Smith, M. Roverta Smith, M.R. Smith • 별명(많이 알려진): Bobbie, Buckie, Cuddles • 호(필명, 자, 시호, 아호 등):春園, Agent 009, M.R.S., Jane • Doe • 공식 이름(상기 이름들에 대하여): Mrs. John Young, • The Duchess of Worcester • 한자의 한글음:이광수(李光洙), 삼도유기부(三島由紀夫), • 빙우란(憑友蘭), 모택동(毛澤東) • 외국인명의 한글표기:마크 트웨인(Mark Twain), 미시마 • 유키오(みしまゆきお - 三島由紀夫), • 세익스피어(William Shakespeare) • 외국인명의 다른 한글표기:마-크 트웨인(Mark Twain), • 미시마 유끼오(みしまゆきお - 三島由紀夫), • 쉐익스피어(William Shakespeare) ▯

  21. 한글표기 인명의 로마자번자: Doo Young Lee(李斗榮) • 비로마자 인명의 자국어 표현:みしまゆきお(三島由紀夫), • А.П. Чехов(Anton Cechov) • 비로마자 인명의 자국음에 대한 로마자번자: Yukio • Mishima(三島由紀夫), Yu-lan Feng(憑友蘭), • Anton Cechov(А.П. Чехов) • 비로마자 인명의 다른 로마자 표현: Anton Cechov, • Anton Tchekhoff, Anton Tchekhov, Anton Cexov, • ... (А.П. Чехов) • 도치명(姓/名으로의 도치): Mao, Tse-tung; • Mao Tse-tung(毛澤東), Lee, Doo Young; • Lee Too Young(李斗榮) 모든 색인은 데이터가 만들어진 후에도 결정할 수 있으나 전거만은 입력하기 전에 결정되어 있거나 입력시에 결정해야 하기 때문에 전거 데이터 없이는 불완전한 데이터가 된다는 점은 근본적인 문제를 야기한다.

  22. 5.1 전거 통제의 정의 • 전거작업에 의해 전거데이터(전거레코드, 전거파일)가 만들어지며 • 이것을 이용하여 전거통제가 행해진다. • 전거레코드, 전거파일, 전거작업, 전거통제 등에 대한 이해가 요구됨. • 전거 작업 • 액세스포인트형의 결정과 결정된 정보를 기록하는 작업 • 다음의 다섯가지 과정으로 구성됨. • 전거를 신규로 작성하는 과정(전거레코드와 전거파일의 작성). • 작성된 전거레코드群을 하나의 전거파일내에 모으는 과정. • 전거파일을 서지파일과 연결함으로써 전체로서 전거시스템을 형성하는 과정. • 전거파일과 전거시스템을 유지관리하는 과정. • 전거파일과 전거시스템을 평가하는 과정.

  23. 전거 통제 • 서지파일에서 표목으로 사용되고 있는 이름, 주제, 통일서명 등의 • 전거형이 일관성있게 사용되고 유지되도록 통제하는 방법이다. • 필요한 참조와 함께 전거형을 기록한 전거파일과 기계가독레코드파일 • 에서는 전거파일과의 정합성을 유지하기 위하여 • 모든 레코드를 자동적으로 갱신할 수 있는 메카니즘을 포함한다. • 전거통제의 목적 • 모든 정보는 • 그 정보에 대한 액세스포인트, • 그 정보의 서지기술(bibliographic description), • 그 정보의 소재정보 3가지로 구성됨. • 서지기술은 기술된 자료의 대체물이다. • 전거통제란 액세스포인트를 관리하여 • 정보를 찾는 기능(finding function)과 • 모으는 기능(assembling function)을 직접적으로 지원하며, • 이 중 찾는 기능보다 모으는 기능과 더 밀접하게 관련된다

  24. 'Dostoevski, Fedor Mikhailovich‘ 'Maugham, William Somerset‘이 저작에 실제로 표현된 예 Dostoevski, Fedor Mikhailovich. 1821-1881 Dostoievski, F. M. Dostoyevsky, Fyodor 도스토예브스키, 훼더 미카이로빗치 도스또옙스키 도스토예프스키 도스또예브스끼 도스토엡스키 도스또에프스키 도스토에프스키이 또스토이에프스키 또스또예프스키 또스또예브스키 또스또에프스키

  25. Maugham, William Somerset, 1874-1965 모옴 모옴, 서머셋 모옴, 서머셋셑 모옴, 써머싯 모옴, 윌리암 서머셋셑 모옴, 윌리엄 서머셋 모움, 서머싯 • 정보의 탐색시 여러 가지 다른 표현중의 하나를 사용하는 경우 • 그렇게 기술된 정보만이 탐색될 것이다. • 그러나 전거통제파일을 유지하며 탐색시 전거파일을 이용한다면 • 상기 표현 중 어느 형식으로 탐색하더라도 전거레코드내에 표기된 • 전체 자료가 망라되어 탐색될 것이다. • 왜냐하면 상기 여러 가지 형식중 하나를 전거로 채택하여 • 표목(색인어)으로 삼아 색인하고 있으며 • 나머지를 표목에 대하여 '보라참조'로 안내하거나 • 직접 해당 표목 아래 모아져 있기 때문임. • 즉, 서지데이터에는 전거인 표목만 기술, 그변형은 전거파일에 기록유지 • 색인어는 표목들이 되지만 탐색시 항상 전거파일을 참조하여 전거를 확인 • 그 전거로 탐색하게 함. 새로운 변형이 출현했을 때는 서지데이터베이스를 • 갱신할 필요 없이 전거파일의 전거형 아래 기록함으로 됨.

  26. 통제어휘(시소러스) BT (broader term) → 상위개념어 BTG (broader term/generic) → 상위개념어/屬 BTI (broader term/instance) → 상위개념어/사례 BTP (broader term/partial) → 상위개념어/부분 NT (narrower term) → 하위개념어 NTG (narrower term/generic) → 하위개념어/屬 NTI (narrower term/instance) → 하위개념어/사례 NTP (narrower term/partial) → 하위개념어/부분 RT (related term) → 관련어 SN (scope note) : 범위주기 TT (top term) : 최상위개념. 하위개념을 갖는 최상위개념을 나타냄. UF (used for혹은 use for) : 비우선어. ~대신 사용하라 USE (use) : 비우선어에서 우선어로의 참조. ~를 사용하라 ENG (각 언어의 코드) 말(도량형) [斗]“측정단위, 단위, 그릇, ...” 말(동물) [馬] horse“생물, 가축, 짐승, ...” 말(식물) [藻] pondweed“풀, 물풀, 해초, ...” 말(언어) [言語] language“소리, ...” 말(장기) chessman“長技, 將棋, 臟器, ...”

  27. 시소러스의 예

More Related