1 / 34

Будзко В.И., Соколов И.А., Сучков А.П.

Принципы интеграции данных разнородного формата для обеспечения информационной поддержки деятельности эксперта-аналитика. Будзко В.И., Соколов И.А., Сучков А.П. Модель данных формализованной составляющей. База данных (БД) системы содержит:

cybill
Download Presentation

Будзко В.И., Соколов И.А., Сучков А.П.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Принципы интеграции данных разнородного формата для обеспечения информационной поддержки деятельности эксперта-аналитика Будзко В.И., Соколов И.А., Сучков А.П.

  2. Модель данных формализованной составляющей

  3. База данных (БД) системы содержит: • формализованные данные по объектам учета и связям между ними (данные о лицах, действиях, организациях, событиях, адресах и пр.); • неформализованные сведения (тексты, адио- и видеоинформация, биометрия, фотографии и пр.), связанные с конкретными ОУ. Экземпляр конкретного объекта учета имеет уникальный номер. Связи между объектами учета содержат учетные номера связанных двух экземпляров объектов, а также реквизиты «окраски» связи, например, степень родства связанных лиц или роль конкретного лица в конкретном событии. Ссылки на неформализованные сведения через учетные номера.

  4. Идентификация объектов учета Идентификация проводится при вводе и изменении сведений об ОУ, а также при исполнении проверочных запросов. Необходимо определить тождественность, похожесть или отличие двух объектов по идентифицирующим признакам и, возможно, связям с другими ОУ.

  5. Простая идентификация производится по значениям одного или нескольких реквизитов и имеет два возможных исхода: все идентифицирующие реквизиты совпали - объекты одинаковые; несовпадение хотя бы по одному идентифицирующему реквизиту – объекты разные.

  6. Сложная идентификация проводится по нескольким идентифицирующим реквизитам с использованием специального алгоритма идентификации. Алгоритмы идентификации могут быть двух типов: основанные на таблицах принятия решений – детерминированный способ; основанные на использовании функции взвешенной суммы и порогов близости – недетерминированный способ.

  7. Сложная идентификация на основе функции взвешенной суммы и порогов близости.

  8. Сложная идентификация на основе функции взвешенной суммы и порогов близости. Диапазон значений функции взвешенной суммы F(m,a)разбивается на три области, значения границ которых находятся в соотношении 0 < А1 < А2 < А3. Попадание значения F(m,a)в соответствующий диапазон приводит к одному из следующих результатов: 0 ÷ А1 – сопоставляемые ОУ разные; А1 ÷ А2 – сопоставляемые объекты похожи; А2 ÷ А3 – сопоставляемые объекты тождественны.

  9. Проблемы информационно-лингвистического обеспечения • Фамильно-именные группы (фонетическое транскрибирование, синонимия имен собственных и пр.). • Наименования объектов (сокращения, жаргон, синонимия). • Адреса (смена названий городов, улиц, стран, изменение административно-территориального деления).

  10. Глобальная XML модель данных правоохранительной сферы Global Justice XML Data Model (Global JXDM) • 250 информационных объектов • более 3000 атрибутов • 40 информационно-лингвистических систем xsdThe XML Schema definition language, which offers facilities for describing the structure and constraining the contents of XML documentsproxyansi_d20Motor vehicle administration codes from ANSI D20, the Data Dictionary for Traffic Record Systems, maintained by AAMVA, the American Association of Motor Vehicle Administrators.schemaproxycapAlert codes from the Common Alerting Protocol (CAP) version 0.7 Alert Message Dictionary.schemaproxycensusEmployment codes from the U.S. Census Bureau.schemaproxydod_exec-12958Security classification codes from Presidential Executive Order 12958.schemaproxydod_jcs-pub2.0Intelligence discipline codes from the Department of Defense (DoD) Joint Chiefs of Staff (JCS) Publication 2.0, Appendix A.schemaproxydodSecurity level codes from the Department of Defense (DoD).schemaproxy <xsd:schema attributeFormDefault="unqualified" elementFormDefault="qualified" targetNamespace="http://www.it.ojp.gov/jxdm/3.0.3" xmlns:j-iso_3166="http://www.it.ojp.gov/jxdm/3.0.3/proxy/iso_3166/1.0" xmlns:j-nibrs="http://www.it.ojp.gov/jxdm/3.0.3/proxy/nibrs_misc/1.0.1" xmlns:iso_639-2t="http://www.it.ojp.gov/jxdm/iso_639-2t/1.0" xmlns:nonauth="http://www.it.ojp.gov/jxdm/nonauthoritative-code/1.0" xmlns:j-mn_off="http://www.it.ojp.gov/jxdm/3.0.3/proxy/mn_offense/1.0" xmlns:j-xsd="http://www.it.ojp.gov/jxdm/3.0.3/proxy/xsd/1.0" xmlns:j-iso_639-2b="http://www.it.ojp.gov/jxdm/3.0.3/proxy/iso_639-2b/1.0" xmlns:j-fips_5-2="http://www.it.ojp.gov/jxdm/3.0.3/proxy/fips_5-2/1.0" xmlns:i="http://www.it.ojp.gov/jxdm/appinfo/1" xmlns:j-ut_offender="http://www.it.ojp.gov/jxdm/3.0.3/proxy/ut_offender-tracking-misc/1.0" xmlns:j-dod="http://www.it.ojp.gov/jxdm/3.0.3/proxy/dod_misc/1.0" xmlns:iso_4217="http://www.it.ojp.gov/jxdm/iso_4217/1.0" xmlns:j-iso_639-2t="http://www.it.ojp.gov/jxdm/3.0.3/proxy/iso_639-2t/1.0" xmlns:j-dod_exec-12958="http://www.it.ojp.gov/jxdm/3.0.3/proxy/dod_exec-12958/1.0" <xsd:documentation>Proxy types that carry dictionary metadata and extend plea and military discharge codes from the Utah Offender Tracking Database, version 2.03.</xsd:documentation>

  11. Требования к информационной модели предметной области • информационная модель должна адекватно отображать состав и структуру предметной области; • она должна позволять осуществлять интеграцию разнородных информационных ресурсов; • с этой целью модель должна содержать данные, позволяющие осуществлять идентификацию и учет объектов предметной области, поступающих из различных источников; • модель должна обладать достаточной информационной «мощностью» для решения поставленных аналитических задач; • и, наконец, модель должна обладать достаточной гибкостью и допускать осуществление модификации и модернизации в условиях изменения состава и структуры предметной области.

  12. Зависимость стоимости обеспечения функционирования системы от степени формализации данных Стоимость обеспечения функционирования Степень формализации

  13. Зависимость времени определения информационной потребности от степени формализации данных Время определения информационной потребности Степень формализации

  14. Зависимость времени оценки и сопоставления от степени формализации данных Время оценки и сопоставления Степень формализации

  15. Зависимость времени планирования информационной поддержки от степени формализации данных Время планирования информационной поддержки Степень формализации

  16. Зависимость затрат на накопление сведений от степени формализации данных Затрат на накопление сведений Степень формализации

  17. Зависимость времени анализа и формирования вывода от степени формализации данных Время анализа и формирования вывода Степень формализации

  18. Зависимость сложности доведения от степени формализации данных Сложность доведения Степень формализации

  19. Зависимость сложности установления обратной связи от степени формализации данных Сложность установления обратной связи Степень формализации

  20. Зависимости вероятности успеха и объема затрат от степени формализации данных вероятность успеха объема затрат Степень формализации

  21. Вывод: Чем меньше формализация накапливаемых данных, тем меньше продуктивность информационной поддержки.

  22. Предлагаемая реализация интеграции данных • автоматизированный сбор сложно-структурированной информации, поступающей из различных источников, и представление этой информации в виде отчетов; • реализацию заданных в модели алгоритмов идентификации объектов учета (в составе комплекса реализован необходимый инструментарий, обеспечивающий возможность гибкого задания идентификационных признаков по заданной информационной модели); • решение различных аналитических задач: выполнение различных поисковых запросов, мониторинг объектов учета, анализ исторической ретроспективы объектов, подготовка аналитических и статистических отчетов. Информационная модель Хранилище данных XSD - схемы Электронный документооборот Источники данных

  23. Спасибо за внимание Заместитель директора по научной работе Института проблем информатики РАН Будзко Владимир Игоревич 119333, Москва, Вавилова 44, кор. 2 Тел. 7 495 1354518 факс. 7 495 1354518 E-mail vbudzko@ipiran.ru

More Related