1 / 39

Язык и мозг: индексация смыслов

Язык и мозг: индексация смыслов. Может ли компьютер выучить язык?. Шумский Сергей Александрович serge.shumsky@gmail.com. Почему это важно. Science, 2011. Память компьютеров. 10 2 6. 10 24. 10 24. 10 22. 10 22. Знания людей. 10 20. 10 20. 10 1 8. 10 1 8.

ull
Download Presentation

Язык и мозг: индексация смыслов

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Язык и мозг:индексация смыслов Может ли компьютер выучить язык? Шумский Сергей Александрович serge.shumsky@gmail.com

  2. Почему это важно Science, 2011 Память компьютеров 1026 1024 1024 1022 1022 Знаниялюдей 1020 1020 1018 1018 Все Знания уже оцифрованы но компьютеры их не понимают 1016 1016 1014 1014 1012 1012 1980 1990 2000 2010 2020 2030 2040 2050

  3. Почему это важно сейчас Производительность компьютеров 1024 1024 Разумлюдей 1022 1022 1020 1020 GPU 1018 1018 CPU 1016 1016 Компьютерный ресурсуже нельзя игнорировать 1014 1014 1012 1012 1980 1990 2000 2010 2020 2030 2040 2050

  4. Ключевая технология Чем Кто • Обучить компьютерыязыку Что Мама мыла раму мылом • Индексация текстовИндексация смыслов Семантическийпроцессор Текст Смысл 101 102 103 104 Мама мыла раму мылом

  5. Требуется • Понимание значений • Понимание отношений Кто: Сергей ~Андрей ~Геннадий Что сделал: сказал ~сообщил ~доложил Когда: вчера ~на днях ~18 апреля Собака лает караван идет

  6. S AuxP NP N Aux VP V PP P NP N Задача • Построить модель «языкового органа» • Зная, как устроен продукт этого органа • Опираясь на принципы работы мозга

  7. План • Как устроен язык • Структура данных в мозге • Как устроена кора мозга • Алгоритм обработки данных • Как мозг понимает язык • Архитектура органа языка • Моделирование органа языка • Учим компьютер языку

  8. Как устроен язык Рекурсивная природа языка

  9. S AuxP NP N Aux VP V PP P NP N Разбор предложений: рекурсия бинарных слияний S AuxP NP N VP Aux PP V P NP N John-ga Mary to renaisite iru John is in love with Mary Джон Мэри в влюблен есть Джонвлюблен в Мэри

  10. Как устроена кора мозга Мыслящая поверхность

  11. Мыслящая поверхность • Интеллект сосредоточен в коре мозга • У человека ~ 4/5объема мозга • Кора относительно проста • Однородная ткань~3мм • 50 50 см2 • Единый алгоритм • Распознать ситуацию • Выработать ответ Ваша кора слушает это 

  12. Клеточная теория коры • Кора: однородная слоисто-ячеистая • 6 слоев у всех млекопитающих • Мини-колонки (ячейки) • D ~ 30мкм ~100 клеток • Общее происхождение • Макро-Колонки • D ~ 300 мкм ~100 мини-колонок • Возбуждаются одновременно • «Разрешающая способность» мозга ~106 признаков “The columnar organization of neocortex” Mountcastle, 1997

  13. Модель коры: самоорганизующиеся карты • Каждая ячейка распознает «свой» входной сигнал • Активирует ближние, подавляет дальние • Подкрепляет свою «память» ~ 0.3 мм Победитель забирает все

  14. Модель коры: самоорганизующиеся карты • Каждая ячейка распознает «свой» входной сигнал • Распространяет активность на соседей и далее • Подкрепляет свою «память» ~ 0.3 мм Kohonen, 1981 Формальный нейрон ~ 104биологических нейронов

  15. Иерархия признаков Лурия, Поляков, 1962 102бит/c 106 1/104÷105 Понятия Сущности 106 1/102÷103 Сложные признаки 1/10 105 Базовые признаки 106бит/c Первичные, вторичные, третичные области коры

  16. Иерархия корковых зон А.Р. Лурия, 1962 Базовые действия Сложные действия Планирование действий Принятие решений Базовые признаки Сложныепризнаки Синтетическиепонятия

  17. Результат обучения: зрительная кора 1 mm Кора– «тату» из ~ 106 специализированных детекторов

  18. Результат обучения:сенсорная/моторнаякора Кора– «тату» из ~ 106 специализированных детекторов

  19. Как устроен «орган языка»? Как кора организуетрекурсивные вычисления?

  20. Гипотеза Источник рекурсии –таламус(?) Кора -ритм ~ 20 Гц Таламус 1:1000

  21. Гипотеза Карты корреляций Пара-победитель «забирает все»

  22. Гипотеза Карты корреляций Пара-победитель «закорачивает» путьповторного сигнала Повторный сигнал

  23. Гипотеза Рекурсивные карты корреляций Язык Музыка Движение Джон был влюблен в Мэри Код динамического паттерна -ритм Таламуса (~20 Гц)

  24. Гипотеза Модель «органа языка» Смыслы слов Кора Структура слов Структура предложений Части речи Алфавит Таламус 1:1000

  25. Моделирование «органа языка» Машинное обучение языку Семантическийпроцессор Текст Смысл

  26. Семантический процессор Голем • Из коллекции текстов любого языка • Автоматически выявляет иерархию языковых паттернов (штампов) • Типичные сочетания • Букв/фонем: морфология • Окончаний: синтаксис • Оснований: семантика

  27. Морфологический модуль Смыслы слов Кора Структура слов Структура предложений Части речи Алфавит Таламус

  28. Морфология • Обучение • Сочетания букв • Результат • Разбор слов • Словоформы

  29. Морфологическая кора

  30. Синтаксический модуль Смыслы слов Кора Структура слов Структура предложений Части речи Алфавит Таламус

  31. Синтаксис • Обучение • Сочетания окончаний • Результат • Разбор предложений

  32. Семантический модуль Смыслы слов Кора Структура слов Структура предложений Части речи Алфавит Таламус

  33. Семантика • Обучение • Сочетания оснований • Результат • Распознавание понятий(классы эквивалентности): Кто, Где, Когда, Сколько, …

  34. баллистическая зенитная крылатая межконтинентальная противотанковая твердотопливная … (33) Семантическая карта сергей александр андрей юрий николай олег … (298) процентов километров килограмм миль нанометров баксов … (12) дэвид майкл вера марк давид федор … (1799) windows dvd player internet flash twitter … (1799) вышла приехал вышел приезжает вылетает уехал… (89) тысяч метров грамм квт килограмм миллиметров … (31) ван браун титов шевченко семенов павлов … (4341) сказал отметил подчеркнул добавил напомнил уточнил… (19) белоруссия армения венесуэла туркменистан сирия нкр… (69) грузия турция азербайджан узбекистан абхазия индия… (40) столица москва сочи париж пекин астана… (428)

  35. Как это использовать? Машинная обработка знаний

  36. Семантический поисковик Шерлок Иван смотрел, как машина ехала по дороге что (2) Федор Петр Митяй Ваня… (1200) видел наблюдал заметил убедился… (120) Форд Мерседес вездеход Лада… (1370) мчался скользил двигался плелась… (110) шоссе автобану тракту проселку… (340) 1 прототип: 1200 × 120 × 2 × 1370 × 110 × 340 =1013 вариантов

  37. Шерлок: Интерактивное досье

  38. Интерактивное досье

  39. Next Big Thing Бит/с за $1000 Роботы 1014 Поиск мультимедиа Умные поисковики 1012 1010 Сжатие видео 108 Искусственный Интеллект 106 Мультимедиакоммуникации 104 1980 1990 2000 2010 2020 2030 2040

More Related