620 likes | 810 Views
Научная лаборатория Microsoft в Силиконовой долине. Илья Миронов MSR Silicon Valley декабрь 2003. О докладчике. 1999 г. — мат-мех СПбГУ по кафедре информатики 2003 г. — аспирантура Стэнфордского университета по специальности криптография
E N D
Научная лаборатория Microsoft вСиликоновой долине Илья Миронов MSR Silicon Valley декабрь 2003
О докладчике 1999 г. — мат-мех СПбГУ по кафедре информатики 2003 г. — аспирантура Стэнфордского университета по специальности криптография 2000, 2002 — стажировки в IBM Zurich, Microsoft Research Redmond сейчас — исследовательская лаборатория Microsoft в Силиконовой долине Microsoft Research Silicon Valley
План • Индустриальная исследовательская лаборатория • Проекты • Penny Black – борьба со спамом • Page Turner – эволюция веб-страницы • Алгоритм Дейкстры для автодорог • Разное Microsoft Research Silicon Valley
План • Индустриальная исследовательская лаборатория • Проекты • Penny Black – борьба со спамом • Page Turner – эволюция веб-страницы • Алгоритм Дейкстры для автодорог • Разное Microsoft Research Silicon Valley
Задачи индустриальных научных лабораторий • Развитие фундаментальной и прикладной науки • Подготовка патентов • Внутреннее консультирование и экспертизы • Представление компании в комитетах по стандартизации Microsoft Research Silicon Valley
Индустриальные научные лаборатории • RAND Corporation (40-ые – 50-ые) • AT&T (60-ые – 90-ые) • Xerox PARC (60-ые – 80-ые) • IBM (50-ые – настоящее) • Microsoft Research (90-ые – настоящее) Microsoft Research Silicon Valley
Отличия от академической науки • Иная схема финансирования (не гранты, а проекты) • Больше патентов • Более тесная интеграция с практикой • Меньше аспирантов, больше пост-доков Microsoft Research Silicon Valley
Эпоха "digital" Microsoft Research Silicon Valley
Редмонд Кембридж Сан-Франциско Пекин Силиконовая долина Microsoft Research • Более 700 сотрудников • Бюджет – около 6 млрд долларов • Более 50 научных областей 5 центров Microsoft Research Silicon Valley
MSR в Силиконовой долине Microsoft Research Silicon Valley
Истории лаборатории • Digital Labs, Xerox PARC (до 1998 г.) • Compaq CERC (до 2001 г.) • Microsoft SVC Microsoft Research Silicon Valley
MSR в Силиконовой долине • Основанав августе 2001 • Специализация: распределенные системы • 20+ сотрудников • рост до 30+ в течение нескольких лет Microsoft Research Silicon Valley
Области специализации • Распределенные системы • Спецификация и реализация • Масштабируемость, устойчивость к сбоям, управление • Мобильность, реплицируемость, управление кэшем • Безопасность, криптография – протоколы и алгоритмы • WWW – обход, индексирование, веб-сервисы • Сети Microsoft Research Silicon Valley
План • Индустриальная исследовательская лаборатория • Проекты • Penny Black – борьба со спамом • Page Turner – эволюция веб-страницы • Алгоритм Дейкстры для автодорог • Разное Microsoft Research Silicon Valley
The introduction of the Penny Black stamp by the British Postal System in the 1830’s shifted the cost of postage to the sender. Penny Black Борьба со спамом при помощи виртуальных марок Martin Abadi Andrew Birrell Mike Burrows Frank Dabek (2002 intern, MIT) Cynthia Dwork Andrew Goldberg Mark Manasse Moni Naor (Weizmann Inst. Sci.) Ted Wobber Microsoft Research Silicon Valley
Penny Black Проблема спама • Рост использования е-мэйла в мире замедлился • 93% писем, доставляемых Hotmail (более одного миллиарда/день) – спам Microsoft Research Silicon Valley
Penny Black Экономика спама • 90% спама рассылается 100 физическими лицами • Отсылка миллиона сообщений - $100 • Ожидаемая прибыль - $200-300 • Если суметь поднять стоимость спама... Microsoft Research Silicon Valley
Penny Black «Вычислительная» марка • Идея: письмо должно содержать доказательство того, что было потрачено ≈10 сек CPU на ЭТО письмо для ЭТОГО получателя • Эффективная проверка • Предложено: Dwork & Naor (1992), Back (1997) Microsoft Research Silicon Valley
Penny Black Реальность... • Совместимость с существующими UI • Минимальные изменения в протоколах • Что есть валюта? • стоимость цикла CPU падает • доступ к памяти? деньги? тест Тьюринга? • «Белые» списки, листы рассылки... Microsoft Research Silicon Valley
Penny Black Богатые и бедные • Скорость CPU различается в 10-30 раз • Доступ к основной памяти – в 2-4 раза • Вывод: функция должна требовать фиксированного количества обращений вне кэша. Microsoft Research Silicon Valley
Penny Black Пример функции • Массив T размером 16Mb. • Функция g(x) зависит от T • Итерируем g(g(…g(x)…), чтобы получить «волшебное»значение (хэш заканчивается 20 нулями) Microsoft Research Silicon Valley
Penny Black Проблема • Рассылать массив T (16 Mb) непрактично • T[i] = DES(i) ? • Вместо доступа к таблице, можно будет вычислять ее элементы... Microsoft Research Silicon Valley
Penny Black Сервер купонов 2 Купоны аналогичны маркам. Любая форма платежа: - циклы CPU - тест Тьюринга - деньги Купоны можно накапливать Купоны можно возвращать Централизация облегчает распространение и обновление кода Получатели должны доверять серверу:Международная организация? Минсвязи? SMTP Отправитель Получатель msg & купон заказ купонов HTTP HTTP купон ok? 1 3 Сервер купонов • Купонный набор – задача и ключ. • 2. Отправитель решает задачу и, используя ключ, приклеивает решение к письму. • 3. Получатель проверяет купон. Microsoft Research Silicon Valley
План • Индустриальная исследовательская лаборатория • Проекты • Penny Black – борьба со спамом • Page Turner – эволюция веб-страницы • Алгоритм Дейкстры для автодорог • Разное Microsoft Research Silicon Valley
Page Turner Эволюция веб-страниц Dennis Fetterly Mark Manasse Marc Najork Janet Wiener (HP Labs) Microsoft Research Silicon Valley
Page Turner Page Turner • Как меняются страницы в течение недели, месяца, года? • 40% всех страниц меняются каждую неделю [Cho & Garcia-Molina]. • Да. Но только 7% страниц меняются нетривиально. Microsoft Research Silicon Valley
Page Turner Методика • Обход 150 миллионоввеб-страницкаждую неделю осенью-зимой 2002-03. • Сохранены 84 «отпечатков» (672 байт) на каждую страницу • Сохранены целиком 0.1% страниц (одних и тех же для всех обходом) • Статистика: 30 млнстраниц/день, 2 TB в неделю, сохранено 100 GB в неделю Microsoft Research Silicon Valley
Page Turner Отпечатки текста - 1 воркалось воркалось хливкие шорьки хливкие хливкие шорьки пырялись шорьки шорьки пырялись по пырялись пырялись по нове по по нове и нове нове и хрюкотали и и хрюкотали зелюки хрюкотали хрюкотали зелюки как зелюки зелюки как мумзики как как мумзики в мумзики мумзики в мове в в мове воркалось мове мове воркалось хливкие Microsoft Research Silicon Valley
Page Turner Отпечатки текста - 2 hash1 7290 8347 7585 9565 5467 9657 4564 1578 6490 4274 6386 8538 3476 1578 hash2 3753 3584 4590 6956 8656 5673 4567 7594 6736 6385 2463 4784 5598 2463 hash3 2735 3465 1209 3757 3546 7658 4356 4864 9285 3646 5271 5685 3465 1209 hash4 4926 8735 9063 4765 9375 5693 9635 3574 2064 1045 3952 4755 5965 1045 воркалось хливкие шорьки хливкие шорьки пырялись шорьки пырялись по пырялись по нове по нове и нове и хрюкотали и хрюкотали зелюки хрюкотали зелюки как зелюки как мумзики как мумзики в мумзики в мове в мове воркалось мове воркалось хливкие Microsoft Research Silicon Valley
Page Turner Отпечатки текста - 3 воркалось хливкие шорьки хливкие шорьки пырялись шорьки пырялись по пырялись по нове 1578 2463 1209 1045 по нове и нове и хрюкотали и хрюкотали зелюки хрюкотали зелюки как зелюки как мумзики как мумзики в мумзики в мове в мове воркалось мове воркалось хливкие Microsoft Research Silicon Valley
Page Turner Распределение документов по кластерам Microsoft Research Silicon Valley
Page Turner 20 самых больших кластеров Microsoft Research Silicon Valley
Page Turner Изменения как функция размера кластера Microsoft Research Silicon Valley
Page Turner Продолжительость жизни как функция TLD Microsoft Research Silicon Valley
Page Turner Изменения как функция TLD Microsoft Research Silicon Valley
MS Search CENSORED Microsoft Research Silicon Valley
План • Индустриальная исследовательская лаборатория • Проекты • Penny Black – борьба со спамом • Page Turner – эволюция веб-страницы • Алгоритм Дейкстры для автодорог • Разное Microsoft Research Silicon Valley
Кратчайший маршрут Microsoft Research Silicon Valley
Алгоритм Дейкстры • Нижняя оценка расстояния до вершины t s Microsoft Research Silicon Valley
Алгоритм Дейкстры Две кучи: 1) расстояния известны 2) есть нижняя оценка t s Microsoft Research Silicon Valley
Алгоритм Дейкстры Включаем в первую кучу вершину с наименьшей нижней оценкой t s Microsoft Research Silicon Valley
Эффективность? • Пропорциональна количеству вершин ближе, чем t. Microsoft Research Silicon Valley
Оптимизация • Двухсторонний Дейкстра Microsoft Research Silicon Valley
Что делать? Microsoft Research Silicon Valley
На практике К шоссе Microsoft Research Silicon Valley
На практике От шоссе Microsoft Research Silicon Valley
На практике Между ними 180 s t 71 95 66 Microsoft Research Silicon Valley
Неравенство треугольника |AB|+|AC| ≥ |BC| B A C Microsoft Research Silicon Valley
Неравенство треугольника |AB|+|AC| ≥ |BC| Microsoft Research Silicon Valley
Вехи |AB|+|AC| ≥ |BC| |AB|-|BC| ≤ |AC| B A C Microsoft Research Silicon Valley