130 likes | 294 Views
Институт точной механики и вычислительной техники имени С. А. Лебедева РАН. Московский физико-технический институт. Специализированное вычислительное устройство для обработки радиолокационной информации. Д.Д. Николаев , М.Л. Ремизов, А.В. Ростовцев, Чинь Куанг Киен. Москва 2008.
E N D
Институт точной механики и вычислительной техники имени С. А. Лебедева РАН Московский физико-технический институт Специализированное вычислительное устройство для обработки радиолокационной информации Д.Д. Николаев,М.Л. Ремизов, А.В. Ростовцев, Чинь Куанг Киен Москва 2008
Постановка задачи • Рекурсивное вычисление комплексной 64-мерной матрицы: n = 1, 2,…128
Требования по производительности • За 5 секунд необходимо выполнить вычисление матрицы 1728 раз. • Вычисления программным способом > 43 мин.
Варианты реализации • фиксированная запятая: • простой алгоритм • малый объем оборудования • малая производительность • проблема диапазона и точности • плавающая запятая: • сложный алгоритм • большая трудоемкость • большой объем оборудования • большая производительность • автоматическое решение проблемы диапазона иточности Выбран вариант с плавающей запятой
Формат чисел Предложенный формат: • Порядок 7 разрядов • Скрытый бит мантиссы представлен в явном виде • Округление только к ближайшему • Нет специальных значений • Нет денормализованных чисел (при underflow - flush to zero) Результат вычисления матрицы R^-1 в нашем формате совпадает с вычисленным в IEEE 754 single 6
Комплексный MAC - Multiply & Accumulate (А + Bi)(C + Di)+ E + Fi 7
Комплексный MAC - Multiply & Accumulate (А + Bi)(C + Di)+ E + Fi AC + E AC C BC + F BC 8
Комплексный MAC - Multiply & Accumulate (А + Bi)(C + Di)+ E + Fi AC + E AC + E - BD AD D BC + F BC + F + AD BD 9
Структурная схема вычислителя 10
Прототип Прототип создан на базе FPGAVirtex-5 xc5vlx330 • Использовано • Триггера 25118 из 207360 12% • LUT 111907 из 207360 53% • f = 200 МГц • Вычисление одной матрицы < 1 мс • Производительность ~6,5 млрд. операций с плавающей запятой в секунду 11
Пути повышения производительности • полная конвейеризация • использование MAF • быстрый алгоритм умножения (без итераций) • быстрый алгоритм MAC • использование нескольких узлов MACR Эффект - увеличение производительности в 5-10 раз 12
Пути повышения точности • увеличение разрядности мантиссы • уменьшение количества округлений: • одно округление на умножение и сложение • одно округление на два умножения и сложение 13