800 likes | 1.04k Views
خوشه بندي سريهاي زماني با استفاده از الگوريتم هاي ژنتيک. دانشجو: محمد صادق شيخائي استاد راهنما: دکتر احمد عبداله زاده. دانشکده مهندسي کامپيوتر و فناوري اطلاعات. دانشگاه صنعتي امير كبير. عناوين مطالب. مقدمه: خوشه بندي، سريهاي زماني
E N D
خوشه بندي سريهاي زماني با استفاده از الگوريتم هاي ژنتيک دانشجو: محمد صادق شيخائي استاد راهنما: دکتر احمد عبداله زاده دانشکده مهندسي کامپيوتر و فناوري اطلاعات دانشگاه صنعتي امير كبير
عناوين مطالب • مقدمه: خوشه بندي، سريهاي زماني • تعريف مسأله و انگيزه انجام پژوهش، راه حل پيشنهادي، فرضيات حل مسأله • خوشه بندي سريهاي زماني (مقايسه فعاليتهاي انجام شده در قالب يک جدول) • مروري بر تکنيکهاي کاهش ابعاد داده و ارائه يک تکنيک جديد • بررسي تأثير روشهاي کاهش ابعاد داده برروي خوشه بندي • AKU-kMeans: روشي جديد براي خوشه بندي سريهاي زماني • خوشه بندي به وسيله الگوريتم ژنتيک (مقايسه فعاليتهاي انجام شده در قالب يک جدول) • IGA-Clustering: خوشه بندي سريهاي زماني به وسيله الگوريتم ژنتيک • جمع بندي، نتيجه گيري، كارهاي آتي
تعاريف خوشه بندي • فرايند گروه بندي مجموعه اي از اشياء فيزيکي يا انتزاعي به دسته هايي از اشياء شبيه به هم، خوشه بندي ناميده مي شود. • خوشه بندي به دلائل مختلفي انجام مي شود: • يافتن الگوهاي موجود در داده ها • خلاصه سازي داده ها • (نوع داده: سريهاي زماني) جستجوي سريهاي زماني مشابه
تعاريف سريهاي زماني • سري زماني: ترتيبي از اعداد حقيقي که مقدار مشاهده شده از يک رويداد را در فواصل زماني برابر نشان مي دهد. xi برابر است با مقدار مشاهده شده در زمان ti • مثال: • قيمت سهام • ميزان مصرف انرژي • ميزان بارندگي • نوار قلب S = (x1, x2, …, xn)
تعريف مسأله و انگيزه انجام پژوهش • تعريف مسأله: ارائه روشي براي خوشه بندي سريهاي زماني با استفاده از الگوريتم ژنتيک بطوري که بر مبناي معيار ارزيابي انتخاب شده، از روشهاي متداول خوشه بندي سريهاي زماني بهتر عمل نمايد • خوشه بندي در زمره مسائل NP-Hard قرار دارد • خوشه بندي يک مسأله بهينه سازي به شمار مي آيد • الگوريتم هاي ژنتيک راه حل مناسبي براي حل مسائل بهينه سازي هستند (بخصوص مسائلي که فضاي جستجوي آنها بسيار بزرگ است مانند مسائل NP-Hard) • تا کنون تحقيقات زيادي در زمينه خوشه بندي به وسيله الگوريتم ژنتيک انجام شده، اما اين کار براي نوع داده سري زماني انجام نشده است. • به عبارتي در هيچ يک از آن تحقيقات انجام شده، توجهي به ابعاد داده ها نشده است
راه حل پيشنهادي • دو ويژگي مهم سريهاي زماني: • ابعاد بالا:سريهاي زماني رشته اي طولاني از اعداد هستند که اين امر کار پردازش آنها را با مشکل روبرو مي سازد. • وابستگي بين مقادير متوالي:مثال: قيمت سهام • اين دو ويژگي باعث مي شود استفاده از تکنيکهاي کاهش ابعاد داده يکي از پيش پردازشهاي مهم قبل از انجام خوشه بندي باشد. • براي استفاده از تکنيکهاي کاهش ابعاد داده در خوشه بندي بايد به دو سؤال اصلي پاسخ داد: • از کدام تکنيک براي کاهش ابعاد دادهاستفاده کنيم؟ • ابعاد دادهها را تا چه دقتي کاهش دهيم که تأثيري در نتيجه خوشهبندي نداشته باشد و يا تأثير آن بسيار ناچيز باشد؟
فرضيات حل مسأله • روش حل مسأله: از طريق پياده سازي و آزمايش • خوشه بندي مي تواند به طرق مختلفي انجام شود • فرضيات در نظر گرفته شده براي خوشه بندي سريهاي زماني: • ارزيابي خوشه بندي توسط معيار ICV انجام مي شود. • شباهت بين سريهاي زماني توسط فاصله اقليدسي تعيين مي گردد. • تعداد خوشه ها توسط کاربر تعيين مي شود. • ويژگي فرضيات فوق: • گستردگي کاربرد معيار ICV و فاصله اقليدسي در بسياري از زمينه ها (از جمله سريهاي زماني) • تطابق با فرضيات الگوريتم k-means
بررسي فعاليتهاي انجام شده خوشه بندي سريهاي زماني • Liao در [Liao2005] يک بررسي نسبتاً کامل برروي تحقيقات انجام شده در زمينه خوشهبندي سريهاي زماني انجام داد و الگوريتم هاي ارائه شده براي خوشه بندي سريهاي زماني را از نظر نحوه برخورد با داده ها به سه دسته تقسيم کرد: • الگوريتم هاي مبتني بر داده خام • الگوريتم هاي مبتني بر ويژگيهاي استخراج شده از داده ها • الگوريتم هاي مبتني بر مدل داده
بررسي فعاليتهاي انجام شده بررسي فعاليتهاي انجام شده در زمينه خوشه بندي سريهاي زماني
راه حل پيشنهادي: استفاده از تکنيکهاي کاهش ابعاد داده در خوشه بندي • براي استفاده از تکنيکهاي کاهش ابعاد داده در خوشه بندي بايد به دو سؤال اصلي پاسخ داد: • از کدام تکنيک براي کاهش ابعاد دادهاستفاده کنيم؟ • ابعاد دادهها را تا چه دقتي کاهش دهيم که تأثيري در نتيجه خوشهبندي نداشته باشد و يا تأثير آن بسيار ناچيز باشد؟ • هر چند در بعضي از تحقيقات انجام شده در زمينه خوشه بندي سريهاي زماني، از تکنيکهاي کاهش ابعاد داده استفاده شده، اما در هيچکدام مقايسه اي بين تأثير استفاده از روشهاي مختلف کاهش ابعاد داده در خوشه بندي نشده است. • براي پاسخ به سؤال اول، تأثير پنج مورد از معروف ترين تکنيکهاي کاهش ابعاد داده را برروي خوشه بندي سريهاي زماني با استفاده از الگوريتم k-means، مورد بررسي قرار داديم.
معرفي تکنيکهاي کاهش ابعاد داده • تکنيکهاي مورد بررسي: • DFT (Discrete Fourier Transform ) • DWT (Discrete Wavelet Transform) • PAA (Piecewise Aggregate Approximation) • PCA (Principle Component Analysis) • RP (Random Projection) • SBP (Sample Based Projection)
تکنيکهاي کاهش ابعاد داده • نحوه کاهش ابعاد داده: • مثال: کاهش يک سري زماني از 16 بُعد به 4 بُعد
تکنيکهاي کاهش ابعاد داده • کاهش طول يک سري زماني از 1024 بُعد به 8 بُعد و سپس بازيابي آن
Sample Based Projection: روشي جديد براي کاهش ابعاد داده • در روش RP، ماتريس داده هاي اصلي در ماتريس تصادفي R ضرب مي شود. • روش SBP با دو تغيير اساسي در روش RP به وجود آمده است. • استفاده از پراکندگي داده ها در توليد محورهاي مختصات تصادفي • عمود سازي محورهاي مختصات بر يکديگر (توسط روش Gram-Schmidt) • پيچيدگي زماني : O(nN2+mnN)
بررسي تأثير روشهاي مختلف کاهش ابعاد داده در خوشه بندي به وسيله الگوريتم k-means • متدولوژي انجام آزمايشات
متدولوژي انجام آزمايشات: • ابتدا سريهاي موجود در بستر داده را z-normalize مي کنيم • از هر بستر داده =5469× بستر داده کاهش يافته بوجود مي آوريم • الگوريتم k-means را برروي هر يک از 54 بستر داده کاهش يافته و نيز بستر داده اصلي، پنجاه بار اجرا مي کنيم (تعداد خوشه ها برابر با 10 در نظر مي گيريم) • مقدار ICV را براي داده هاي اصلي با استفاده از نتايج بدست آمده از خوشه بندي داده هاي کاهش يافته محاسبه مي کنيم • ميانگين نسبي و واريانس نسبي ICV را محاسبه مي کنيم
بررسي تأثير روشهاي مختلف کاهش ابعاد داده در خوشه بندي به وسيله الگوريتم k-means • بسترهاي داده • RandomWalk: يک بستر داده مصنوعي که از 500 سري زماني هر يک به طول 1024 تشکيل شده است. اين سريهاي زماني توسط رابطه زير ايجاد شده اند: • xt=xt-1+zt zt:متغيري با توزيع نرمال (ميانگين صفر و انحراف از معيار 10)
بررسي تأثير روشهاي مختلف کاهش ابعاد داده در خوشه بندي به وسيله الگوريتم k-means • بسترهاي داده • Stock: قيمت روزانه سهام 500 شرکت در بازار نيويورک از سال 1970 تا 2004 (طول هر سري زماني برابر با 6480 مي باشد)
بررسي تأثير روشهاي مختلف کاهش ابعاد داده در خوشه بندي به وسيله الگوريتم k-means • بسترهاي داده • MixedBag: از ترکيب 10 بستر داده مختلف موجود در آرشيو سريهاي زماني [UCR] تهيه شده است. اين بستر داده از 10000 سري زماني هر يک به طول 256 تشکيل شده است.
بررسي تأثير روشهاي مختلف کاهش ابعاد داده در خوشه بندي به وسيله الگوريتم k-means • نتايج آزمايشات انجام شده برروي بستر داده RandomWalk
بررسي تأثير روشهاي مختلف کاهش ابعاد داده در خوشه بندي به وسيله الگوريتم k-means • نتايج آزمايشات انجام شده برروي بستر داده Stock
بررسي تأثير روشهاي مختلف کاهش ابعاد داده در خوشه بندي به وسيله الگوريتم k-means • نتايج آزمايشات انجام شده برروي بستر داده MixedBag
بررسي تأثير روشهاي مختلف کاهش ابعاد داده در خوشه بندي به وسيله الگوريتم k-means • نتيجه گيري از آزمايشات انجام شده: • نتايج بدست آمده از خوشه بندي داده هاي کاهش يافته توسط DFT، DWT، PAA، SBP، و بخصوص PCA بسيار به نتايج بدست آمده از خوشه بندي برروي داده هاي اصلي نزديک است • کدام روش براي کاهش ابعاد داده قبل از خوشه بندي مناسب است؟ • روش RP بدليل عملکرد ضعيف، روش مناسبي نيست • روش DWT بدليل عملکرد بسيار نزديک به PAA و پيچيدگيهاي بيشتر، روش مناسبي نيست • روش SBP در جاهايي مناسب است که مقدار N کوچک باشد، زيرا زمان اجراي اين روش با افزايش N به شدت افزايش مي يابد • روش PCA بهترين روش است اما پيچيدگي زماني اين روش نسبتاً زياد است. همچنين پياده سازي اين روش نسبت به بقيه روشها دشوارتر است • روشهاي DFT و PAA عملکرد نسبتاً يکسان و قابل قبولي ارائه مي دهند.
استفاده از تکنيکهاي کاهش ابعاد داده در خوشه بندي • براي استفاده از تکنيکهاي کاهش ابعاد داده در خوشه بندي بايد به دو سؤال اصلي پاسخ داد: • از کدام تکنيک براي کاهش ابعاد دادهاستفاده کنيم؟ • ابعاد دادهها را تا چه دقتي کاهش دهيم که تأثيري در نتيجه خوشهبندي نداشته باشد و يا تأثير آن بسيار ناچيز باشد؟ • پاسخگويي به سؤال دوم دشوارتر است زيرا پارامترهاي زيادي نظير ابعاد داده هاي اصلي، تکنيک مورد استفاده براي کاهش ابعاد داده، پراکندگي داده ها و وابستگي بين مقادير متوالي در هر سري زماني در انتخاب مقدار مناسب براي N تأثيرگذار است.
بررسي تأثير روشهاي مختلف کاهش ابعاد داده در خوشه بندي به وسيله الگوريتم k-means • نگاهي دقيق تر به آزمايشات انجام شده • نتايج ICV Ratioمربوط به خوشه بندي داده هاي کاهش يافته توسط DFT (بستر داده RandomWalk)
الگوريتم AKU-kMeans: روشي براي خوشه بندي سريهاي زماني
ارزيابي الگوريتم AKU-kMeans • براي ارزيابي الگوريتم AKU-kMeans، يکي ديگر از الگوريتمهاي ارائه شده براي خوشه بندي سريهاي زماني به نام I-kMeans (مطرح شده در [Lin2004]) را انتخاب نموده و هر دو را برروي پنج بستر داده مختلف آزمايش نموديم • علت انتخاب الگوريتم I-kMeans: • فرضيات اين الگوريتم با فرضيات الگوريتم AKU-kMeans مطابقت دارد (فاصله اقليدسي، معيار ICV، تعيين تعداد خوشها توسط کاربر) • بسترهاي داده: • سه بستر داده اي که قبلاً معرفي شد (Random Walk، Stock، Mixed Bag) • Trace: متشکل از 200 سري زماني هر يک به طول 275 (تعداد خوشه ها: 4) • Motor Current: متشکل از 420 سري زماني هر يک به طول 1500 (تعداد خوشه ها: 21)
مقايسه AKU-kMeans و I-kMeans • ميانگين ICV نسبي
مقايسه AKU-kMeans و I-kMeans • مينيمم ICV نسبي
مقايسه AKU-kMeans و I-kMeans • ميانگين زمان اجراي نسبي
خوشه بندي سريهاي زماني با استفاده از الگوريتم هاي ژنتيک • تعريف مسأله: ارائه روشي براي خوشه بندي سريهاي زماني با استفاده از الگوريتم ژنتيک بطوري که بر مبناي معيار ارزيابي انتخاب شده، از روشهاي متداول خوشه بندي سريهاي زماني بهتر عمل نمايد • فرضيات حل مسأله: • ارزيابي خوشه بندي توسط معيار ICV انجام مي شود. • شباهت بين سريهاي زماني توسط فاصله اقليدسي تعيين مي گردد. • تعداد خوشه ها توسط کابر تعيين مي شود.
الگوريتم ژنتيک • الگوريتم ژنتيک اولين بار توسط John Holland در سال 1970 مطرح شد • روشي است براي حل مسائل بهينه سازي که بر مبناي ايده تکامل در طبيعت عمل مي کند • الگوريتم ژنتيک در حل مسائلي که فضاي جستجو بسيار پيچيده و بزرگ است (مانند مسائل NP-Hard) معمولاً بسيار موفق عمل مي کند
تنظيم قسمتهاي مختلف الگوريتم ژنتيک براي خوشه بندي • کد کردن فضاي مسأله در قالب کروموزمها • کد کردن شماره خوشه ها • کد کردن مراکز خوشه ها
بررسي فعاليتهاي انجام شده در زمينه خوشه بندي با استفاده از الگوريتم ژنتيک
IGA-Clustering: خوشه بندي سريهاي زماني به وسيله الگوريتم ژنتيک • اکثر الگوريتمهاي ارائه شده براي خوشه بندي داده هاي ايستا را براي سريهاي زماني نيز مي توان به کار برد • مشکل اساسي: ابعاد داده ها • راه حل: استفاده از ايده هاي به کار گرفته شده در AKU-kMeans و I-kMeans، در خوشه بندي به وسيله الگوريتم ژنتيک
IGA-Clustering: خوشه بندي سريهاي زماني به وسيله الگوريتم ژنتيک
IGA-Clustering: خوشه بندي سريهاي زماني به وسيله الگوريتم ژنتيک • تنظيم قسمتهاي مختلف الگوريتم ژنتيک • نحوه کد کردن فضاي مسأله در قالب کروموزومها: Cluster Center • تعداد جمعيت: 50 • تعداد ايجاد نسلها در هر مرحله (g): 10 • تابع هدف (Objective Function): ICV • تابع شايستگي (Fitness Function): رتبه بندي خطي
IGA-Clustering: خوشه بندي سريهاي زماني به وسيله الگوريتم ژنتيک • تنظيم قسمتهاي مختلف الگوريتم ژنتيک • عملگر انتخاب (Selection): roulette wheel selection • عملگر ترکيب (Crossover): Real Crossover • عملگر جهش (Mutation): • نرخ جهش: 0.3 • نرخ نخبه گرايي: 0.05
IGA-Clustering: خوشه بندي سريهاي زماني به وسيله الگوريتم ژنتيک • نگاشت کروموزومها به فضاي 2N بُعدي: • مثال: نگاشت يک کروموزوم حاوي 3 مرکز خوشه 2 بُعدي، به فضاي 4 بُعدي
مقايسه الگوريتم IGA-Clustering با AKU-kMeans و I-kMeans • الگوريتم IGA-Clustering را سه بار برروي هر يک از پنج بستر داده اجرا نموديم • مقايسه نتايج با جوابهاي بدست آمده از: • بهترين جواب يافت شده از پنجاه بار اجراي الگوريتم k-means برروي سريهاي زماني اصلي • بهترين جواب يافت شده از پنجاه بار اجراي الگوريتم I-kMeans با هر يک از سه روش کاهش ابعاد داده: DFT، PAA و PCA • بهترين جواب يافت شده از پنجاه بار اجراي الگوريتم AKU-kMeans با هر يک از سه روش کاهش ابعاد داده: DFT، PAA و PCA
مقايسه الگوريتم IGA-Clustering با AKU-kMeans و I-kMeans • نتايج بدست آمده
مقايسه الگوريتم IGA-Clustering با AKU-kMeans و I-kMeans • نسبت زمان اجراي الگوريتم IGA-Clustering به زمان اجراي الگوريتم k-means برروي داده هاي اصلي
جمع بندي • بررسي تعدادي از مهمترين فعاليتهاي انجام شده در زمينه خوشهبندي سريهاي زماني و مقايسه تطبيقي آنها در قالب يک جدول • بررسي تعدادي از مهمترين فعاليتهاي انجام شده در زمينه خوشهبندي به وسيله الگوريتم ژنتيک و مقايسه تطبيقي آنها در قالب يک جدول • ارائه يک تکنيک جديد به نام Sample Based Projection براي کاهش ابعاد دادهها • بررسي تأثير روشهاي مختلف کاهش ابعاد داده در خوشهبندي به وسيله الگوريتم k-means • ارائه الگوريتمي جديد به نام AKU-kMeans براي خوشهبندي سريهاي زماني • M.S. Sheikhaei, A. Abdollahzadeh, “AKU-kMeans: A New Method for Clustering of High Dimensional Data - An Experimental Approach”, Pattern Recognition Letters. • ارائه الگوريتمي به نام IGA-Clustering براي خوشهبندي سريهاي زماني با استفاده از الگوريتم ژنتيک
کارهاي آتي • بهبود زمان اجراي الگوريتم IGA-Clusteringبا انجام يک خوشه بندي اوليه برروي داده ها (همانند [Tseng2001]) و سپس اجراي الگوريتم IGA-Clustering برروي خوشههاي کوچک بدست آمد • استفاده از ايده مطرح شده در AKU-kMeans در روشهاي ديگر خوشه بندي • بررسي عملکرد تکنيک SBP در کاربردهاي ديگر • استفاده از معيارهاي پيچيده تر در اندازه گيري فاصله (مانند DTW) و خوشه بندي به وسيله الگوريتم ژنتيک بر مبناي آن فاصله
مراجع • [Agrawal1993] R. Agrawal, C. Faloutsos, and A. N. Swami, “Efficient Similarity Search In Sequence Databases”, in Proc. of the 4th International Conference of Foundations of Data Organization and Algorithms (FODO), Chicago, Illinois, pp. 69-84, 1993. • [Bhuyan1995] J.N. Bhuyan, “A Combination of Genetic Algorithm and Simulated Evolution Techniques for Clustering”, ACM Conference on Computer Science, pp. 127-134, 1995. • [Demerdash1999] N. A. O. Demerdash and J. F. Bangura, “Characterization of induction motors in adjustable-speed drives using a time-stepping coupled finite element state-space method including experimental validation”, IEEE Transactions On Industry Applications, vol. 35, pp. 790-802, July/Aug. 1999. • [Garai2004] G. Garai, and B.B. Chaudhuri, “A Novel Genetic Algorithm for Automatic Clustering”, Pattern Recognition Letters, 25(2): 173–187, 2004 • [Gesù2005] V.D. Gesù, R. Giancarlo, G.L. Bosco, A. Raimondi, D. Scaturro, “GenClust: A genetic algorithm for clustering gene expression data”. BMC Bioinformatics 6: 289, 2005. • [Hall1999] L.O. Hall, I.B. O. zyurt, J.C. Bezdek, “Clustering with a genetically optimized approach”, IEEE Transactions on Evolutionary Computation, vol. 3, no. 2, pp. 103–112, 1999.
مراجع • [Han2001] J. Han, and M. Kamber, Data Mining: Concepts and Techniques, San Francisco: Morgan Kaufmann, 2001. • [Hruschka2003] E.R. Hruschka, N.F.F. Ebecken, “A genetic algorithm for cluster analysis”, Intelligent Data Analysis, vol. 7, no. 1, pp. 15–25, 2003. • [Hruschka2004] E.R. Hruschka, R.J.G.B. Campello, L.N. de Castro, “Evolutionary search for optimal fuzzy C-means clustering”, in Proc. of the 13th IEEE International Conference on Fuzzy Systems, vol. 2, Budapest/Hungary, pp. 685– 690, 2004. • [Hruschka2006] E.R. Hruschka, R.J.G.B Campello, and L.N. de Castro, “Evolving clusters in gene-expression data”. Journal of Information Sciences, vol. 176, pp. 1898-1927, 2006. • [Johnson1984] W.B. Johnson and J. Lindenstrauss, “Extensions of Lipshitz mapping into Hilbert space”, in Conference in modern analysis and probability, vol. 26 of Contemporary Mathematics, pp. 189–206, Amer. Math. Soc., 1984. • [Kaufman1990] L. Kaufman, P.J. Rousseeuw, Finding Groups in Data—An Introduction to Cluster Analysis, Wiley Series in Probability and Mathematical Statistics, 1990.
مراجع • [Keogh2000] E. Keogh, K. Chakrabarti, M. Pazzani, and S. Mehrotra, “Dimensionality reduction for fast similarity search in large time series databases”, Journal of Knowledge and Information Systems, vol. 3, issue 3, pp. 263-286, 2000. • [Keogh2002] E. Keogh, and S. Kasetty, “On the need for time series data mining benchmarks: A survey and empirical demonstration”, in Proc. of SIGKDD, 2002. • [Keogh2003] E. Keogh, J. Lin, and W. Truppel, “Clustering of Time Series Subsequences is Meaningless: Implications for Past and Future Research”, In proc. of the 3rd IEEE ICDM, 2003, Melbourne, pp. 115-122, Nov. 19-22, 2003. • [Keogh2004] E. Keogh, T. Palpanas, V. Zordan, D. Gunopulos, and M. Cardle, “Indexing Large Human-Motion Databases”, In Proc. of the 30th International Conference on Very Large Data Bases (VLDB 2004), Toronto, Canada, pp. 780-791, 2004. • [Koontz1975] W.L.G. Koontz, P.M. Narendra, K. Fukunaga, “A branch and bound clustering algorithm”, IEEE Trans. Comput. C-24, 908-915, 1975. • [Krishna1999] K. Krishna, M.N. Murty, “Genetic k-means algorithm”, IEEE Transactions on Systems Man and Cybernetics-Part B: Cybernetics, vol. 29, no. 3, pp. 433-439, 1999. • [Liao2005] T. Warren Liao, “Clustering of time series data - a survey”, Journal of Pattern Recognition, vol. 38, Issue 11, pp. 1857-1874, November 2005.
مراجع • [Lin2004] J. Lin, M. Vlachos, E. Keogh, D. Gunopulos, “Iterative Incremental Clustering of Time Series”, In Proc. of the IX Conference on Extending Database Technology (EDBT 2004), Crete, Greece, pp. 106-122, 2004. • [Liu1968] G.L. Liu, Introduction to Combinatorial Mathematics, McGraw-Hill, 1968. • [Maulik2000] U. Maulik, S. Bandyopadhyay, “Genetic algorithm-based clustering technique”, Pattern Recognition, vol. 33, no. 9, pp. 1455–1465, 2000. • [Nielsen1994] R. Hecht-Nielsen, “Context vectors: general purpose approximate meaning representations self-organized from raw data”, Computational Intelligence: Imitating Life, p.p. 43–56, IEEE Press, 1994. • [Oates1999] T. Oates, L. Firoiu, and P. Cohen, “Clustering time series with hidden Markov models and dynamic time warping”, In Proc. of the IJCAI-99 Workshop on Neural, Symbolic and Reinforcement Learning Methods for Sequence Learning, pp. 17-21, 1999. • [Park1998] Y. Park, and M. Song, “A Genetic Algorithm for Clustering Problems”, Proc. of the Genetic Programming Conference, University of Wisconsin, July 1998. • [Pattarin2004] F. Pattarin, S. Paterlini, T. Minerva, “Clustering financial time series: an application to mutual funds style analysis”, Computational Statistics & Data Analysis, vol. 47, issue 2, pp. 353-372, 2004.
مراجع • [Ratanamahatana2004] Ratanamahatana, C. A. and Keogh. E. (2004). Making Time-series Classification More Accurate Using Learned Constraints. In proceedings of SIAM International Conference on Data Mining (SDM '04), Lake Buena Vista, Florida, April 22-24, 2004. pp. 11-22. • [Roweis1998] S. Roweis, “EM Algorithms for PCA and SPCA”, In Advances in Neural Information Processing Systems, vol. 10, p. 626, 1998. • [Sheikhaei] S. Sheikhaei Homepage at http://ce.aut.ac.ir/~sheikhaei • [Smith2002] L.I. Smith, A tutorial on Principal Components Analysis, 2002. • [Tseng2001] L.Y. Tseng, S.B. Yang, “A genetic approach to the automatic clustering problem”, Pattern Recognition, vol. 34, no. 2, pp. 415-424, 2001. • [Wang2006] X. Wang, K.A. Smith, and R.J. Hyndman, “Characteristic-based clustering for time series data”, Data Mining and Knowledge Discovery, vol. 13, no. 3, pp. 335-364, 2006. • [Yi2000] B-K. Yi, and C. Faloutsos, “Fast Time Sequence Indexing for Arbitrary Lp Norms”, Proc. of the VLDB, Cairo, Egypt, Sept. 2000. • [Zhu2004] Y. Zhu, High Performance Data Mining in Time Series: Techniques and Case Studies, Ph.D. Dissertation, New York University, January 2004.