1 / 93

اصول و مباني تحليل لاگ يا فايل هاي گزارش وب

اصول و مباني تحليل لاگ يا فايل هاي گزارش وب. حميد رضا جمالي استاديار دانشگاه تربيت معلم تهران رئيس پژوهشکده علم سنجي و تحليل اطلاعات ايرانداک 28/3/88 انجمن کتابداری و اطلاع رسانی ایران. برنامه کارگاه. ابزارهاي تحليل لاگ نمونه ها و قالب هاي لاگ اجزاء تشکيل دهنده متريک هاي پايه

tyne
Download Presentation

اصول و مباني تحليل لاگ يا فايل هاي گزارش وب

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. اصول و مباني تحليل لاگ يا فايل هاي گزارش وب حميد رضا جمالي استاديار دانشگاه تربيت معلم تهران رئيس پژوهشکده علم سنجي و تحليل اطلاعات ايرانداک 28/3/88 انجمن کتابداری و اطلاع رسانی ایران

  2. برنامه کارگاه • ابزارهاي تحليل لاگ • نمونه ها و قالب هاي لاگ • اجزاء تشکيل دهنده • متريک هاي پايه • مشکلات متريکها • متريکهاي پيشرفته • نتيجه

  3. پيشينه • دهه 60-70 تمرکز روي ارزيابي کارکرد سيستمها • دهه 70 تا اواسط 80 ظهور فهرستهاي آنلاين با تاکيد بر استفاده و نيز استفاده کننده • دهه 80، افزاي تنوع در کاربرد تحليل لاگ • دهه 90 به بعد، تحليل وب لاگ

  4. مفاهيم کاربر (client): رايانه اي که يک درخواست از آن ارسال مي شود درخواست (request): درخواست رايانه يک کاربر براي اطلاعات سرور (server): رايانه اي که اطلاعات را ارسال مي کند لاگهاي تراکنشي سرور (server transaction logs): يک رکورد از فايلهاي ارسال شده به کاربر توسط سرور در پاسخ به درخواست رسيده

  5. ابزارهاي تحليل لاگ • خودتان يک برنامه بنويسيد • يک نرم افزار آماري استفاده کنيد spss • يکي از نرم افزارهاي تجاري تحليل لاگ را استفاده کنيد

  6. فرمت يا قالب لاگ • فرمت معمولي يا رايج • فرمت معمولي بسط يافته • فرمت ترکيبي • فرمت تغيير يافته

  7. فيلدهاي فرمت معمولي • Remote hostname. • Date • Request • Status • Bytes

  8. نمونه فرمت معمولي 129.22.7.22 - - [30/May/2005:23:30:00 -0700] "GET /cgi/content/full/30/3/667 HTTP/1.1" 200 144369

  9. فرمت معمولي بسط يافته همان فيلدهاي فرمت معمولي بعلاوه موارد زير Referrer - URL which linked user to site User agent fields – visitor’s browser

  10. نمونه فرمت معمولي بسط يافته 129.22.7.22 - - [31/May/2004:00:06:39 -0400] "GET /cgi-bin/sciserv.pl?collection=journals&journal=02663538&issue=v61i0006&article=889_tdpogerdp&form=pdf&file=file.pdf HTTP/1.1" 302 5 "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; .NET CLR 1.1.4322)" "-"

  11. فيلدهاي فرمت ترکيبي فيلدهاي فرمت معمولي بعلاوه موارد زير referral field User agent field cookie field

  12. نمونه فرمت ترکيبي • 216.37.138.189 - - [19/May/2005:23:52:14 -0700] "GET /content/vol31/issue12/ HTTP/1.0" 200 35221 "http://www.e-poker-777.com/texas-hold-em-online.html" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; iOpus-I-M)" Qo2JHqtCeZkAAG-MQmI;edmob107j1.JS1

  13. فرمت تغيير يافته يا کاستيومايزد 133.1.155.60 143915 c4aaba66-7c6f-11d7-bb4a-8a0c593caa77 fc0f2bc6-b9e5-11d9-975c-8a0c5905aa77143915 05/01/05 02:09:01 C000011799 298788827 Main_Home_Page 1 y Subject_id 1

  14. کيوسکIntouch H 03-Nov-2003 Mon 15:48:39 0000 Female 1 under 15 D 03-Nov-2003 Mon 15:48:40 0001 1###########################001#XXX D 03-Nov-2003 Mon 15:48:41 0002 #2##########################002#XXX D 03-Nov-2003 Mon 15:48:42 0003 #2-j########################003#XXX T 03-Nov-2003 Mon 15:48:45 0006 E 03-Nov-2003 Mon 15:50:48 0129

  15. کيوسک وزارت بهداشت انگليس 2001-07-02 08:28:31 GET /images/moredown.gif 304 2794 2001-07-02 08:28:31 GET /images/print.gif 304 2494 2001-07-02 08:28:34 GET /images/moredown.gif 304 2984 2001-07-02 08:28:34 GET /data/CorneliadeLangesyndrome.xml 304 2994 2001-07-02 08:28:34 GET /data/caf/c72.htm 304 160

  16. تلويزيون ديجيتال 194.117.134.147 - - [19/Jul/2001:01:02:51 +0000] 'GET http://62.30.31.74/IllnessandTreatment/IT02ac02AppendicectomyOperation2.html HTTP/1.1' 200 0 'http://62.30.31.74/IllnessandTreatment/IT02ac02AppendicectomyOperation.html' 'Mozilla/3.0 (Liberate DTV 1.)' '0050942188C9'

  17. Remote Hostname Internet protocol (IP) Number • شماره آي پي: آدرسي که کامپيوترها را روي اينترنت به هم متصل مي کند • متشکل از 4 گروه عدد که با نقطه از هم جدا شده اند • با استفاده از (Reverse DNS lookup ) مي توان اطلاعات بيشتري به دست آورد • گاهي آدرس زير شبکه را هم مي توان شناسايي کرد

  18. Reverse Domain Name Server Lookup • دي ان اس: يک سرويس ثبت و کسب شماره آي پي • Reverse DNS lookup converts the IP number into the DNS name this gives: Name Organisation Type Academic, Commercial, Net provider Country details

  19. DNS Convention • US آمريکا .com, .edu, .net, .org, .arp No country extension • Rest بقيه دنيا .co, .ac, .net, .org, Country extension - .uk, .cg, in, es, etc

  20. IP – DNS نمونه 128.16.11.103 ezrin.cs.ucl.ac.uk 128.139.23.52 dell-chem-lab2.agri.huji.ac.il 130.216.129.3 ivan.rupenthal.phmcy.auckland.ac.nz 138.47.102.171 tcad10.engr.LaTech.edu 138.37.56.83 Bio-083.bio.qmul.ac.uk 138.48.25.221 biocell-11.biocell.fundp.ac.be 69.138.67.42 pcp08332133pcs.kirkav01.md.comcast.net

  21. بعضي کشورها متفاوت هستند • France navier.xtec.polytechnique.fr • Netherlands bmb09.chem.vu.nl • Norway p01052.hig.no • Finland iodine.abo.fi

  22. تعداد آي پي کشورها

  23. Date and Time Field • ساعت و زمان دانلود

  24. Request • اطلاعات زير را ثبت ميکند file name directory extension • يک صفحه شامل تعدادي فايل درخواست شده است

  25. مثالها /homehealthcareguide/Chickenpox.htm /output/full2.php?id=13881 /images/hphysicspol.gif /images/flwp.gif /content/vol28/issue13/images/small/gkd40002.gif /cgi/content/full/32/11/e92 /search/search.php?keyword=how+many+people+speaks+english&type=or&go=go

  26. توزيع تقريبي Ext File % of log lines .html HTML 30% .Gifs .JPG Graphics 64% .CSS Style sheets 4% .pl, .js etc. Other 2%

  27. status • يک کد سه رقمي که سرور در مورد درخواست ثبت مي کند • 2xx - Client's request was successfully • 3xx - Further action need • 4xx - Client Error • 5xx - Server Error

  28. رايج ترين ها • OK 200 • No Response 204 • Bad request 400 • Unauthorized 401 • PaymentRequired 402 • Forbidden 403 • Not found 404 • Internal Error 500 • Service temporarily overloaded 502

  29. نمونه

  30. کدهايي که معمولا بررسي مي شوند • 200 OK • 304 Not Modified ديگر موارد که ارزش بررسي دارد • 403 Forbidden – attempted access to pages requiring authorization

  31. user_agent • Identity of Web browser and platform used by the visitor to your site • ("Mozilla/4.05 [en] (WinNT; I)"

  32. referrerآدرس اينترنتي که کاربر را به سايت متصل مي کند www.google.com/search?hl=en&lr=&q=agnes+b.+%2B++store+locations&btnG=Search" search.yahoo.com/search?p=royal+albert+hall+london&toggle=1&ei=UTF-8&pstart=1&fr=FP-tab-web-t&b=231" www.e-poker-777.com/texas-hold-em-online.html

  33. Referrer مثال

  34. Cookies • کوکيها اطلاعاتي هستند که سرور HTTP مي تواند به همراه منبع درخواست شده به ماشين کاربر ارسال کند • مرورگر کاربر ممکن است اين اطلاعات را ذخيره کند و متعاقباً هنگام ارسال درخواستهاي بعدي اطلاعات آن را به سرور HTTP پس بفرستد

  35. متريک هاي پايه • Hits vs Page views • Use by DNS name, type and country • Time online • Pages viewed over time, by hour, by day • Pages viewed • Referrer • Searches

  36. Hits vs Page views • لاگ مشاهده صفحه را ثبت نمي کند. آنچه ثبت مي شود فايلهايي است که توسط کامپيوتر کاربر دانلود شده اند. به اينها هيت مي گويند • لاگ تعداد زيادي خطوط مربوط به فايلهاي مرتبط با تصاوير، سي اس اس و غيره است که بخشهاي يک صفحه وب را تشکيل مي دهند • خطوط مربوط به تصاوير و سي اس اس و برنامه ها و غيره بايد کنار گذاشته شوند و آنچه مي ماند نمايانگر مشاهده صفحه است

  37. Hits to Page views Hits Less graphic files etc. - 60 to 70% Incl. Only 200/304 files Exclude robots ====== Page views Pages about 20% of original “hits” file

  38. DNS – کشور

  39. DNS – نوع سازمان

  40. تاريخ استفاده

  41. روز استفاده

  42. صفحات مشاهده شده بر اساس موضوع و نوع Name % Menus Search Unclassified Research Health lifestyle exercise Child Health General Pharmacy Health News 49 4.3 3.3 3.1 3.1 3.0 2.7 2.6 2.5 2.3

  43. صفحات مشاهده شده، دسته بندي بر اساس نوع محتوا

  44. استفاده از دو مجله امرالد

  45. متوسط زمان مشاهده يک صفحه بر حسب ثانيه • Articles 111 • Abstract 35 • All 24

  46. Referrer across user type

  47. چند کلمه زياد جستجو شده history World english Ancient philosophy roman victorian women find

  48. مشکلات متريکها • شناسايي کاربران مشکل است • شمارش کاربران دقيق نيست • شمارش صفحات منتقل شده دقيق نيست • محاسبه طول زمان مشاهده صفحه دقيق نيست • اطلاعات دي ان اس دقيق نيست • عنوان صفحه و مسير صفحه • معماري وب سايت تأثير دارد

  49. شناسايي کاربران مشکل است • Proxy IP numbers • Floating IP numbers • Sharing computers • IP numbers are not a user metric

  50. Proxy IP Numbers • Proxy IP – a group of computers are routed through a single IP address • روي دقت و صحت تخمين تعداد کاربر تأثير دارد و تعداد را کم نشان مي دهد

More Related