930 likes | 1.15k Views
اصول و مباني تحليل لاگ يا فايل هاي گزارش وب. حميد رضا جمالي استاديار دانشگاه تربيت معلم تهران رئيس پژوهشکده علم سنجي و تحليل اطلاعات ايرانداک 28/3/88 انجمن کتابداری و اطلاع رسانی ایران. برنامه کارگاه. ابزارهاي تحليل لاگ نمونه ها و قالب هاي لاگ اجزاء تشکيل دهنده متريک هاي پايه
E N D
اصول و مباني تحليل لاگ يا فايل هاي گزارش وب حميد رضا جمالي استاديار دانشگاه تربيت معلم تهران رئيس پژوهشکده علم سنجي و تحليل اطلاعات ايرانداک 28/3/88 انجمن کتابداری و اطلاع رسانی ایران
برنامه کارگاه • ابزارهاي تحليل لاگ • نمونه ها و قالب هاي لاگ • اجزاء تشکيل دهنده • متريک هاي پايه • مشکلات متريکها • متريکهاي پيشرفته • نتيجه
پيشينه • دهه 60-70 تمرکز روي ارزيابي کارکرد سيستمها • دهه 70 تا اواسط 80 ظهور فهرستهاي آنلاين با تاکيد بر استفاده و نيز استفاده کننده • دهه 80، افزاي تنوع در کاربرد تحليل لاگ • دهه 90 به بعد، تحليل وب لاگ
مفاهيم کاربر (client): رايانه اي که يک درخواست از آن ارسال مي شود درخواست (request): درخواست رايانه يک کاربر براي اطلاعات سرور (server): رايانه اي که اطلاعات را ارسال مي کند لاگهاي تراکنشي سرور (server transaction logs): يک رکورد از فايلهاي ارسال شده به کاربر توسط سرور در پاسخ به درخواست رسيده
ابزارهاي تحليل لاگ • خودتان يک برنامه بنويسيد • يک نرم افزار آماري استفاده کنيد spss • يکي از نرم افزارهاي تجاري تحليل لاگ را استفاده کنيد
فرمت يا قالب لاگ • فرمت معمولي يا رايج • فرمت معمولي بسط يافته • فرمت ترکيبي • فرمت تغيير يافته
فيلدهاي فرمت معمولي • Remote hostname. • Date • Request • Status • Bytes
نمونه فرمت معمولي 129.22.7.22 - - [30/May/2005:23:30:00 -0700] "GET /cgi/content/full/30/3/667 HTTP/1.1" 200 144369
فرمت معمولي بسط يافته همان فيلدهاي فرمت معمولي بعلاوه موارد زير Referrer - URL which linked user to site User agent fields – visitor’s browser
نمونه فرمت معمولي بسط يافته 129.22.7.22 - - [31/May/2004:00:06:39 -0400] "GET /cgi-bin/sciserv.pl?collection=journals&journal=02663538&issue=v61i0006&article=889_tdpogerdp&form=pdf&file=file.pdf HTTP/1.1" 302 5 "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; .NET CLR 1.1.4322)" "-"
فيلدهاي فرمت ترکيبي فيلدهاي فرمت معمولي بعلاوه موارد زير referral field User agent field cookie field
نمونه فرمت ترکيبي • 216.37.138.189 - - [19/May/2005:23:52:14 -0700] "GET /content/vol31/issue12/ HTTP/1.0" 200 35221 "http://www.e-poker-777.com/texas-hold-em-online.html" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; iOpus-I-M)" Qo2JHqtCeZkAAG-MQmI;edmob107j1.JS1
فرمت تغيير يافته يا کاستيومايزد 133.1.155.60 143915 c4aaba66-7c6f-11d7-bb4a-8a0c593caa77 fc0f2bc6-b9e5-11d9-975c-8a0c5905aa77143915 05/01/05 02:09:01 C000011799 298788827 Main_Home_Page 1 y Subject_id 1
کيوسکIntouch H 03-Nov-2003 Mon 15:48:39 0000 Female 1 under 15 D 03-Nov-2003 Mon 15:48:40 0001 1###########################001#XXX D 03-Nov-2003 Mon 15:48:41 0002 #2##########################002#XXX D 03-Nov-2003 Mon 15:48:42 0003 #2-j########################003#XXX T 03-Nov-2003 Mon 15:48:45 0006 E 03-Nov-2003 Mon 15:50:48 0129
کيوسک وزارت بهداشت انگليس 2001-07-02 08:28:31 GET /images/moredown.gif 304 2794 2001-07-02 08:28:31 GET /images/print.gif 304 2494 2001-07-02 08:28:34 GET /images/moredown.gif 304 2984 2001-07-02 08:28:34 GET /data/CorneliadeLangesyndrome.xml 304 2994 2001-07-02 08:28:34 GET /data/caf/c72.htm 304 160
تلويزيون ديجيتال 194.117.134.147 - - [19/Jul/2001:01:02:51 +0000] 'GET http://62.30.31.74/IllnessandTreatment/IT02ac02AppendicectomyOperation2.html HTTP/1.1' 200 0 'http://62.30.31.74/IllnessandTreatment/IT02ac02AppendicectomyOperation.html' 'Mozilla/3.0 (Liberate DTV 1.)' '0050942188C9'
Remote Hostname Internet protocol (IP) Number • شماره آي پي: آدرسي که کامپيوترها را روي اينترنت به هم متصل مي کند • متشکل از 4 گروه عدد که با نقطه از هم جدا شده اند • با استفاده از (Reverse DNS lookup ) مي توان اطلاعات بيشتري به دست آورد • گاهي آدرس زير شبکه را هم مي توان شناسايي کرد
Reverse Domain Name Server Lookup • دي ان اس: يک سرويس ثبت و کسب شماره آي پي • Reverse DNS lookup converts the IP number into the DNS name this gives: Name Organisation Type Academic, Commercial, Net provider Country details
DNS Convention • US آمريکا .com, .edu, .net, .org, .arp No country extension • Rest بقيه دنيا .co, .ac, .net, .org, Country extension - .uk, .cg, in, es, etc
IP – DNS نمونه 128.16.11.103 ezrin.cs.ucl.ac.uk 128.139.23.52 dell-chem-lab2.agri.huji.ac.il 130.216.129.3 ivan.rupenthal.phmcy.auckland.ac.nz 138.47.102.171 tcad10.engr.LaTech.edu 138.37.56.83 Bio-083.bio.qmul.ac.uk 138.48.25.221 biocell-11.biocell.fundp.ac.be 69.138.67.42 pcp08332133pcs.kirkav01.md.comcast.net
بعضي کشورها متفاوت هستند • France navier.xtec.polytechnique.fr • Netherlands bmb09.chem.vu.nl • Norway p01052.hig.no • Finland iodine.abo.fi
Date and Time Field • ساعت و زمان دانلود
Request • اطلاعات زير را ثبت ميکند file name directory extension • يک صفحه شامل تعدادي فايل درخواست شده است
مثالها /homehealthcareguide/Chickenpox.htm /output/full2.php?id=13881 /images/hphysicspol.gif /images/flwp.gif /content/vol28/issue13/images/small/gkd40002.gif /cgi/content/full/32/11/e92 /search/search.php?keyword=how+many+people+speaks+english&type=or&go=go
توزيع تقريبي Ext File % of log lines .html HTML 30% .Gifs .JPG Graphics 64% .CSS Style sheets 4% .pl, .js etc. Other 2%
status • يک کد سه رقمي که سرور در مورد درخواست ثبت مي کند • 2xx - Client's request was successfully • 3xx - Further action need • 4xx - Client Error • 5xx - Server Error
رايج ترين ها • OK 200 • No Response 204 • Bad request 400 • Unauthorized 401 • PaymentRequired 402 • Forbidden 403 • Not found 404 • Internal Error 500 • Service temporarily overloaded 502
کدهايي که معمولا بررسي مي شوند • 200 OK • 304 Not Modified ديگر موارد که ارزش بررسي دارد • 403 Forbidden – attempted access to pages requiring authorization
user_agent • Identity of Web browser and platform used by the visitor to your site • ("Mozilla/4.05 [en] (WinNT; I)"
referrerآدرس اينترنتي که کاربر را به سايت متصل مي کند www.google.com/search?hl=en&lr=&q=agnes+b.+%2B++store+locations&btnG=Search" search.yahoo.com/search?p=royal+albert+hall+london&toggle=1&ei=UTF-8&pstart=1&fr=FP-tab-web-t&b=231" www.e-poker-777.com/texas-hold-em-online.html
Cookies • کوکيها اطلاعاتي هستند که سرور HTTP مي تواند به همراه منبع درخواست شده به ماشين کاربر ارسال کند • مرورگر کاربر ممکن است اين اطلاعات را ذخيره کند و متعاقباً هنگام ارسال درخواستهاي بعدي اطلاعات آن را به سرور HTTP پس بفرستد
متريک هاي پايه • Hits vs Page views • Use by DNS name, type and country • Time online • Pages viewed over time, by hour, by day • Pages viewed • Referrer • Searches
Hits vs Page views • لاگ مشاهده صفحه را ثبت نمي کند. آنچه ثبت مي شود فايلهايي است که توسط کامپيوتر کاربر دانلود شده اند. به اينها هيت مي گويند • لاگ تعداد زيادي خطوط مربوط به فايلهاي مرتبط با تصاوير، سي اس اس و غيره است که بخشهاي يک صفحه وب را تشکيل مي دهند • خطوط مربوط به تصاوير و سي اس اس و برنامه ها و غيره بايد کنار گذاشته شوند و آنچه مي ماند نمايانگر مشاهده صفحه است
Hits to Page views Hits Less graphic files etc. - 60 to 70% Incl. Only 200/304 files Exclude robots ====== Page views Pages about 20% of original “hits” file
صفحات مشاهده شده بر اساس موضوع و نوع Name % Menus Search Unclassified Research Health lifestyle exercise Child Health General Pharmacy Health News 49 4.3 3.3 3.1 3.1 3.0 2.7 2.6 2.5 2.3
صفحات مشاهده شده، دسته بندي بر اساس نوع محتوا
متوسط زمان مشاهده يک صفحه بر حسب ثانيه • Articles 111 • Abstract 35 • All 24
چند کلمه زياد جستجو شده history World english Ancient philosophy roman victorian women find
مشکلات متريکها • شناسايي کاربران مشکل است • شمارش کاربران دقيق نيست • شمارش صفحات منتقل شده دقيق نيست • محاسبه طول زمان مشاهده صفحه دقيق نيست • اطلاعات دي ان اس دقيق نيست • عنوان صفحه و مسير صفحه • معماري وب سايت تأثير دارد
شناسايي کاربران مشکل است • Proxy IP numbers • Floating IP numbers • Sharing computers • IP numbers are not a user metric
Proxy IP Numbers • Proxy IP – a group of computers are routed through a single IP address • روي دقت و صحت تخمين تعداد کاربر تأثير دارد و تعداد را کم نشان مي دهد