220 likes | 347 Views
Profiling im Internet. Sebastian Süß Großes Seminar. Inhalt. Profiling Was? Wer? Warum? HTTP Kurze Einführung/Wissensaufbereitung Cookies Kurze Einführung/Wissensaufbereitung. Inhalt. Techniken des Datensammelns Angewandte Techniken Gewonnene Daten Zusammenfassung
E N D
Profiling im Internet Sebastian Süß Großes Seminar
Inhalt • Profiling • Was? Wer? Warum? • HTTP • Kurze Einführung/Wissensaufbereitung • Cookies • Kurze Einführung/Wissensaufbereitung
Inhalt • Techniken des Datensammelns • Angewandte Techniken • Gewonnene Daten • Zusammenfassung • Vortrag kurz zusammengefasst
Profiling • Profiling • Daten sammeln, aktiv/passiv • Firmen mit Online-Auftritt, Marketingunternehmen, Internet-Werbeargenturen • Zweck • Marktanalysen / Statistiken • (Zugriffe, Browsertypen, Betriebssysteme, …) • 1-zu-1 Marketing • (Individualisierung der Seiten / Werbung, E-Mails) • Profildatenhandel • (kategorisierter Handel mit Profildaten)
Profiling • Datentypen • Anonyme Daten • Hits, Unique Visitor, Verweildauer • Pseudonyme Daten • E-Mail Adressen, Suchanfragen, Newsletter/Mailing List-Registrierung • Personifizierte Daten • Kundendaten, Kreditkartendaten, Transaktionsdaten
HTTP • HTTP – HyperText Transfer Protocol • ASCII-Protokoll, zustandslos, Request/Response • Austausch von Hypermedien, MIME-Typ • Client - / Server - Kommunikation • TCP/IP application-Layer • Beschreibung/Regeln in RFC 2068
HTTP Request / Response Beispiel Verbindungs- Abbau Verbindungs- Aufbau HTTP Kommunikation: Telnet • Response: • Header • Dokument C: telnet 212.201.7.104 80 GET Request C: GET /index.htm http/1.1 C: <RETURN> S: HTTP/1.1 200 OK S: Date: Sat, 09 Feb. 2002 12:18:19 GMT S: Server: Apache/1.3.19 (Win32) S: Last-Modified: Sat, 09 Feb 2002 … S: … S: Content-Type: text/html S: S: <HTML-DOCUMENT>
Cookies • Cookie – HTTP Gedächtnis • Lösung der Zustandslosigkeit in HTTP • Server „markiert“ seine Besucher • Infos des Servers, evtl. Speicherung auf Client • Browsereinstellungen, Verfallsdatum • Bei erneutem Request auf Domain zurückgesendet • Bsp.: ID, Benutzername, Anzahl Besuche, … • Beschreibung/Regeln in RFC 2109
Response: • Header • Dokument HTTP Header: … X-Powered-By: PHP/4.0.4pl1 Set-Cookie: MeinCookie=Hallo; expires Mon, 25-Feb-2002 13:46:00 GMT … Bsp. Netscape in cookies.txt: GET Request … Localhost FALSE / FALSE 1014127116 MeinCookie Hallo Cookie setzen PHP Beispiel: // Datei: index.php … setcookie („MeinCookie“, „Hallo“, time()+3600); …
POST Request Cookie lesen POST Request Header + Cookie Beispiel: POST /index.php HTTP/1.1 Cookie: $Version="1"; MeinCookie=„Hallo"; $Path="/"; [form data]
Resümee über Cookies • Fakten • Nur Browser schreibt auf Platte • Server kann nur schreiben, was er schon weiß • Server kann nur lesen, was er selbst (oder Rechner aus Domain) geschrieben hat • 20 Cookies pro Domain à 4KB (max. 300 Stück) • Keine Viren, da ASCII Zeichen und nicht ausführbar
Resümee über Cookies • Gefahren • Statistiken über Besuche • Vorlieben/Interessen auf dem Server können an den Tag gelegt werden • Ausnutzung max. Anzahl + Größe von Cookies können Wartezeiten/Netzbelastungen entstehen
Resümee über Cookies • Nutzen • Angaben z.B. Login müssen nicht immer erneut eingegeben werden (spart evtl. Zeit) • Gesammelte Daten des Betreibers können Webseiten personalisieren • Werbung ist evtl. auf unsere Interessen abgestimmt
Techniken beim Datensammeln • WWW-Server-Logs • Umfangreiche Informationen beim Verbindungsaufbau • Zugriffe in log-Dateien festhalten und auswerten • Cookies Customer Profiling • Werbenetzwerk • Profiling in mehrere Domains
Techniken beim Datensammeln • Web-Bugs • 1x1 Pixel großes GIF • Von einem Drittanbieter platziert
www-Server-Logs/Hits • Hits • Zugriffe auf Elemente des Servers protokollieren • Pfad einer Session wird ersichtlich • Angebote, Links die wahrgenommen wurden
www-Server-Logs/IP • IP-Adresse • Namensauflösung (DENIC, RIPE,...): • Geographische Lage • Personen, Unternehmen die den Adressraum registriert haben (Adresse, Telefon, E-Mail) • Größe des Adressraums • Provider
www-Server-Logs/IP IP der FH Giessen 212.201.18.77 inetnum: 212.201.0.0 - 212.201.18.255 netname: FH-GIESSEN descr: Fachhochschule Giessen-Friedberg descr: institution of higher education descr: location Giessen country: DE
www-Server-Logs/IP IP der FH Giessen 212.201.18.77 person: Gerhard Franke address: Fachhochschule Giessen-Friedberg address: Wiesenstr. 14 F address: 35390 Giessen address: Germany phone: +49 641 309 1283 e-mail: Gerhard.Franke@MNI.FH-Giessen.de
www-Server-Logs • Infos über Betriebssystem • BS + Version, Auflösung + Farbtiefe • Browsereinstellungen • Browser + Version, Sprache, Plug-ins • E-Mail (Netscape) • Herkunft der Anfrage • Link von anderer Webseite
Aggregiert Daten zur ID Schaltet Werbung Schaltet Werbung Besucht Server Besucht Server Besucht Server www.nozama.de (Bücher) Setzt Cookie mit ID www.yube.de (PCs) Internet Werbeargentur (z.B. doubleklick.com) Schaltet Werbung (z.B. Bücher) www.kaufen.de (Kleidung) Cookies – Customer ProfilingWeb-Bugs Sendet Cookie mit ID
Zusammenfassung • Profiling • Was es ist, wer es betreibt und warum • HTTP / Cookies • Einführung in die Funktionsweise • Techniken des Datensammelns • Server-Logs, Cookies, Web-Bugs • Werbenetzwerke