180 likes | 308 Views
Maarten Schenk 23/09/2006. Drie Vlaamse weblogdiensten doorgelicht Perl, RSS en een beetje geduld. Het plan. Een aantal Vlaamse blogdiensten publiceren een index met links naar hun ‘publieke’ weblogs
E N D
Maarten Schenk 23/09/2006 Drie Vlaamse weblogdiensten doorgelichtPerl, RSS en een beetje geduld
Het plan • Een aantal Vlaamse blogdiensten publiceren een index met links naar hun ‘publieke’ weblogs • Als we al deze weblogs nu eens zouden bekijken om te zien wanneer ze hun laatste bericht on-line hebben gezet • Dankzij de wonderen van RSS en enkele tientallen lijntjes Perl-script is dit geen enkel probleem! • We kunnen dan een schatting maken van het aantal ‘actieve’ blogs op deze diensten
Wie zijn de kandidaten? • www.seniorennet.be • Pascal Vyncke • www.bloggen.be • Zelfde code als de seniorennet blogs • www.skynet.be • Nl • Fr
Waarom die? • Enigen in Vlaanderen die open index publiceren • TypePad niet • zit verdeeld over Vlaanderen en Nederland • Is een betalende dienst • Is relatief klein in Vlaanderen (<1000) • Inactieve gebruikers worden gewist • Telenetblogs ook niet • Publiceren geen index • Andere, buitenlandse diensten: • Moeilijk te zien welke blogs ‘Vlaams’ zijn
De uitvoering (1) • Bloglijsten maken • Seniorennet en bloggen.be publiceren volledige lijsten op hun site die je gewoon kan downloaden in HTML formaat • Bij Skynetblogs is de index verdeeld aan de hand van beginletters in meerdere delen met vele sub-pagina’s • Gelukkig is de URL voorspelbaar, dus met een klein scriptje kon op een uurtje heel de lijst worden binnengehaald, zowel nl als fr • Via reguliere expressies in Perl is het een koud kunstje de URL’s van de blogs uit de HTML te vissen.
De uitvoering (2) • RSS feeds binnenhalen • Alle RSS feeds van de gevonden blogs werden één voor één geopend, en de datum van het recentste (bovenste) bericht werd geturfd • RSS feeds die niet werden gevonden of waarin geen geldige datum werd aangetroffen, werden als ‘unknown’ geteld • Uitvoer: een gesorteerde lijst met het aantal blogs per datum dat op die datum laatst werd bijgewerkt • Dit alles nam per blogdienst minder dan een uur in beslag
De resultaten • De uitgevoerde tab-separated bestanden werden in Excel ingevoerd • Grafieken werden gegenereerd • Per dienst werd ook berekend hoeveel blogs er bijgewerkt werden in de laatste maand, twee maanden en drie maanden • Laten we eens kijken…
Bloggen.be • 6290 blogs gescand • 21 zonder datum • Laatste maand 1625 blogs bijgewerkt • Laatste twee maanden 2274 blogs bijgewerkt • Laatste drie maanden 3037 blogs bijgewerkt • Kleine piek aan het begin van de service, waarschijnlijk ‘testblogs’
Seniorennet blogs • 5486 blogs gescand • 231 zonder datum • Laatste maand 2185 blogs bijgewerkt • Laatste twee maanden 2780 blogs bijgewerkt • Laatste drie maanden 3152 blogs bijgewerkt
Skynetblogs - nl • 21396 blogs gescand • 9045 zonder datum(!) • Laatste maand 2130 blogs bijgewerkt • Laatste twee maanden 2762 blogs bijgewerkt • Laatste drie maanden 2889 blogs bijgewerkt • Grote aantallen blogs zonder RSS feed • Bij steekproeven bleken deze leeg of niet langer actief te zijn • Half juni 2005 moet er volgens de grafiek ‘iets’ gebeurd zijn waardoor sommige inactieve blogs zonder RSS vielen • Twee opvallende pieken: Tsunami actie en ?
Skynetblogs - fr • 52346 blogs gescand • 25834 zonder datum(!) • Laatste maand 3908 blogs bijgewerkt • Laatste twee maanden 5301 blogs bijgewerkt • Laatste drie maanden 5635 blogs bijgewerkt • Grote aantallen blogs zonder RSS feed • Bij steekproeven bleken deze leeg of niet langer actief te zijn • Half juni 2005 moet er volgens de grafiek ‘iets’ gebeurd zijn waardoor sommige inactieve blogs zonder RSS vielen • Twee opvallende pieken: Tsunami actie en ?
Een paar bedenkingen • Als men alleen de publiek geïndexeerde blogs telt, is de blogdienst van Seniorennet groter dan Skynetblogs in Vlaanderen • Bij Skynetblogs is het mogelijk z’n blog niet in de index te laten opnemen door hem als ‘niet publiek’ aan te merken • Skynet claimt 100.000+ aangemaakte blogs, een verschil van +-30.000 met wat in de index terug te vinden is. Vermoedelijk een deel ‘niet publiek’ en een deel gewiste blogs. • Bij Skynet zijn er heel erg grote aantallen blogs zonder RSS feed, en zit er een verdachte ‘trog’ in de grafieken. Mogelijk vertekent dit het beeld van de drie laatste maanden mee…
Slot en vragen • Als iemand nog (Vlaamse) blogdiensten kent die een open index publiceren, laat me dan iets weten (maarten@sixapart.com) • Ook manieren om ‘Vlaamse’ blogs op buitenlandse diensten in een lijst te krijgen zijn welkom • Vragen?