800 likes | 952 Views
Tema 4. Búsquedas en el Web. Sistemas de Gestión Documental. Introducción. El WWW data de finales de 1980. Tiene un ritmo de crecimiento exponencial. Podemos encontrar información textual, pero también multimedia. Podemos considerar el web como una enorme base de datos sin estructura.
E N D
Tema 4.Búsquedas en el Web Sistemas de Gestión Documental
Introducción • El WWW data de finales de 1980. • Tiene un ritmo de crecimiento exponencial. • Podemos encontrar información textual, pero también multimedia. • Podemos considerar el web como una enorme base de datos sin estructura.
Introducción • Se plantea el problema de encontrar información en el Web. Existen 3 formas distintas de hacer búsquedas: • Utilizar motores de búsqueda (indexan parte del web como documentos en una base de datos textual). • Usar Directorios Web (clasifican documentos por temas). • Realizar búsquedas utilizando la característica de hiperenlaces.
Introducción • Los principales problemas con los que nos enfrentamos son: • Datos distribuidos. • Alto porcentaje de datos volátiles. • Enorme cantidad de información. • Datos redundantes y no estructurados. • Calidad de los datos. • Datos heterogéneos.
Search Engines • ¿Como funcionan? • No buscan en el web directamente • Utilizan una base de datos de páginas web. • Las bases de datos las crean los spiders o crawlers. Buscan páginas en base a los links que poseen. • Una página que no esté enlazada nunca será indexada. • Los spiders envían las páginas web a programas indexadores, que identifican texto, enlaces, ... Almacenan en la base de datos los términos indexados. • Algunos tipos de páginas son excluidos de la indexación siguiendo alguna regla (páginas no encontradas, contenido no adecuado, formato no procesable, información generada de forma dinámica, etc.).
Search Engines Features Chart Last updated Oct. 1, 2007.
Search Engines (¿diferentes?) http://www.bruceclay.com/searchenginerelationshipchart.htm
Metasearch Dogpile http://www.dogpile.com Popular metasearch site owned by InfoSpace that sends a search to a customizable list of search engines, directories and specialty search sites, then displays results from each search engine individually. Vivisimo http://vivisimo.com/ Enter a search term, and Vivismo will not only pull back matching responses from major search engines but also automatically organize the pages into categories. Slick and easy to use. Kartoo http://www.kartoo.com If you like the idea of seeing your web results visually, this meta search site shows the results with sites being interconnected by keywords. Mamma http://www.mamma.com Founded in 1996, Mamma.com is one of the oldest meta search engines on the web. Mamma searches against a variety of major crawlers, directories and specialty search sites. The service also provides a paid listings option for advertisers, Mamma Classifieds. SurfWax http://www.surfwax.com Searches against major engines or provides those who open free accounts the ability to chose from a list of hundreds. Using the "SiteSnaps" feature, you can preview any page in the results and see where your terms appear in the document. Allows results or documents to be saved for future use.
Metasearch MetaEurekahttp://www.metaeureka.com ProFusionhttp://www.profusion.com Query Serverhttp://www.queryserver.com/web.htm Turbo10http://turbo10.com Search.comhttp://www.search.com Ujikohttp://www.ujiko.com/ WebCrawlerhttp://www.webcrawler.com ZapMetahttp://www.zapmeta.com InfoGridhttp://www.infogrid.com Infonetware RealTerm Searchhttp://www.infonetware.com Ixquickhttp://www.ixquick.com/ iZitohttp://www.izito.com Jux2http://www.jux2.com/ Meceoo http://www.meceoo.com/ MetaCrawlerhttp://www.metacrawler.com Clustyhttp://www.clusty.com CurryGuidehttp://web.curryguide.com/ Excitehttp://www.excite.com Fazzlehttp://www.fazzle.com/ Gimeneihttp://gimenei.com/ IceRockethttp://www.icerocket.com/ Info.comhttp://www.info.com
El web invisible • ¿Qué es? • El web visible es lo que se ve como resultado de una consulta en un buscador o en los directorios. • El web invisible está formado por todas aquellas páginas y contenidos que no pueden ser procesados por los buscadores y catalogados en los índices. Por ejemplo: • Información dinámica. • Bases de datos buscables. • Páginas excluidas de los buscadores por algún tipo de política de procesamiento. • Los buscadores no pueden encontrar la información ofrecida en estas páginas. • Para acceder a la información del web invisible hay que ir directamente a la página que la ofrece, y buscar en ella.
El web invisible • ¿Cómo buscar en el web invisible? • Hay que mantener en la mente el concepto “bases de datos” y permanecer atento a cualquier información que nos puedan ofrecer los buscadores y directorios. • Las páginas pueden aparecer en cualquier momento de la navegación o ejecución de nuestras consultas. • Para encontrar páginas del web invisible se pueden utilizar buscadores añadiendo en la consulta el término “base de datos” o “database”. Ejemplo: plane crash database • Además de planificar una buena búsqueda con una estrategia adecuada en un buscador o un directorio, hay que dedicar tiempo a investigar las bases de datos que encontremos referentes a los temas de nuestra necesidad de información.
El web invisible • When dealing with the Deep Web, keep these points in mind: • Information that is likely to be stored in a database is a part of the deep Web. • Information that is new and dynamically changing in content will appear on the deep Web. • Web sites of searchable databases can be retrieved via directories and search engines. • Many search engine sites and commercial portals feature searchable databases as part of their package of services. • Some search engines will search the deep Web for related content subsequent to an initial search. • Topical coverage on the deep Web is extremely varied. • Some of the information stored on Web-accessible databases may not be substantive or useful to most searchers.
El web invisible The Invisible Web: Databases not accessible to ordinary search engines.
Algunas estadísticas Millions Of Textual Documents Indexed
Algunas estadísticas Billions Of Textual Documents IndexedDecember 1995-September 2003 Search Engine Size November 2004
Algunas estadísticas How many searches are performed each day? Below are how many searches happen within the United States in March 2006, based on comScore figures.
Como buscar en el WebEstrategias Step #3. Learn as you go & VARY your approach with what you learn. Don't assume you know what you want to find. Look at search results and see what you might use in addition to what you've thought of. Step #4. Don't bog down in any strategy that doesn't work. Switch from search engines to directories and back. Find specialized directories on your topic. Think about possible databases and look for them. Step #5. Return to previous strategies better informed.
Como buscar en el WebEstrategias • Search Strategies We Do NOT Recommend • Because of their inefficiency and often haphazard and frustrating results, we do not recommend either of the following two approaches to finding Web documents: • Browsing searchable directories. If you can find a search box, search a directory. BROWSING is sometimes fun but rarely as efficient. The term "directories" refers here to any collection of web resources organized into subject categories or some other breakdown appropriate to the content (Subject Directories or directories of specialized databases). Browsing locates documents by your trying to match your topic in first the top, broadest layer of a subject hierarchy, then by choosing narrower sub-subject-categories in the hierarchy that you hope will lead to your target. Browsing encounters the difficulty of guessing under which subject category your topic is classified. The taxonomy in every directory differs, making browsing inconsistent from one search tool to another. The category "health" may contain documents on medicine, homeopathy, psychiatry, and fitness in one directory. In another "medicine" may include health, mental health, and alternative medicine, but not the term psychiatry and may classify fitness only under "lifestyle." Searching (typing keywords in a search box) retrieves occurrences of your words no matter where they may be classified by subject. Use broad terms in searching any directory. • Following links to sites recommended by heavy use or commercial interest. Often in search engine results, you will see links to sites that are selected based on how often they are visited by others, or based on fees paid to the browser. Or you may see recommended "cool" sites. Use these with caution! Others may visit sites for reasons having no relation to your information interests, and the best sites for you may still be largely undiscovered by the vast public searching the Web. Taste varies and should vary. Make your own evaluations.