Apuntes sobre Internet profunda o invisible

Autor: Yolagny Díaz Bermúdez / yolagny.diaz@mtz.jovenclub.cu

En la actualidad, cada vez con mayor frecuencia, se acude a los buscadores en Internet para encontrar información relacionada con investigaciones, tareas, actividades laborales, carteleras de actividades recreativas, ventas, etcétera. Se establecen los parámetros de búsquedas y se deja en “manos” del buscador seleccionado encontrar toda la información relacionada con el tema, pero… ¿encuentra realmente el buscador o metabuscador toda la información existente sobre dicha búsqueda?… No, hay una gran cantidad de información que no se muestra por los buscadores habituales, a no ser que se establezca una sintaxis específica para buscar en la Internet profunda o invisible.

El contenido en Internet se encuentra dividido en dos áreas con características diferentes; una primera que es fácilmente accesible a través de los buscadores y otra, según los expertos, 550 veces mayor, que escapa de los motores de búsquedas, denominada Internet invisible o también Internet profunda. En esta última se encuentra la información de numerosas bases de datos especializadas. A pesar de que los buscadores cada vez son más hábiles a la hora de recuperar todo tipo de documentos, una gran parte de la Web sigue siendo invisible a primera vista.

Los buscadores son la puerta de entrada al vasto océano de información que existe en Internet, sin embargo, no todos los contenidos de la red son objeto de una simple búsqueda en los directorios o robots (como sucede en Google, Yahoo o en Lycos) que rastrean las páginas Web automáticamente. Así, la “Web invisible” o “Web profunda” está formada por todos los documentos a los que no se puede acceder a través de directorios y los enlaces que ofrecen los resultados de los buscadores convencionales.

¿Por qué es invisible esta parte de Internet?

Para entender esta carencia es necesario conocer el funcionamiento actual de la mayoría de los buscadores. Cuando una persona realiza una consulta, el buscador no recorre la totalidad de Internet en busca de las posibles respuestas, lo cual supondría una capacidad de reacción bastante lenta. Lo que hace es buscar en su propia base de datos, que ha sido generada e indexada previamente. En sus labores de búsqueda y catalogación, utilizan las llamadas “arañas” o robots inteligentes que van saltando de una página Web a otra siguiendo los enlaces de hipertexto y registran la información allí disponible.

El problema aparece cuando la información requerida se encuentra en una página que carece de enlaces. En este caso, la única forma que tiene de ser registrada en un buscador es que su autor la incluya manualmente rellenando un formulario. En caso contrario, esta Web resultará invisible para todos aquellos usuarios de Internet que no conozcan la URL o dirección concreta.

Sin embargo, el que una página carezca de enlaces no es la única causa que puede llevar a una Web a permanecer en las profundidades, invisible a los buscadores. Éstos suelen indexar páginas estáticas que incluyen textos simples y que están programadas en HTML, el lenguaje de programación más común. Esta es la información que, sin ninguna duda, un usuario encontraría en la llamada Red superficial utilizando los buscadores más comunes y el resto pasa a formar parte de la Red profunda.

Actualmente, la posibilidad de buscar e indexar cierto tipo de archivos no textuales, como imágenes, audio, vídeo, archivos PDF, programas ejecutables o archivos comprimidos, se ha convertido en un reto para los motores de búsqueda más generales. Técnicamente la mayoría de estos formatos pueden ser indexados, pero muchos buscadores eligen no hacerlo por razones de negocio. En primer lugar, hay mucha menos demanda de este tipo de formatos que de textos HTML y, además, estos formatos son más difíciles de archivar y organizar, por lo que requieren más recursos del servidor y sobre todo un mayor costo económico. Sin embargo, la demanda se está imponiendo y los grandes buscadores ya recogen entre sus opciones la posibilidad de localizar imágenes, PDF e incluso vídeos y su lucha por ganar terreno a la Red profunda continúa.

La información que se genera dinámicamente también forma parte de esta área de Internet. La mayoría de estas páginas están generadas en HTML, por lo que en teoría son fácilmente indexables. El motivo más frecuente alegado por los buscadores para no hacerlo es que se han dado bastantes casos de rastreadores que se han visto atrapados en las llamadas trampas de araña, un sitio con miles o millones de páginas diseñadas solo para bloquear los motores de búsqueda.

También los datos que se generan en tiempo real, como pueden ser valores de Bolsa, información del tiempo, horarios de trenes, etcétera, suelen formar parte de la Red profunda. Aunque éstos, con un motivo bien fundamentado: su inmenso volumen y, principalmente, la gran rapidez con la que varía dicha información hacen bastante inservible para el usuario que un buscador general indexe un contenido tan fugaz. Por lo tanto, la mayoría eligen no hacerlo, aunque técnicamente sea posible.

Entre los recursos de información invisibles a los buscadores se encuentran:

– Catálogos de bibliotecas y bases de datos (bibliográficas, numéricas, a texto completo, etcétera).
– Revistas electrónicas y archivos de documentos, tanto de acceso gratuito como por suscripción, protegidas por clave de acceso. Se añaden también aquellas revistas que sólo pueden consultarse a partir de la recuperación de sus artículos en una búsqueda y que no utilizan la navegación por sumarios predefinidos.
– Depósitos de documentos en formatos que no se pueda indexar.
– Material archivado como documentos sin hipervínculos, que permanecen ocultos en los servidores, como las separatas, entre otros en versión electrónica.
– Recursos estadísticos que permanecen invisibles en instituciones académicas y centros de conocimiento.

Estrategia de búsqueda

La búsqueda de información en la Web se ha convertido en una tarea fundamental para el usuario. Independientemente del motor de búsqueda elegido, la definición de una estrategia de búsqueda efectiva es vital para encontrar y recuperar información pertinente en el gran océano de información que se nos presenta. Varios autores han abordado esta problemática y plantean que para encontrar información relevante se necesita experiencia, técnica, aptitudes, inventiva y buena suerte, todo ello combinado con la habilidad de definir con precisión lo que se desea buscar. A la hora de construir la estrategia de búsqueda deben considerarse los siguientes aspectos:

– Determinar el tipo de información que se necesita, dónde y cómo encontrarla. Es muy importante seleccionar previamente las posibles palabras clave y conceptos a emplear, tanto en español como en inglés, así como los sinónimos y variantes de estos términos.
– Determinar el tipo de herramienta de búsqueda a utilizar (directorio, buscador general o especializado, metabuscador). Es posible que la información deseada pueda identificarse en las bases de datos disponibles en línea, o en otros recursos, que eviten recurrir a los motores de búsqueda.
– Definir la estrategia de búsqueda correctamente, con precisión y claridad, según las posibilidades que abarque cada buscador.
– Evaluar resultados obtenidos, para modificar la estrategia de búsqueda planteada. Por lo general deben leerse los resultados preliminares ofrecidos por el buscador, antes de replantearse la estrategia de búsqueda.
– Navegar en las horas de menos tráfico, porque los buscadores generan aproximadamente el 85 % del tráfico en Internet, especialmente en los países con mayor acceso.
– Revisar cuidadosamente la ayuda del buscador.

La estrategia es muy importante en cualquier herramienta de búsqueda de información electrónica, sean los motores de Internet, las grandes bases de datos bibliográficas, etcétera; todo ello se ha convertido en un factor ineludible que incide sobre la pertinencia de los resultados de la búsqueda.

Con el desarrollo de Internet, aparecieron los motores de búsqueda, sin los cuales sería prácticamente imposible localizar recursos de información en la red. No existe un buscador que pueda considerarse como el mejor. Los buscadores generales perfeccionan los mecanismos de búsqueda e indización de los documentos, diseñan  interfaces  más  amigables y mejoran las técnicas de presentación y ordenamiento de los resultados, pero el nivel de conocimiento del usuario sobre el funcionamiento de los motores y, especialmente, la sintaxis a emplear guarda una estrecha relación con el éxito o el fracaso en la localización de páginas o recursos adecuados en Internet.

Refernecias

1- http://books.google.com.cu/books?id=2V9WB5s9lU4C&pg=PA198&lpg=PA198 &dq=tama%C3%B1o%22web+profunda%22&source=bl&ots=-rHJtEXh5f&sig=iRzeiHHg3O_489lFnK2T8fyV_FY&hl=es-419&ei=9B_eTp-hH4L20gGH4Y2fBw&sa=X&oi=book_result&ct=result&resnum=6&ved=0CEAQ6AEwB Q#v=onepage&q=tama%C3%B1o%22web%20profunda%22&f=false Libro digital “Sistemas interactivos y colaborativos en la Web.” Autores: Crescencio Bravo Santos, Miguel Ángel Redondo Duque, Miguel Ángel Redondo Duque.
2- http://bvs.sld.cu/revistas/aci/vol11_5_03/aci02503.htm
3- http://ciberperiodismo.crearblog.com/?p=85
4- http://curso-online-web2.blogspot.com/2009/07/diferencia-entre-la-internet.html
5- http://darotecno2009.blogspot.com/2009/10/que-diferencia-existe-entre-internet_22.html
6- http://es.wikipedia.org/wiki/Internet_profunda
7- http://es.wikipedia.org/wiki/Internet_Superficial
8- http://www.elpais.com/articulo/red/inmenso/oceano/Internet/profundo/elpeputec/20051020elpcibenr_6/Tes
9-www.lagaceta.com.ar/vernota.asp?id_seccion=8&seccion=&id_nota=129506
10- http://www.lib.umich.edu/megasite/toc.html
11- http://www.ojobuscador.com/noticias/la-internet-profunda/
12- http://www.teletrabajo.com.uy/noticias/como-encontrar-informacion-en-la-internet-profunda/155/

Share

Dejar una contestacion

Tu dirección de correo electrónico no será publicada.


*