Búsqueda
de información para
Ingeniería
en Internet
¿Porqué
un curso sobre Internet para Ingenieros?
Tradicionalmente en las Bibliotecas, los
recursos a los que no podíamos acceder sencillamente no existían.
Los usuarios debían conformarse con lo que la Biblioteca tenía.
Con la red, esto ya no es justificable:
se pude acceder a muchísima información puesta de forma fácil,
accesible y gratuita, que no siempre es aprovechada convenientemente.
Es responsabilidad de la Biblioteca conocerla,
controlarla, y facilitarla, ayudando a los usuarios a un buen uso de la
red.
Por regla general, los Usuarios, desde
los inicios en la red, se han acostumbrados a buscar la información
por si mismos sin conocer la naturaleza y variedad de la información
que pueden encontrar y las características de las herramientas de
búsqueda y recuperación, con resultados generalmente malos.
Nuestro objetivo: ayudar a que nuestros
usuarios dejen de "navegar" por Internet y comiencen a "utilizar" la red
Problemas
de la recuperacion de información en Internet
Enorme volumen de información
28 millones de sedes -sites-
con 50 millones de hosts -máquinas-, algunas con más de 100.000
páginas. 3.200 millones de páginas, la mayoría con
múltiples "pantallazos" y gran tamaño en bytes, elevado nº
de objetos multimedia. 120 millones de ordenadores conectados (marzo 2001).
Se ha calculado que la información existente se duplica cada 6 u
8 meses (fuera de la red, cada 7 años).
Lentitud de las conexiones
El volumen de información
unido a la deficiencias de muchas redes y nodos hace que este sea uno de
los problemas que más sienten los usuarios. La lentitud se agrava
cuantos más elementos multimedia estemos considerando. Los buscadores
suelen ser rápidos (1 segundo por consulta) pero dado el volumen
de consultas que reciben constantemente, se ralentizan.
Alto ritmo en el cambio de
la información
La vida media de una página
es de 44 a 72 días. Mucha información en Internet es de servicios
actualizados de forma casi constante (CNN). aproximadamente entre el 10
a 15% de los resultados de cualquier búsqueda son enlaces perdidos.
Caos en los contenidos:
La característica
fundamental de la información en Internet es su accesibilidad y
asequibilidad: no existe el control de la "edición" tradicional.
La calidad de la información no está contrastada, falta muchas
veces actualización o la información sobre cuando fueron
actualizados los datos. Falta frecuentemente la indicación de la
autoría y responsabilidad de la información. Se calcula que
un 30% de los errores de recuperacióin se deben a errores de tipeo.
Complejidad y diversificación
de la información
No deja de ser una contradicción
que mientras una de las claves de Internet sea la accesibilidad mundial,
la mulitplicidad de formas y medios sea un obstáculo para el libre
acceso.
Los documentos en Internet
tienen una serie de características que condicionan su uso: son
compuestos (incluyen texto, imagen fija, audio, imagen en movimiento, etc.),
dinámicos (sufren múltiples modificaciones y actualizaciones),
altamente interrelacionados (links), de estructura a veces compleja (frames,
páginas dinámicas).
Cada vez más, el
público necesita no sólo información textual, sino
iconográfica, sonora, etc., que suele estar en diversos formatos:
web (HTML), texto (ASCII, PDF, Postcript), comprimidos (ZIP), audio (MIDI,
WAV), imagen fija (GIF, JPEG, NEGF), imagen en movimiento (AVI, MOV, MPEG),
planteando problemas de recuperación y uso.
La excesiva identificación
de Internet con las páginas web hace que frecuentemente se olvide
que en la red existen otros sistemas de información: FTP (transmisión
directa de ficheros), NNTP (grupos de noticias y listas de distribución),
IRC (chats), Z39.50, SRie, Wais (bases de datos), SQL (servicios interactivos),
Mbone (videoconferencias), etc.
Estos medios de información
no están totalmente integradas en el espacio Internet, por más
pasarelas que se hayan diseñado para su consulta y que se hayan
desarrollado sistemas y servicios especializados para su recuperación.
Las páginas web cada vez incorporan más elementos de este
tipo, lo que las convierte en documentos compuestos. Los buscadores más
populares están pensados para una simple recuperación textual
por palabras.
Internet "invisible" o "profunda"
Existen en Internet más
de 100.000 web "públicas" que acceden a bases de datos. Estas bases
de dastos incluyen 550 billones de documentos mientras la Web se compone
de sólo 1 billón de documentos. Esta información no
es recogida por las Herramientas de búsqueda en Internet porque
los robots indizadores no pueden entrar en las pasarelas que llevan a las
bases de datos (catálogos, bibliografías), ni a los webs
construidos con páginas dinámicas o incluso a depósitos
de documentos con formato Adobe Acrobat PDF (revistas electrónicas),
PowerPoint, Latex o PostCript. Actualmente algunos robots están
ya contemplando esta situación.
Intranets
Mucha de la información
en internet es restringida para el uso interno de las organizaciones (Intranets)
o es información de pago (exigen login o reconocimiento de IP).
La necesaria participación
de la comunidad científica
No todo está en Internet:
para que algo esté alguien tiene que haberlo puesto. Para que su
utilidad sea real, la comunidad científica debe participar en la
red.
Inseguridad,
Ruido y silencio son las consecuencias naturales a esta situación:
La propia estructura de la información
en Internet nos impide saber si algo nos puede interesar hasta no entrar
diréctamente en el recurso: INSEGURIDAD
Causas: volumen y lentitud de la red
Recuperación de información
irrelevante que oculta a la información que nos puede interesar:
RUIDO
Causas:
- Falta de especificidad en los términos
- No usar adecuadamente las técnicas
de búsqueda)
Se calcula que los internautas
no suelen consultar más de 30 resultados
No recuperar la información
interesante: SILENCIO
Causas:
- No usar la herramienta de búsqueda
adecuada: buscar en buscadores de pequeño tamaño o emplear
los buscadores de los Indices
- Erróneo plantemiento de lo que
se quiere
- No utilizar adecuadamente las técnicas
de los buscadores
- Errores de escritura y ortografía
- Es posible que no haya nada de lo que
busca
El RUIDO se puede solucionar filtrando los resultados
Los PROBLEMAS DE CALIDAD, evaluando la información
Lo más grave es el
SILENCIO, ya que no somos conscientes de lo que no podemos ver.
Existen, sin embargo, dos soluciones:
|