Busqueda y Recuperacion de Informacion
Busqueda y Recuperacion de Informacion
Busqueda y Recuperacion de Informacion
Recuperación de información
El proceso de recuperación se lleva a cabo mediante consultas a la base de datos donde se
almacena la información estructurada, mediante un lenguaje de interrogación adecuado. Es
necesario tener en cuenta los elementos clave que permiten hacer la búsqueda,
determinando un mayor grado de pertinencia y precisión, como son: los índices, palabras
clave, tesauros y los fenómenos que se pueden dar en el proceso como son el ruido y
silencio documental. Uno de los problemas que surgen en la búsqueda de información es si
lo que recuperamos es “mucho o poco” es decir, dependiendo del tipo de búsqueda se
pueden recuperar multitud de documentos o simplemente un número muy reducido. A este
fenómeno se denomina Silencio o Ruido documental.
Componentes esenciales
Herramientas
Bases de datos
1
Internet
Revistas electrónicas
Buscadores. Los buscadores son herramientas que permiten localizar y recuperar la
información almacenada en internet. El funcionamiento es parecido a las bases de
datos, almacenan las páginas con determinadas características (metadatos) y que
posteriormente tras utilizar unas palabras clave emiten un listado de las más
relevantes.
o Buscadores generales
Google (http://www.google.com)
Alltheweb (http://www.alltheweb.com)
AltaVista (http://www.altavista.com)
Excite (http://www.excite.com)
Infoseek (http://www.infoseek.com)
Lycos (http://www.lycos.com)
Webcrawler (http://webcrawler.com)
Hotboot (http://www.hotbot.com)
Directorios. Los directorios son listas organizadas que nos permite acceder a la
información de forma estructurada y jerárquica. Se clasifican en categorías y el
usuario enlaza de lo más general a lo más específico
o Recomendados para las búsquedas en las que el usuario no sabe mucho
sobre el tema en concreto
El directorio de Google (http://directory.google.com)
Ozú (http://categorias.ozu.es)
El índice (http://www.elindice.com)
Yahoo (http://www.yahoo.com)
o Directorio y motores especializados
Humbul http://www.humbul.ac.uk
Librarian Index to the Internet http://lii.org
Internet Public Library http://www.ipl.org
Scirus http://www.scirus.com
Search4Science http://www.search4science.com
Metabuscadores.Son buscadores, con la cualidad de que no sólo buscan en una
única base de datos, sino que al introducir los conceptos de búsqueda hace el
barrido en distintas bases de datos, de esta forma la amplitud de resultados es
mayor.
o Vivisimo (http://www.vivisimo.com)
o Dogpile (http://www.dogpile.com)
o Kartoo (http://www.kartoo.com)
o Qbsearch (http://www.qbsearch.com)
o Metacrawler: (http://www.metacrawler.com)
Buscadores selectivos. Utilizan una base de datos especializada en una materia.
o Ask (http://www.ask.com)
o Teoma (http://www.teoma.com)
o Electric Library (http://www.elibrary.com)
o Hieros Gamos http://www.hg.org/index.html
Programa para buscar
2
o Copernic (http://www.copernic.com)
Agentes inteligentes. Los agentes inteligentes son herramientas que permiten
localizar información de forma automática, sólo necesita que se le definan un perfil
de búsqueda y donde debe lanzarla (bases de datos, sitios web, etc.) y,
automáticamente va presentando un informe sobre la nueva información que va
surgiendo.
o BookWhere http://www.bookwhere.com
o BullsEye Pro http://www.intelliseek.com
o WebSeeker 5 http://www.bluesquirrel.com/
o WebFerret http://www.ferretsoft.com
Índices.
Índice de materias: términos ordenados según las materias que trata la base de datos,
el buscador, etc.
Índice alfabético: listado de términos alfabéticamente
Índice KWIC: Tipo de índice permutado en el que el contenido temático de una
obra se representa mediante palabras clave de su título o de otra fuente de
información del documento.
Índice KWOC: Tipo de índice permutado que varía en su presentación respecto al
índice KWIC, en que las palabras clave aparecen como un encabezamiento en línea
separada. Bajo cada encabezamiento aparece la totalidad de los títulos, completos o
truncados, que contienen la palabra clave de que se trata.
En la búsqueda de información esta opción es esencial ya que nos permite acotar y precisar
información. El problema recae en definir la palabra exacta que representa el contenido, por
ello es conveniente utilizar especificadores. Por ejemplo si utilizamos la palabra flor en
cualquier buscador podemos estar buscando, la floristería más cercana, una imagen de
flores o un estudio sobre las flores en las distintas estaciones del año.
Meta Keywords. La mayoría de los buscadores utilizan para localizar los recursos,
las palabras clave de cada página web. Por esta razón es esencial que cada página
tenga una etiqueta donde se incluyan las palabras clave que la definen, también es
importante la definición exacta de cada una de ella pues es a partir de estas los
buscadores localizan o no un recurso.
Tesauros
3
Es un listado terminológico controlado sobre un área o ámbito de conocimiento que
mantiene entre sí relaciones semánticas y genéricas.
Componentes:
Relaciones:
Lenguajes
No existen pautas que nos indiquen como hacer con exactitud todas las búsquedas debido a
que cada consulta es distinta. Por eso es conveniente definir un procedimiento básico de
trabajo:
4
Aplicando las palabras clave en las herramientas de búsqueda seleccionadas
Ecuaciones simples
Ecuaciones compuestas
Operadores
o Y lógico (AND)
o NO lógico (NOT)
o O lógico (OR)
Posicionales: Permiten especificar la posición de las palabras dentro del documento.
o Cerca (NEAR)
o Junto (ADJ)
o Frases
Existencia: Indica cuando se requiere la presencia o ausencia de una palabra en los
documentos recuperados.
o Presencia / Ausencia
o Ausencia
Exactitud: Este tipo de operador se utiliza cuando la consulta que se pretende es
menos específica ya que, permite la posibilidad de cortar una palabra de búsqueda a
su raíz.
o Proximidad
o Por campos
Diferencias
5
Motores de búsqueda Vs. Directorios
La información se actualiza mediante la mano
La información se actualiza
humana que se da de alta en el directorio cuando
automáticamente por la red.
crea un lugar web.
No almacenan todos los contenidos web,
Recogen toda la información almacenada
solamente los campos más relevantes como son
en la página.
el título, las palabras clave, etc.
Almacenan la información mediante unaAlmacenan información mediante directorios,
base de datos propia. clasificados en categorías.
La búsqueda se realiza en la base de datosLa búsqueda se realiza jerárquicamente según
mediante la ecuación de búsqueda. las categorías establecidas.
La presentación de los resultados seLa presentación de los resultados se lleva a cabo
establece por orden de relevancia segúnmediante un listado de todos los documentos
unos criterios establecidos en la ecuacióncorrespondientes en la categoría, sin ningún
de búsqueda. criterio de presentación.
Apropiados para localizar informaciónApropiados para localizar información general
específica. sobre un tema.
Metadatos
Calidad de la recuperación
A continuación, se presentan unos criterios básicos para que la recuperación llevada a cabo
sea de calidad.
6
Tasa de relevancia: coeficiente que surge de dividir el número de documentos
relevantes recuperados, sobre el número total de documentos recuperados
Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las
necesidades de información.
Tasa de pertinencia: coeficiente que surge de dividir el número de documentos
pertinentes recuperados, sobre el número total de documentos recuperados
Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación
con los documentos más relevantes. De otra forma son aquellos documentos
relevantes recuperados.
Tasa de precisión: coeficiente que surge de dividir el número de documentos
relevantes recuperados, sobre el número total de documentos de la colección
Habilidades y competencias
Formulación de un plan para la búsqueda de información: definiendo la materia o
aspectos a buscar, utilizando un listado de palabras claves apropiadas, delimitando
la búsqueda según criterios cronológicos, idiomáticos.
Conocimiento de las fuentes potenciales y reales de información
Habilidades para la localización de recursos impresos y electrónicos pertinentes en
el contexto de la necesidad de información
Capacidad para seleccionar la herramienta de búsqueda más apropiada y formular la
estrategia más adecuada.
Dominio de técnicas avanzadas para la recuperación de información en Internet,
empleando motores, directorios de búsqueda, agentes inteligentes.
Habilidades para evaluar los resultados de la búsqueda, reflexionando sobre los
aciertos, fallos y estrategias alternativas.
Determinar la ubicación y acceso a la información, respetando los principios éticos
y legales.