Nothing Special   »   [go: up one dir, main page]

Busqueda y Recuperacion de Informacion

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 7

Búsqueda y Recuperación de Información

La recuperación de información es el siguiente paso a la determinación de las necesidades


de información. Se puede recuperar a través de diferentes herramientas: bases de datos,
Internet, tesauros, ontologías, mapas… Conocer y manejar estas herramientas contribuye
a una recuperación de calidad.

Recuperación de información
El proceso de recuperación se lleva a cabo mediante consultas a la base de datos donde se
almacena la información estructurada, mediante un lenguaje de interrogación adecuado. Es
necesario tener en cuenta los elementos clave que permiten hacer la búsqueda,
determinando un mayor grado de pertinencia y precisión, como son: los índices, palabras
clave, tesauros y los fenómenos que se pueden dar en el proceso como son el ruido y
silencio documental. Uno de los problemas que surgen en la búsqueda de información es si
lo que recuperamos es “mucho o poco” es decir, dependiendo del tipo de búsqueda se
pueden recuperar multitud de documentos o simplemente un número muy reducido. A este
fenómeno se denomina Silencio o Ruido documental.

 Silencio documental: Son aquellos documentos almacenados en la base de datos


pero que no han sido recuperados, debido a que la estrategia de búsqueda ha sido
demasiado específica o que las palabras clave utilizadas no son las adecuadas para
definir la búsqueda.
 Ruido documental: Son aquellos documentos recuperados por el sistema pero que
no son relevantes. Esto suele ocurrir cuando la estrategia de búsqueda se ha definido
demasiado genérica.

Concepto de sistema de recuperación de información

Proceso donde se accede a una información previamente almacenada, mediante


herramientas informáticas que permiten establecer ecuaciones de búsqueda específicas.
Dicha información ha debido de ser estructura previamente a su almacenamiento.

Componentes esenciales

 Documentos estructurados. Es necesario establecer un proceso donde se establezcan


herramientas de indización y control terminológico.
 Bases de datos donde estén almacenados los documentos. Definir lenguajes de
interrogación y operadores que soportará la base de datos y, establecer que tipo de
ecuaciones serán permitidas.

Herramientas
Bases de datos

1
Internet

 Revistas electrónicas
 Buscadores. Los buscadores son herramientas que permiten localizar y recuperar la
información almacenada en internet. El funcionamiento es parecido a las bases de
datos, almacenan las páginas con determinadas características (metadatos) y que
posteriormente tras utilizar unas palabras clave emiten un listado de las más
relevantes.
o Buscadores generales
 Google (http://www.google.com)
 Alltheweb (http://www.alltheweb.com)
 AltaVista (http://www.altavista.com)
 Excite (http://www.excite.com)
 Infoseek (http://www.infoseek.com)
 Lycos (http://www.lycos.com)
 Webcrawler (http://webcrawler.com)
 Hotboot (http://www.hotbot.com)
 Directorios. Los directorios son listas organizadas que nos permite acceder a la
información de forma estructurada y jerárquica. Se clasifican en categorías y el
usuario enlaza de lo más general a lo más específico
o Recomendados para las búsquedas en las que el usuario no sabe mucho
sobre el tema en concreto
 El directorio de Google (http://directory.google.com)
 Ozú (http://categorias.ozu.es)
 El índice (http://www.elindice.com)
 Yahoo (http://www.yahoo.com)
o Directorio y motores especializados
 Humbul http://www.humbul.ac.uk
 Librarian Index to the Internet http://lii.org
 Internet Public Library http://www.ipl.org
 Scirus http://www.scirus.com
 Search4Science http://www.search4science.com
 Metabuscadores.Son buscadores, con la cualidad de que no sólo buscan en una
única base de datos, sino que al introducir los conceptos de búsqueda hace el
barrido en distintas bases de datos, de esta forma la amplitud de resultados es
mayor.
o Vivisimo (http://www.vivisimo.com)
o Dogpile (http://www.dogpile.com)
o Kartoo (http://www.kartoo.com)
o Qbsearch (http://www.qbsearch.com)
o Metacrawler: (http://www.metacrawler.com)
 Buscadores selectivos. Utilizan una base de datos especializada en una materia.
o Ask (http://www.ask.com)
o Teoma (http://www.teoma.com)
o Electric Library (http://www.elibrary.com)
o Hieros Gamos http://www.hg.org/index.html
 Programa para buscar
2
o Copernic (http://www.copernic.com)
 Agentes inteligentes. Los agentes inteligentes son herramientas que permiten
localizar información de forma automática, sólo necesita que se le definan un perfil
de búsqueda y donde debe lanzarla (bases de datos, sitios web, etc.) y,
automáticamente va presentando un informe sobre la nueva información que va
surgiendo.
o BookWhere http://www.bookwhere.com
o BullsEye Pro http://www.intelliseek.com
o WebSeeker 5 http://www.bluesquirrel.com/
o WebFerret http://www.ferretsoft.com

Lenguajes de indización y control terminológico

Índices.

Listado de términos normalizados que representan el contenido de un recurso. Algunos


tipos son:

 Índice de materias: términos ordenados según las materias que trata la base de datos,
el buscador, etc.
 Índice alfabético: listado de términos alfabéticamente
 Índice KWIC: Tipo de índice permutado en el que el contenido temático de una
obra se representa mediante palabras clave de su título o de otra fuente de
información del documento.
 Índice KWOC: Tipo de índice permutado que varía en su presentación respecto al
índice KWIC, en que las palabras clave aparecen como un encabezamiento en línea
separada. Bajo cada encabezamiento aparece la totalidad de los títulos, completos o
truncados, que contienen la palabra clave de que se trata.

Palabras clave (Keywords).

Término significativo en lenguaje natural que representa el contenido del documento.

En la búsqueda de información esta opción es esencial ya que nos permite acotar y precisar
información. El problema recae en definir la palabra exacta que representa el contenido, por
ello es conveniente utilizar especificadores. Por ejemplo si utilizamos la palabra flor en
cualquier buscador podemos estar buscando, la floristería más cercana, una imagen de
flores o un estudio sobre las flores en las distintas estaciones del año.

 Meta Keywords. La mayoría de los buscadores utilizan para localizar los recursos,
las palabras clave de cada página web. Por esta razón es esencial que cada página
tenga una etiqueta donde se incluyan las palabras clave que la definen, también es
importante la definición exacta de cada una de ella pues es a partir de estas los
buscadores localizan o no un recurso.

Tesauros

3
Es un listado terminológico controlado sobre un área o ámbito de conocimiento que
mantiene entre sí relaciones semánticas y genéricas.

Su principal característica es que los términos están ordenados jerárquicamente,


permitiendo la precisión terminológica en la búsqueda de información

Componentes:

 Descriptores admitidos o preferentes: son aquellos términos normalizados (donde


han sufrido un proceso de expurgo denegando plurales, evitando sinónimos, etc.)
que el tesauro los considera aptos para asignarlos a un documento y que
posteriormente facilite la recuperación
 Descriptores no admitidos: son aquellos que aun estando normalizados no se
consideran adecuado para utilizarlos (suelen ser sinónimos, términos no utilizados
en el campo de actuación, etc.)

Relaciones:

 Jerárquicas: indican cuando un término es más específico que otro


 Asociativas: Indican que los términos guardan alguna relación
 Sinónimos: Indican que dos términos son sinónimos y cual de ellos se utiliza como
admitido

Lenguajes de interrogación y ecuaciones de búsqueda

Lenguajes

Cada sistema de recuperación tiene su propio lenguaje de interrogación, que es el que le


permite “hablar” en el mismo lenguaje que la base de datos. Este lenguaje como cualquier
otro tiene su propia sintaxis que especifica las características especiales de la búsqueda
determinando en cada momento la relación que tienen los elementos de búsqueda. Las
reglas gramaticales en el lenguaje de interrogación son los operadores.

Cómo plantear una estrategia de búsqueda

No existen pautas que nos indiquen como hacer con exactitud todas las búsquedas debido a
que cada consulta es distinta. Por eso es conveniente definir un procedimiento básico de
trabajo:

 Planteando el tema desde distintos puntos de vista


 Determinando que se sabe del tema
 Formulando nuestra búsqueda mediante:
o La selección de palabras clave que representen lo que busco (utilizar
diccionarios, sinónimos, tesauros, ontologías, etc.)
o La traducción de las palabras importantes a otros idiomas (inglés)
 Seleccionando las herramientas de búsqueda (índices, motores, metabuscadores). Se
recomienda usar distintas herramientas a la vez.

4
 Aplicando las palabras clave en las herramientas de búsqueda seleccionadas

Ecuaciones simples

Ecuaciones compuestas

Operadores

Lógicos o Boléanos: Permiten convertir las palabras de la consulta en conjuntos


matemáticos, y operar con las palabras como si fuesen conjuntos. Las operaciones
básicas son la suma (OR), la resta (NOT) y el producto (AND).

o Y lógico (AND)
o NO lógico (NOT)
o O lógico (OR)
 Posicionales: Permiten especificar la posición de las palabras dentro del documento.
o Cerca (NEAR)
o Junto (ADJ)
o Frases
 Existencia: Indica cuando se requiere la presencia o ausencia de una palabra en los
documentos recuperados.
o Presencia / Ausencia
o Ausencia
 Exactitud: Este tipo de operador se utiliza cuando la consulta que se pretende es
menos específica ya que, permite la posibilidad de cortar una palabra de búsqueda a
su raíz.
o Proximidad
o Por campos

Navegación versus Recuperación de Información


Concepto

La navegación es el programa que permite consultar y obtener información mediante los


sistemas hipertexto.

Diferencias

La diferencia esencial entre ambos conceptos radica en la forma de obtener información;


mientras que en la recuperación de información se obtiene de forma lineal, la navegación
tiene la capacidad de obtener información a través del hipertexto. Esto quiere decir que, la
adquisición de conocimiento se realiza paulatinamente y dependiendo del interés del
usuario se profundiza a través de los nodos de información en una materia u otra.

Directorios versus Motores de búsqueda

5
Motores de búsqueda Vs. Directorios
La información se actualiza mediante la mano
La información se actualiza
humana que se da de alta en el directorio cuando
automáticamente por la red.
crea un lugar web.
No almacenan todos los contenidos web,
Recogen toda la información almacenada
solamente los campos más relevantes como son
en la página.
el título, las palabras clave, etc.
Almacenan la información mediante unaAlmacenan información mediante directorios,
base de datos propia. clasificados en categorías.
La búsqueda se realiza en la base de datosLa búsqueda se realiza jerárquicamente según
mediante la ecuación de búsqueda. las categorías establecidas.
La presentación de los resultados seLa presentación de los resultados se lleva a cabo
establece por orden de relevancia segúnmediante un listado de todos los documentos
unos criterios establecidos en la ecuacióncorrespondientes en la categoría, sin ningún
de búsqueda. criterio de presentación.
Apropiados para localizar informaciónApropiados para localizar información general
específica. sobre un tema.

Metadatos

Los metadatos en la navegación y recuperación de información se utilizan para detectar


información relevante de una forma rápida y eficaz. Las etiquetas describen el contenido
del recurso web, que posteriormente utilizan las herramientas de búsqueda para localizar y
acceder al recurso. Principalmente son las etiquetas de palabra clave y título las que dan
paso a localizar el documento.

Calidad de la recuperación
A continuación, se presentan unos criterios básicos para que la recuperación llevada a cabo
sea de calidad.

 Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema


de clasificación con el lenguaje de búsqueda, permitiendo de esta manera establecer
ecuaciones de búsqueda sobre términos admitidos.
 Exhaustividad: Es la cualidad de un sistema de información para recuperar la
totalidad de los documentos relevantes que posee una colección, conforme a los
requerimientos establecidos en la estrategia de búsqueda.
 Tasa de acierto: coeficiente que surge de dividir el número de documentos
relevantes recuperados, sobre el número total de documentos relevantes de la
colección
 Relevancia: Característica de un documento recuperado que cumple con las
necesidades de información.

6
 Tasa de relevancia: coeficiente que surge de dividir el número de documentos
relevantes recuperados, sobre el número total de documentos recuperados
 Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las
necesidades de información.
 Tasa de pertinencia: coeficiente que surge de dividir el número de documentos
pertinentes recuperados, sobre el número total de documentos recuperados
 Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación
con los documentos más relevantes. De otra forma son aquellos documentos
relevantes recuperados.
 Tasa de precisión: coeficiente que surge de dividir el número de documentos
relevantes recuperados, sobre el número total de documentos de la colección

Habilidades y competencias
 Formulación de un plan para la búsqueda de información: definiendo la materia o
aspectos a buscar, utilizando un listado de palabras claves apropiadas, delimitando
la búsqueda según criterios cronológicos, idiomáticos.
 Conocimiento de las fuentes potenciales y reales de información
 Habilidades para la localización de recursos impresos y electrónicos pertinentes en
el contexto de la necesidad de información
 Capacidad para seleccionar la herramienta de búsqueda más apropiada y formular la
estrategia más adecuada.
 Dominio de técnicas avanzadas para la recuperación de información en Internet,
empleando motores, directorios de búsqueda, agentes inteligentes.
 Habilidades para evaluar los resultados de la búsqueda, reflexionando sobre los
aciertos, fallos y estrategias alternativas.
 Determinar la ubicación y acceso a la información, respetando los principios éticos
y legales.

Extraído de E-COMS (Electronic Content Management Skills) Disponible en:


http://www.mariapinto.es/e-coms/busqueda-y-recuperacion-de-informacion/

También podría gustarte