CAP9 Search Systems
CAP9 Search Systems
CAP9 Search Systems
Los siguientes problemas le ayudarán a decidir cuándo su entorno ha llegado al punto de necesitar
un sistema de búsqueda:
Por lo general, el motor de búsqueda puede encontrar el texto completo de cada documento. Pero un motor
de búsqueda también puede indexar información asociada con cada documento, como títulos, términos de
vocabulario controlado, etc., dependiendo de cómo se haya configurado. Y luego está la interfaz de
búsqueda, su ventana en el índice del motor de búsqueda. Lo que escriba allí se buscará en el índice; si
todo va bien, se devuelven resultados que coinciden con su consulta.
Anatomía del sistema de búsqueda
La figura muestra algunas de estas vías. ¿De dónde viene tu consulta? Su mente detecta un vacío que debe llenarse con información, pero no
siempre está seguro de cómo expresar lo que está buscando. La búsqueda es a menudo iterativa, no solo porque no siempre nos gustan los
resultados que obtenemos, sino porque a menudo nos lleva algunos intentos encontrar las palabras correctas para nuestra consulta. Luego
interactúa con una interfaz de búsqueda, dirigiéndose al cuadro simple, similar a Google o, si es "avanzado", lidiando con la interfaz de búsqueda
avanzada. Y finalmente, interactúa con los resultados, con suerte determinando rápidamente en qué resultados vale la pena hacer clic, cuáles
ignorar y si debe o no volver atrás e intentar modificar su búsqueda.
Elegir qué indexar
Puede apuntar su motor de búsqueda a su contenido, decirle que indexe el texto completo de cada documento que encuentre y dejar que
haga lo suyo. Esa es una gran parte del valor de los sistemas de búsqueda: pueden ser completos y cubrir una gran cantidad de contenido
rápidamente.
Pero indexar todo no siempre es útil para los usuarios. En un entorno grande y complejo repleto de subsistemas y bases de datos
heterogéneos, es posible que desee permitir que los usuarios busquen en el silo de informes técnicos o en el directorio de personal sin
enturbiar sus resultados de búsqueda con los últimos artículos a creación de zonas de búsqueda (focos de contenido más homogéneo)
reduce el efecto manzanas y naranjas y permite a los usuarios enfocar sus búsquedas. Elegir qué hacer que se pueda buscar no se limita a
seleccionar las zonas de búsqueda correctas. Cada documento o registro de una colección tiene algún tipo de estructura, ya sea en un
lenguaje de marcado como HTML o campos de base de datos. A su vez, esa estructura almacena componentes de contenido: piezas o
"átomos" de contenido que suelen ser más pequeños que un documento.
Algoritmos de búsqueda
El algoritmo de recuperación es esencialmente una
herramienta y, al igual que otras herramientas, los
algoritmos específicos ayudan a resolver problemas
específicos. Y como los algoritmos de recuperación son el
núcleo de los motores de búsqueda, es importante tener en
cuenta que no existe absolutamente ningún motor de
búsqueda que satisfaga todas las necesidades de
información de sus usuarios
Algoritmos de coincidencia de patrones
La mayoría de los algoritmos de recuperación emplean la coincidencia de patrones; es
decir, comparan la consulta del usuario con un índice de, por lo general, los textos
completos de los documentos de su sistema, buscando la misma cadena de texto.
Recuerdo y precisión
Otros enfoques
Un enfoque alternativo es presentar
resultados que se hayan indexado con
metadatos similares. En la figura, al
colocar el cursor sobre los resultados
de búsqueda individuales en el motor
de búsqueda Duck‐ DuckGo, se
ofrecen más coincidencias para los
términos de búsqueda en el mismo
dominio que ese resultado en
particular.
Otros enfoques
En el siguiente ejemplo de CiteSeer,
identificamos un artículo que nos gusta:
"Application Level Fault Tolerance in
Heterogeneous Networks of Worstations".
CiteSeer encuentra documentos
automáticamente de varias formas:
● Citado por
● Bibliografía activa(documentos
relacionados)
● Documentos relacionados de la
co-cita
Constructores de consultas
● Correctores ortográficos
● Herramientas fonéticas
● Herramientas de tallado
● Herramientas de
procesamiento de
lenguaje natural
Presentación de resultados
Qué componentes de contenido mostrar
Muestre menos información a los usuarios que saben lo que buscan y más información a los usuarios
que no están seguros de lo que quieren.
Presentación de
resultados
Cuántos documentos mostrar
● Si su motor está configurado para mostrar mucha
información para cada documento recuperado,
querrá considerar tener un conjunto de recuperación
más pequeño y viceversa.
● la resolución de pantalla de un usuario, la velocidad
de conectividad y la configuración del navegador
afectarán la cantidad de resultados que se pueden
mostrar de manera efectiva.
Ordenar por alfabeto Ordenar por cronología
Clasificación por relevancia Clasificación por popularidad
Agrupar resultados Actuar sobre la base de los
resultados
Diseño de la interfaz de búsqueda
Información
Búsqueda Avanzada:
A veces los usuarios son olvidadizos, Es útil aclarar qué contenido se buscó,
especialmente después de examinar especialmente si su
docenas de resultados. El recordatorio puede ser útil si el usuario
decide ampliar o reducir su