Que Es KDD
Que Es KDD
Que Es KDD
El proceso
El analista luego deber armar un anlisis definiendo algo que le permitir medir si la
promocin tuvo xito o no, como por ejemplo "el porcentaje en que se incrementaron las
ventas". Despus de definir esto, separar los productos que ms se vendieron, de los otros
y esto le permitir evaluar sus caractersticas para despus comparar estas caractersticas
con la de los productos que no se vendieron tanto.
La visualizacin de la separacin de los datos, le permitir tambin darse cuenta de que los
productos que ms se vendieron, fue por ejemplo porque tuvieron ms publicidad, y esto no
es una caracterstica propia del producto sino es algo que viene de afuera.
Anlisis de datos
El analista tratar de utilizar y combinar estas dos tcnicas repetitivamente. Los resultados
de una tcnica ayudan a mejorar las entradas que utilizar la otra, y as sucesivamente. Para
obtener mejores resultados la relacin entre estas dos tcnicas es sumamente importante en
todo el proceso de KDD.
Debemos restringir los parmetros. Esto nos lleva a que antes del anlisis de datos hay una
fase previa, la interaccin con los datos que nos llevar a formular la hiptesis. Ejemplo: En
esta fase el arquelogo de datos mira su paisaje de datos y decide donde empezar la
excavacin, basado en el conocimiento previo que tiene sobre los datos y su experiencia.
Una vez en el sitio, sacar todo el polvo (limpieza de datos), y empezar a juntar las piezas
que parecen congeniar y decidir que hacer luego para confirmar su hiptesis. El
arquelogo decide tambin que datos utilizar para seguir explorando y que deber ser
ignorado. El analista utiliza tcnicas de clustering para segmentar los datos, paramodelar
utiliza diferentes tipos de algoritmos (analizando bien cual le conviene ms), que pueden
ser redes neuronales, regresin, etc. Una parte esencial de todo este proceso es el
conocimiento previo que se tiene de los datos. Aqu interactan las tres clases de usuarios
compartiendo sus conocimientos y ayudndose mutuamente, tanto para definir el dominio
de la aplicacin, como para saber que algoritmo se utilizar finalmente, etc.
En el ejemplo del Da del Padre, el analista utiliz sus conocimientos previos para saber
que elementos de los datos deba analizar para encontrar el porcentaje con las cuales se
incrementaron las ventas y as usar este criterio para evaluar la promocin.
Est muy claro hasta ahora que el anlisis de los datos y el desarrollo del modelo son fases
que se complementan una a otra, y que el analista tiene que ser capaz de saltar de una fase a
otra repetitivamente.
Aspectos adicionales que deben ser tenidos en cuenta dentro del KDD
Descubrimiento de la Tarea
El usuario viene con un problema o una meta como si esta estuviera muy clara y bien
enfocada, pero siempre debemos hace una investigacin posterior. El analista debe pasar
tiempo con el usuario y conocer su compaa para as encontrar los elementos que necesita
completar la tarea que se le asign y para definir bien sus aplicaciones. Cuanto ms
profundamente el analista se cuestiona las cosas que emergieron al principio, y cuanto ms
tiempo pasa analizando los datos crudos, es cuando encontrar la meta real del
descubrimiento. Este proceso puede consumir mucho tiempo y es difcil, pero es mejor
perder el tiempo en esto que perder el tiempo tratando de contestar las preguntas
equivocadas.
Descubrimiento de Datos
Como un complemento de pasar tiempo con el usuario , los analistas tambin deben pasar
mucho tiempo analizando los datos crudos, para as conocerlos en su totalidad, ver como
lucen, y ver que cubren estos datos y que no. Deben entender la estructura, calidad y que
campo cubren los datos.
Limpieza de Datos
Los datos del cliente casi siempre tiene problemas. Por ejemplo, se encuentran campos
incompletos a los cuales les faltan archivos, errores en las entradas de los datos, etc. El
proceso KDD no tendr xito si no se pone atencin a esta parte, el analista se debe esforzar
por limpiar los datos. Sin la fase del descubrimiento de datos, el analista no sabr si los
datos le sirven para terminar su tarea o no. Usualmente los datos necesitan de mucho
trabajo antes de que puedan ser sometidos a un serio anlisis.
En esta fase nuevamente, es crucial el conocimiento previo que el analista tenga so bre el
campo sobre el cual quiere trabajar y sobre la tarea que va a realizar.