Cognition">
Nothing Special   »   [go: up one dir, main page]

ILN Tema2Parte1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 12

Tema

e 2.. Primera
e parte.
p e. Índice
Análisis léxico 1.
2.
Introducción.
La unidad palabra.
„ Análisis morfológico.
Ingeniería del Lenguaje Natural 3. El léxico o diccionario:
„ Información léxica asociada a cada unidad léxica.
„ R
Representación
ió formal
f l de
d la
l información.
i f ió
Departamento de Lenguajes y Sistemas Informáticos
Universidad de Alicante „ Adquisición de la información léxica.
http://www dlsi ua es/asignaturas/iln
http://www.dlsi.ua.es/asignaturas/iln 4
4. Análisis léxico y resolución de la ambigüedad:
„ Resolución ambigüedad categorial (PoS tagger).
„ Resolución ambigüedad léxico
léxico-semántica.
semántica.

Introducción Introducción: análisis léxico


„ Los textos y las lenguas: diferentes unidades de „ Fundamento de cualquier sistema de PLN.
análisis. „ Objetivo: analizar las palabras del texto.
„ Palabras: léxico.
léxico „ P l b unidad
Palabra: id d básica
bá i de d procesamiento.
i t
„ Sintagmas: sintaxis.
„ Las oraciones y textos están formados por palabras.
„ Argumentos: sintaxis y semántica.
semántica
„ La palabra lleva asociada un conjunto de información
„ Proposiciones: semántica. morfológica, sintáctica y semántica necesaria en procesos
„ Epígrafes: texto.
texto de análisis posteriores.
posteriores
„ Intervenciones: pragmática. „ Toda esta información se almacena en el léxico o
„ etc
etc. diccionario.
diccionario
Introducción: análisis léxico ¿Qué es una palabra?
„ Aproximación simple:
„ Cadena separada por blancos en un texto.
“La impresora
p ha sido limpiada
p por
p Juan.”
„ La: “La” vs. “la”.
„ impresora
„ ha
„ sido
„ limpiada Æ vs. “ha sido limpiada”.
„ por
„ Juan. : signos de puntuación.

¿Qué es una palabra?


„ Otros problemas:
„ Contracciones:
„ al =aa + el, del = de + el, etc.
„ Adjunción de pronombres a verbos (clíticos):
„ díselo = di + se + lo
„ Unidades que se representan ortográficamente LA UNIDAD PALABRA
con más
á de
d una palabra:
l b
„ “sin embargo”, “no obstante”, etc.
Token y Type Token y Type
„ Dos conceptos: „ Ejemplo:
„ Token: aparición concreta de una palabra en un „ “El perro sin amo no es perro ni amo.”
texto dentro de un contexto determinado. „ perro: dos token y un type.
„ Type: Unidad abstracta que engloba a todas las „ amo: dos token y un type.
apariciones de una misma palabra en un texto.
texto

Tokenización Tokenización - ejemplo


„ Separación de un texto en secuencias de un „ La Casa no es la casa? –No, es “la casa”
unidades lingüísticas elementales (palabras). „ La: tres tokens, un type.
„ Tokens: „ Casa: tres tokens,
tokens un type.
type
„ Palabras entre espacios en blanco. „ No se considera la mayúscula
„ Diferencias mayúscula
mayúscula-minúscula
minúscula (si no es pertinente).
pertinente) „ Separación de signos de puntuación como tokens
„ Signos de puntuación. independientes.
„ Algunas unidades multi
multi-palabra:
palabra: nombres propios.
propios
„ Fechas.
„ Unidades monetarias.
monetarias
„ etc.
Normalización Normalización
„ Problemas que no resuelve la tokenización:
„ Determinar una forma única común a todas
„ Homógrafos.
las posibles formas de una misma palabra.
„ Contracciones y adjunciones.
adjunciones
„ Lema Æ lematización
„ Flexión y derivación léxica.
„ Raíz o tema Æ stemmer
„ Singular
Si l vs. plural
l l | Masculino
M li vs. femenino
f i | etc.
t
„ Flexión verbal
„ Formas verbales complejas.
„ Unidades multi-palabra complejas.

Lema y lexema Lema y lexema


„ Muchas palabras pueden variar en su forma:
„ Lematización: proceso de asociar los tokens
„ Flexión y derivación.
de un texto a su lema correspondiente.
„ Todas responden a una misma palabra: lexema.
lexema
„ Ejemplo:
„ Lema: forma única con la que se nombra un „ “Andaría”, “he andado”, “anduve”, etc.: “andar”
lexema. „ “Blanca”, “blanco”: “blanco”
„ Forma no marcada: „ “Casas”, “casa”, “casita”, “casona”, etc.: “casa”
„ Nombres y adjetivos: masculino singular „ Freeling.
„ Verbos: infinitivo
„ Forma canónica: ítem del diccionario.
Raíz y morfema Raíz y morfema

„ Estructura interna de una palabra: „ Stemmer: proceso de extracción de la raíz o


„ Raíz o tema: significado léxico.
tema de las palabras de un texto.
„ Morfema: significado gramatical. „ Ej
Ejemplo:
l
Cantaría en todas las madrugadas
„ Libre – ría
C
Canta en toda
d la
l madrugada
d d
„ Carnice – ría
„ Cant – abamos „ Se pierden los rasgos morfológicos.
„ Luch – abamos „ Útil, por ejemplo, en recuperación de información,
donde la morfología no es relevante.
„ Casa – s
„ Stemmer de Porter y de Lancaster

Análisis morfológico Análisis morfológico


„ Descomponer la palabra en raíz + morfemas : „ Formación y derivación de palabras.
„ Stemer: “Hermano” Æ “herman” „ C
Composición:
i ió uniónió o concatenación
ió de
d dos
d
„ Identificar morfema para interpretación y/o formación de
palabras distintas para formar una única.
nuevas palabras: „ Brisa Æ Parabrisas Æ Limpiaparabrisas
„ “casa”(lugar para vivir) + “s” (plural)
„ Derivación: adjunción de morfemas a una raíz
para formar una palabra
p p diferente
„ En-torp-e-cedor-es
„ “Camión” Æ “Camionero”.
„ Obtener el lema asociado „ “Cantar” Æ “Cantante”
„ Necesario para acceder a la información del léxico. „ Siglas y Acrónimos
„ “Hermano/a” Æ “hermano” „ “Euro…”, CAM, etc.
„ “Cantaríamos” Æ “cantar”
Analizadores morfológicos La unidad palabra. Conclusiones.
„ PC-KIMMO tagger/análisis morfológico
„ No se puede definir qué es una palabra.
palabra
„ Universidad de Las Palmas de Gran Canaria
„ Más que cadenas separadas por blancos.
„ M
Maco ++ analizador
li d morfológico
f ló i español
ñ ly „ Apariciones en un texto: tokens y types.
análisis sintáctico (UPC) „ Tokenización.
„ Freeling. „ Normalización: lema y raíz.
„ NLTK „ Lematización.
„ Stemmer.
„ …

Léxico
„ Repositorio de información lingüística
estructurado por palabras (lexemas).
„ Recurso básico para la mayoría de tareas de
PLN.

LÉXICO O DICCIONARIO
Léxico Información asociada al lema
„ Información que puede estar asociada a cada
unidad
id d léxica
lé i en un diccionario:
di i i „ Categoría sintáctica:
„ Categoría gramatical. „ Categorías cerradas
„ d t
determinante,
i t preposición,
i ió …
„ Información morfológica.
„ Otras abiertas
„ Información sintáctica. „ verbo,
b adjetivos,
dj ti nombres.
b
„ Información semántica

Información asociada al lema Información asociada al lema


„ Información morfológica: „ Información semántica
„ R i i
Restricciones de
d selección:
l ió
„ Características de concordancia: género, número,
„ Complementos que rige un verbo.
persona,, tiempo,
p p , voz,, aspecto,
p , etc.
„ Significado lé
léxico
ico
„ Reglas de flexión y derivación: morfemas. „ Forma lógica
„ Reglas de formación de las palabras: compuestas „ Rol semántico
y derivadas. „ etc.
„ Información sintáctica:
„ Subcategorización
g y patrones
p sintácticos.
„ Concurrencias y n-gramas.
Representación de la información Representación de la información
„ Necesidad de representación formal. „ Necesidad de representación formal.
„ Estructuras de rasgos (Feature Structures) „ Redes (WordNet):
manzana: „ Manzana:
„ Sintáctica: „ Hipónimo: Manzana Golden
„ Categoría: nombre

„ Concordancia:
„ Hiperónimo: Fruto
„ Genero: femenino
„ Número: singular
„ .......
„ Semántica:
„ manzana(x)

„ Sentido: manzana#1: fruta

Representación de la información Adquisición de la información


„ Actualmente los léxicos se desarrollan junto a „ Fuentes de información léxica
ontologías
l í (Niremburg & Raskin 2004): „ Humanos.
„ Ontología: „ Recursos léxicos estructurados.
estructurados
„ Estructurado por conceptos
„ Supra-lingüístico. „ Recursos léxicos no estructurados.
„ Léxico: „ R
Recursos híb
híbridos.
id
„ Información propia de cada lengua.
„ Estructurado por palabras.
Adquisición de la información Adquisición de la información
„ Procedimiento de extracción de información „ Recursos desarrollados por humanos:
léxica „ WordNet (Miller et al. 90)
„ Información semántica synsets.
„ Construcción manual: Precisión.
Precisión „ CYC O
Ontology
t l (L
(Lenatt 95)
„ Adquisición automática a partir de recursos „ 100.000 términos.
léxicos preexistentes: Cobertura.
Cobertura „ Ontología semántica.
„ Linguistic String Project (Fox et al. 88)
„ Procedimientos híbridos. „ Información léxica para 10.000 entradas.
„ Comlex (Grishman et al. 94)
„ Información sintáctica 38.000 palabras en inglés.
„ LDOCE3 NLP
LDOCE3-NLP
„ Diccionario con 80.000 sentidos.

Adquisición de la información Adquisición de la información


„ Recursos léxicos estructurados „ Recursos léxicos estructurados
„ Diccionarios electrónicos monolingües: LDOCE „ Diccionarios electrónicos bilingües
„ Diccionario ppara estudiantes. „ Collins Spanish/English (Knigth & Luk 94)
„ Vox/Harrap’s Spanish/English (Rigau 98)
„ 35.956 entradas y 76.059 definiciones.
„ 86% de códigos semánticos y 44% de pragmaticos.
„ Vovabulario controlado de 2.000 palabras para evitar
circularidad.
„ (B
(Boguraev &B Briscoe
i 89)(V
89)(Vossen & S Serail
il 90)(Bruce
90)(B & Guthrie
G hi
92), (Wilks et al. 93)(Dolan et al. 93), (Richardson 97)
Adquisición de la información Adquisición de la información
„ Recursos léxicos estructurados „ Recursos léxicos no estructurados
„ Enciclopedias „ Corpus:
„ Encarta (Richardson et al. 98)
„ WSJ
„ Wikipedia
„ Brown Corpus
„ Otros
„ SemCor
„ Guías telefónicas, etc.
„ 3LB (Navarro el al 2003)
„ Text Meaning Representation (McShane et al.
al 2005)
„ PAROLE y SIMPLE (Lenci et al. 2000)
„ etc
etc.

Adquisición de la información Adquisición de la información


„ Ventajas uso de diccionarios y recursos „ Ventajas uso corpus:
estructurados: „ Muestra la información tal cual la usan los hablantes,
„ Precisión sin estar mediatizada por humanos.
„ La información ha sido validada por humanos, por lo „ Muestra las palabras en su contexto
que es en principio correcta. „ Permite adquirir información estadística
„ Desventaja: „ Desventaja:
„ Muchos de estos recursos no han sido creados para „ Mucha información lingüística es difícil de extraer al
tareas de PLN, por lo que presentan problemas estar implícita (categorías gramaticales, sentidos, etc.)
específicos.
„ Ejemplo:
j l ambigüedad
bi d d de d las
l definiciones.
d fi i i
Adquisición de la información
„ Proyectos relevantes:
„ ACQUILEX:

„ Extracción de información léxica de diccionarios


electrónicos
l tó i para humanos.
h
„ Construcción de una Base de Conocimientos Léxica
Multilingüe (inglés, italiano, francés y castellano).
„ EuroWordNet:
„ Desarrollo de WordNet multilingüe para varios
ANÁLISIS LÉXICO Y
lenguajes de la unión europea (inglés, español, AMBIGÜEDAD
Ü
italiano, danés, francés, alemán , checo y estonio).
„ Balkanet, WordNet árabe, etc.

Análisis léxico Análisis léxico


„ Acceso desde cualquier módulo al léxico, „ Análisis morfológico: forma de la palabra,
según
ú lla información
i f ió que necesitei morfemas, derivación, etc.
(semántica, sintáctica, categorial, etc.) „ Análisis léxico-categorial: categoría de la palabra
„ Siempre que se trate de información asociada a „ PoS taggers
una unidad léxica „ Análisis léxico
léxico-semántico:
semántico: significados y sentidos
„ Resolución de la ambigüedad de las palabras o Word
Sense Disambiguation
g ((WSD))
Ambigüedad léxica Ambigüedad Léxica
„ Hay ambigüedad léxica siempre que se „ Categorial: Afecta nivel sintáctico y, por
genere a partir
i de
d la
l información
i f ió que aporta extensión, al semántico.
un léxico sobre una palabra. „ Diferente categoría gramatical y,y con ello,
ello
„ Según la información que se consulte. función sintáctica distinta de la oración.
„ Principales tipos: „ Ejemplo:
„ Categorial „ El cura impartió los santos sacramentos.
„ La cura será muy dolorosa.
„ Semántica
„ El médico cura al enfermo.

Ambigüedad Léxica Análisis léxico-categorial


„ Ambigüedad léxico-semántica „ Maco ++ (Freeling): “hace dar vueltas a su cristal”
„ Se presenta en aquellas
ll palabras
l b pueden
d tener más
á de
d un Analisis morfológico desambigüado
sentido.
„ Hace hacer VMIP3S0 „ Hace hacer VMIP3S0
„ dar dar VMN0000 „ dar dar VMN0000
El soldado cargó su pistola con una bala de plomo y
Proyectil „ vueltas volver VMP00PF „ vueltas vuelta NCFP000
disparó hasta que se quedó sin munición. „ a a SPS00
vuelta NCFP000
„ a a NCFS000 a SPS00 „ su su DP3CS0
„ su su DP3CS0 „ cristal cristal NCMS000

El comerciante cargó una bala de mercancía al lado de „ cristal cristal NCMS000


Paquete grande aquellos fardos embalados con cartón.

También podría gustarte