Cognitive Science">
Nothing Special   »   [go: up one dir, main page]

Procesamiento Del Lenguaje Natural

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 10

¿Qué es el Procesamiento del Lenguaje Natural?

El Procesamiento del Lenguaje Natural (PLN) o Natural Language Processing (NLP) se


centra en el aná lisis de las comunicaciones humanas y, en concreto, de su lenguaje.
Ante la gran cantidad de informació n en texto que generamos actualmente, surge la
posibilidad de analizarla y aprovecharla. Las técnicas de PLN permiten extraer insights
automáticamente de la informació n disponible en cualquier sector.
Dentro de la Inteligencia Artificial, el PLN es la principal tarea de la lingü ística computacional.
Un aná lisis automá tico sobre cualquier tipo de texto permite clasificar, organizar, buscar o
descubrir informació n no explícita, agilizando tareas que se realizan manualmente e
identificando los elementos má s relevantes de un escrito.

¿Cómo funciona el Procesamiento del Lenguaje Natural?


El Procesamiento del Lenguaje Natural (PLN) consiste en transformar el lenguaje natural en
un lenguaje formal, como el de la programació n, que los ordenadores puedan procesar.
Normalmente, parte de dividirlo en elementos (frases, palabras, etc.) e intentar entender las
relaciones entre ellos.
Manejamos datos no estructurados en todos los sectores: artículos, informes, comentarios,
mensajes o contratos. Y todos estos textos “esconden” informació n que puede ser ú til para el
negocio.

Técnicas de lingüística computacional

REGLAS LINGÜÍSTICAS Y ANÁLISIS MORFOSINTÁCTICOS


El aná lisis se basa en exponer la estructura de relaciones entre las palabras del texto, y en
diseñ ar reglas que permitan relacionar estas estructuras con rasgos como la temá tica o el
tono del documento.

MODELOS DE LENGUAJE PRE-ENTRENADOS


Analizando repositorios de textos masivos de fuentes abiertas, se consiguen modelos del
funcionamiento del lenguaje. Estos representan cada palabra mediante embeddings o vectores
numéricos, que codifican su significado y funció n en las oraciones. En el caso de los modelos
de lenguaje má s modernos, estos embeddings son sensibles al contexto en el que se utiliza
cada palabra, y se entrenan empleando corpus de miles de millones de palabras.

MODELOS DE MACHINE LEARNING


Aprenden a automatizar una tarea de aná lisis del texto a partir de corpus representativos de
la misma. Estos pueden estar anotados, de forma que el sistema aprenda a reproducir el
proceso de anotació n, o no anotados, buscando entonces patrones y relaciones en el texto.
Investigamos y desarrollamos sistemas de PLN adaptados a cada negocio, para extraer
insights de documentos, mensajes o informes.
Aplicaciones del Procesamiento del Lenguaje Natural
El PLN tiene aplicació n en cualquier sector que disponga de grandes cantidades de
informació n no estructurada:
Búsqueda avanzada de información
El aná lisis de texto permite detectar y recuperar automá ticamente informació n específica en
documentos de texto libre de cualquier sector.
Named-entity recognition (NER).
La detecció n de entidades (personas, lugares, marcas u otros términos) con aprendizaje
automá tico es ú til para detectar en qué contextos se mencionan determinadas palabras, por
ejemplo, en documentos clínicos o legales.
Anonimización de documentos
Partiendo de la detecció n de entidades, se puede hacer un primer filtro sobre los datos
personales, para asegurar la privacidad. Puede aplicarse los á mbitos de salud, justicia o
seguridad.
https://www.iic.uam.es/inteligencia-artificial/procesamiento-del-lenguaje-natural/

PROCESAMIENTO DE LENGUAJES NATURALES


El procesamiento de lenguaje natural,12 abreviado PLN34 —en inglés, natural language
processing, NLP— es un campo de las ciencias de la computació n, de la inteligencia artificial y
de la lingü ística que estudia las interacciones entre las computadoras y el lenguaje humano. Se
ocupa de la formulació n e investigació n de mecanismos eficaces computacionalmente para la
comunicació n entre personas y má quinas por medio del lenguaje natural, es decir, de
las lenguas del mundo. No trata de la comunicació n por medio de lenguas naturales de una
forma abstracta, sino de diseñ ar mecanismos para comunicarse que sean eficaces
computacionalmente —que se puedan realizar por medio de programas que ejecuten o
simulen la comunicació n—. Los modelos aplicados se enfocan no solo a la comprensió n del
lenguaje de por sí, sino a aspectos generales cognitivos humanos y a la organizació n de la
memoria. El lenguaje natural sirve solo de medio para estudiar estos fenó menos. Hasta la
década de 1980, la mayoría de los sistemas de PLN se basaban en un complejo conjunto de
reglas diseñ adas a mano. A partir de finales de 1980, sin embargo, hubo una revolució n en
PLN con la introducció n de algoritmos de aprendizaje automá tico para el procesamiento del
lenguaje
Historia
La historia del PLN empieza desde 1950, aunque se han encontrado trabajos anteriores. En
1950, Alan Turing publicó Computing machinery and intelligence, donde proponía lo que hoy
se llama el test de turing como criterio de inteligencia. En 1954, el experimento de
Georgetown involucró traducció n automá tica de má s de sesenta oraciones del ruso al inglés.
Los autores sostuvieron que en tres o cinco añ os la traducció n automá tica sería un problema
resuelto. El avance real en traducció n automá tica fue má s lento, y en 1966 el reporte
ALPAC demostró que la investigació n había tenido un bajo desempeñ o. Má s tarde, hasta
finales de 1980, se llevaron a cabo investigaciones a menor escala en traducció n automá tica, y
se desarrollaron los primeros sistemas de traducció n automá tica estadística. Esto se debió
tanto al aumento constante del poder de có mputo resultante de la ley de Moore como a la
disminució n gradual del predominio de las teorías lingü ísticas de Noam Chomsky (por
ejemplo, la gramá tica transformacional), cuyos fundamentos teó ricos desalentaron el tipo
de lingü ística de corpus, que se basa en el enfoque de aprendizaje de má quinas para el
procesamiento del lenguaje. Se usaron entonces los primeros algoritmos de aprendizaje
automá tico, como los á rboles de decisió n, sistemas producidos de sentencias si-entonces
similares a las reglas escritas a mano. Se puede consultar un resumen de la historia de 50 añ os
de publicaciones acerca del procesamiento automá tico después del proyecto NLP4NLP en una
publicació n doble en Frontiers in Research Metrics and Analytics.78
Dificultades en el procesamiento de lenguaje natural[editar]
Ambigüedad
Las lenguas naturales son inherentemente ambiguas en diferentes niveles:
 En el nivel léxico, una misma palabra puede tener varios significados, y la selecció n del
apropiado se debe deducir a partir del contexto oracional o conocimiento bá sico.
Muchas investigaciones en el campo del procesamiento de lenguajes naturales han
estudiado métodos de resolver las ambigü edades léxicas mediante diccionarios,
gramá ticas, bases de conocimiento y correlaciones estadísticas.
 A nivel referencial, la resolució n de aná foras y catá foras implica determinar la entidad
lingü ística previa o posterior a que hacen referencia.
 En el nivel estructural, se requiere de la semá ntica para desambiguar la dependencia
de los sintagmas preposicionales que conducen a la construcció n de distintos á rboles
sintá cticos. Por ejemplo, en la frase Rompió el dibujo de un ataque de nervios.
 En el nivel pragmá tico, una oració n, a menudo, no significa lo que realmente se está
diciendo. Elementos tales como la ironía tienen un papel importante en la
interpretació n del mensaje.
Para resolver estos tipos de ambigü edades y otros, el problema central en el PLN es la
traducció n de entradas en lenguas naturales a una representació n interna sin ambigü edad,
como á rboles de aná lisis.
Detección de separación entre las palabras
En la lengua hablada no se suelen hacer pausas entre palabra y palabra. El lugar en el que se
deben separar las palabras a menudo depende de cuá l es la posibilidad de que mantenga un
sentido ló gico tanto gramatical como contextual. En la lengua escrita, lenguas como el chino
mandarín tampoco tienen separaciones entre las palabras.
Recepción imperfecta de datos
Acentos extranjeros, regionalismos o dificultades en la producció n del habla, errores de
mecanografiado o expresiones no gramaticales, errores en la lectura de textos mediante OCR
Componentes
 Aná lisis morfoló gico. El aná lisis de las palabras para extraer raíces, rasgos flexivos,
unidades léxicas compuestas y otros fenó menos.
 Aná lisis sintá ctico. El aná lisis de la estructura sintá ctica de la frase mediante una
gramá tica de la lengua en cuestió n.
 Aná lisis semá ntico. La extracció n del significado de la frase, y la resolució n de
ambigü edades léxicas y estructurales.
 Aná lisis pragmá tico. El aná lisis del texto má s allá de los límites de la frase, por
ejemplo, para determinar los antecedentes referenciales de los pronombres.
 Planificació n de la frase. Estructurar cada frase del texto con el fin de expresar el
significado adecuado.
 Generació n de la frase. La generació n de la cadena lineal de palabras a partir de la
estructura general de la frase, con sus correspondientes flexiones, concordancias y
restantes fenó menos sintá cticos y morfoló gicos.
Aplicaciones
Las principales tareas de trabajo en el PLN son:
 Síntesis del discurso
 Aná lisis del lenguaje
 Comprensió n del lenguaje
 Reconocimiento del habla
 Síntesis de voz
 Generació n de lenguajes naturales
 Traducció n automá tica
 Respuesta a preguntas
 Recuperació n de la informació n
 Extracció n de la informació n
https://es.wikipedia.org/wiki/Procesamiento_de_lenguajes_naturales
Qué es el Procesamiento del Lenguaje Natural (PLN o NLP)
El procesamiento del lenguaje natural (PLN o NLP) es un campo dentro de la inteligencia
artificial y la lingüística aplicada que estudia las interacciones mediante uso del
lenguaje natural entre los seres humanos y las máquinas. Má s concretamente se centra en
el procesamiento de las comunicaciones humanas, dividiéndolas en partes, e identificando los
elementos má s relevantes del mensaje. Con la Comprensió n y Generació n de Lenguaje
Natural, busca que las má quinas consigan entender, interpretar y manipular el lenguaje
humano.
Los asistentes virtuales o chatbots son una de las utilidades má s conocidas de la PLN, pero no
son la ú nica. Ademá s, es importante entender que el PNL no dota de inteligencia a un chatbot,
só lo le da la capacidad de procesar y generar lenguaje humano. En caso de querer dotar de
inteligencia a un asistente virtual, habría que utilizar sistemas como reglas o redes
neuronales.
Muchas veces cuando se habla de procesamiento de lenguaje natural, algunas personas
ú nicamente lo relacionan con los chatbots, por eso vamos a ver otros usos del PLN.
Para qué se utiliza el Procesamiento del Lenguaje Natural (PLN o NLP)
El procesamiento del lenguaje natural (PLN o NLP), se utiliza actualmente en diferentes á reas
y para distintas funciones, como por ejemplo:
Comprensión del lenguaje natural (CLN o NLU)
La comprensión del lenguaje natural (CLN o NLU) es la parte del procesamiento del
lenguaje natural que se encarga de interpretar un mensaje y entender su significado e
intención, tal y como haría una persona. Para que el sistema funcione necesita datasets en el
idioma específico, reglas de gramá tica, teoría semá ntica y pragmá tica (para entender el
contexto e intencionalidad), etc.
Generación del lenguaje natural (GLN o NLG)
La generación del lenguaje natural (GLN o NLG) dota a la má quina de la capacidad de
crear un nuevo mensaje en lenguaje humano de manera autónoma. De manera resumida,
lo que hacen estos modelos es: escoger la informació n a reproducir (dependiendo de la
interpretació n del mensaje a contestar), decidir có mo organizarla y có mo reproducirla (léxico
y recursos gramaticales, morfología, estructuras sintá cticas, etc.). Estos modelos generan
frases nuevas palabra a palabra y tienen que ser entrenados para que funcionen
correctamente.
Recuperación de información (RI o IR)
La recuperació n de informació n (RI) o en inglés Information Retrieval (IR), es el campo
dentro de la informá tica que se encarga de procesar textos de documentos, para poder
recuperar partes específicas en base a palabras clave. Por ejemplo técnicas como la
extracció n de informació n estructurada (permite obtener de un documento el trozo de texto
en el que está lo que buscas) o los sistemas de respuesta a preguntas de usuarios (que
devuelve ante una consulta, una respuesta de una batería de respuestas ya existentes,
asociadas a palabras clave de la consulta). No genera nuevas frases, por lo que no necesita
utilizar reglas gramaticales. No es tan “inteligente” como la Generació n del Lenguaje Natural.
Reconocimiento y síntesis del habla
Los sistemas de reconocimiento de voz procesan los mensajes en voz humana, los
transforman en texto, los interpretan y comprenden la intencionalidad de los mismos, y
tras la generació n de la respuesta en texto, se vuelve a transformar en voz humana a través de
la síntesis de voz. La síntesis del habla o de voz, es la que capacita a la máquina para poder
generar y reproducir habla en lenguaje natural.
Traducción automática
La Traducció n automá tica o Machine Translation en inglés, es un campo de investigació n
dentro de la lingü ística computacional que estudia los sistemas capaces de traducir
mensajes entre diferentes lenguas o idiomas. Por ejemplo Google es una de las empresas
que má s ha invertido en sistemas de traducció n automá tica, con su traductor que utiliza un
motor estadístico propio. Los sistemas de autocorrecció n y autocompletado de texto, también
utilizan Procesamiento del Lenguaje Natural (PLN o NLP).
Resumen y clasificación de textos
También se está utilizando el procesamiento del lenguaje natural para resumir textos de
extensiones largas de manera automática o extraer palabras clave para clasificarlos.
Muchas veces, debido a la gran cantidad de documentació n o por la longitud de la misma,
utilizar estos sistemas ayuda en sectores como el legal a encontrar partes dentro de las leyes,
o resumir una gran cantidad de documentació n.
Otro de los usos que se le da a esta funció n de clasificació n, es la de detección de spam.
Empresas como Google utilizan esta tecnología para clasificar los textos de los correos
electró nicos y detectar si se trata de spam o no. Para esto, toman palabras clave como “gratis”
o “descuento”, la condició n de palabras en mayú scula o las exclamaciones.
Detección de sentimientos o emociones
Uno de los usos má s novedosos del PLN es el aná lisis de sentimientos. Cada vez má s empresas
y profesionales del marketing está n utilizando esta tecnología para saber qué sienten los
usuarios sobre una marca, producto o servicio, utilizando datos de entrada como
mensajes, comentarios o reacciones en diferentes redes sociales.
https://decidesoluciones.es/procesamiento-del-lenguaje-natural-pln-o-nlp-que-es-y-para-
que-se-utiliza/

Procesamiento del lenguaje natural


Qué es y por qué es importante

El procesamiento del lenguaje natural (NLP, por sus siglas en inglés) es una rama de
la inteligencia artificial que ayuda a las computadoras a entender, interpretar y manipular el
lenguaje humano. NLP toma elementos prestados de muchas disciplinas, incluyendo la ciencia
de la computació n y la lingü ística computacional, en su afá n por cerrar la brecha entre la
comunicació n humana y el entendimiento de las computadoras.
Evolución del procesamiento del lenguaje natural
Aunque el procesamiento del lenguaje natural no es una ciencia nueva, la tecnología avanza
con rapidez gracias a un mayor interés en la comunicació n entre humanos y má quinas,
ademá s de la disponibilidad del big data, computadoras poderosas y algoritmos mejorados.
Como humano, usted puede hablar y escribir en inglés, españ ol o chino. Pero el lenguaje
nativo de una computadora – que se conoce como có digo o lenguaje de má quina – es
mayormente incomprensible to para la mayoría de las personas. En los niveles má s bajos de
su dispositivo, la comunicació n se da no con palabras sino a través de millones de ceros y unos
que producen acciones ló gicas.
De hecho, los programadores utilizaban tarjetas perforadas para comunicarse con las
primeras computadoras hace 70 añ os. Este proceso manual y arduo era entendido por un
nú mero relativamente reducido de personas. Ahora puede decir, “Alexa, me gusta esta
canció n” y un dispositivo que reproduce mú sica en su hogar bajará el volumen y le
responderá , “OK. Evaluació n guardada”, en una voz similar a la humana. Luego adapta su
algoritmo para reproducir esa canció n – y otras como ésa – la pró xima vez que escuche esa
estació n musical.
Demos un vistazo má s de cerca a esa interacció n. Su dispositivo se activó cuando lo oyó
hablar, entendió la intenció n no hablada en el comentario, ejecutó una acció n y proporcionó
retroalimentació n en un enunciado bien estructurado en inglés (o españ ol), todo en un
espacio de unos cinco segundos. La interacció n completa la hizo posible el procesamiento del
lenguaje natural, junto con otros elementos de inteligencia artificial como el aprendizaje
basado en má quina y el aprendizaje a fondo.

¿Por qué es importante el procesamiento del lenguaje natural?


Grandes volúmenes de datos textuales
El procesamiento del lenguaje natural ayuda a las computadoras a comunicarse con humanos
en su lenguaje y escala otras tareas relacionadas con el lenguaje. Por ejemplo, NLP hace
posible que las computadoras lean texto, escuchen la voz hablada, la interpreten, midan el
sentimiento y determinen qué partes son importantes.
Las má quinas de hoy pueden analizar má s datos basados en lenguajes que los humanos, sin
fatigarse y de una forma consistente e imparcial. Considerando la asombrosa cantidad de
datos no estructurados que se generan todos los días, desde registros médicos hasta medios
sociales, la automatizació n será decisiva para analizar por completo datos de texto y habla con
eficiencia.
Estructuración de una fuente de datos altamente no estructurada
El lenguaje humano es increíblemente complejo y diverso. Nos expresamos de maneras
infinitas, verbalmente y por escrito. No só lo existen cientos de lenguajes y dialectos, pero en
cada lenguaje existe un conjunto ú nico de reglas gramá ticas y de sintaxis, términos y palabras
coloquiales. Cuando escribimos, a menudo cometemos errores ortográ ficos o abreviamos
palabras, o bien omitimos signos de puntuació n. Cuando hablamos, tenemos acentos
regionales, y mascullamos, tartamudeamos o tomamos palabras prestadas de otros idiomas.
Aunque el aprendizaje supervisado y no supervisado, y específicamente el aprendizaje a
fondo, se utilizan ahora ampliamente para modelar el lenguaje humano, se necesitan también
entendimiento sintá ctico y semá ntico, y conocimientos de dominio que no está n
necesariamente presentes en estos métodos de machine learning. NLP es importante porque
ayuda a resolver la ambigü edad del lenguaje y agrega estructura numérica ú til a los datos
para muchas aplicaciones industriales, como el reconocimiento del habla o la analítica de
texto.

¿Có mo funciona NLP?


Separació n de las piezas elementales del lenguaje
El procesamiento del lenguaje natural incluye diferentes técnicas para interpretar el lenguaje
humano, que van desde los métodos estadísticos y del aprendizaje basado en má quina hasta
los enfoques basados en reglas y algorítmicos. Necesitamos una amplia variedad de métodos
porque los datos basados en texto y en voz varían ampliamente, al igual que las aplicaciones
prá cticas.
Las tareas bá sicas de NLP incluyen la simbolizació n y el aná lisis sintá ctico ,
lematizació n/derivació n, etiquetado de la parte del habla, detecció n del lenguaje e
identificació n de relaciones semá nticas. Si alguna vez creó diagramas de enunciados en la
primaria, ya ha realizado estas tareas de forma manual antes.
En términos generales, las tareas NLP dividen el lenguaje en piezas elementales má s cortas,
intentan entender las relaciones entre las piezas y exploran có mo funcionan las piezas juntas
para crear significado.
Estas tareas implícitas se utilizan a menudo en recursos NLP de má s alto nivel, como:
 Categorización de contenido. Un resumen del documento basado en la lingü ística,
incluyendo bú squeda e indizació n, alertas de contenido y detecció n de duplicació n.
 Descubrimiento y modelado de temas. Capture con precisió n el significado y temas
en colecciones de texto, y aplique analítica avanzada a texto, como optimizació n y
pronó sticos.
 Extracción contextual. Extraiga automá ticamente informació n estructurada de
fuentes basadas en texto.
 Análisis de sentimiento. Identificació n del estado de á nimo u opiniones subjetivas en
grandes cantidades de texto, incluyendo minería de sentimiento y opiniones
promedio.
 Conversión de habla a texto y de texto a habla. Transformació n de comandos de
voz en texto escrito y viceversa.
 Sumarización de documentos. Generació n automá tica de sinopsis de grandes
cuerpos de texto.
 Traducción basada en máquina. Traducció n automá tica de texto o habla de un
idioma a otro.

En todos estos casos, la meta general es tomar texto crudo del lenguaje y aplicar la lingü ística
y algoritmos para transformar o enriquecer el texto de tal forma que provea un mayor valor.
Métodos y aplicaciones NLP
Có mo entienden las computadoras los datos textuales
NLP y analítica de texto
El procesamiento del lenguaje natural va de la mano de la analítica de texto, la cual cuenta,
agrupa y categoriza palabras para extraer estructura y significado de grandes volú menes de
contenido. La analítica de texto se utiliza para explorar contenido textual y derivar nuevas
variables de texto crudo que se pueden visualizar, filtrar o utilizar como entradas para
modelos predictivos u otros métodos estadísticos.
NLP y la analítica de texto se utilizan juntos para muchas aplicaciones, entre otras:
 Descubrimiento de investigació n. Identifique patrones y pistas en correos electró nicos
o reportes escritos para detectar y resolver delitos.
 Conocimiento en materia. Clasifique contenido en temas significativos de modo que
pueda seguir alguna acció n y descubrir tendencias.
 Analítica de medios sociales. Descubra conocimiento y sentimiento sobre temas
específicos e identifique a personas influyentes importantes.
Ejemplos cotidianos de NLP
Existen muchas aplicaciones comunes y prá cticas de NLP en nuestras vidas diarias. Má s allá
de conversar con asistentes visuales como Alexa o Siri, he aquí algunos ejemplos má s:
 ¿Alguna vez ha observado los correos electró nicos de su carpeta de correo no deseado
y ha notado similitudes en las líneas del asunto? Observa filtrado de correo no
deseado Bayesiano, técnica NLP estadística que compara las palabras del correo no
deseado con correos electró nicos vá lidos para identificar correo basura.
 ¿Alguna vez ha perdido una llamada telefó nica y leído la transcripció n automá tica del
correo de voz en su bandeja de entrada del correo o aplicació n de su teléfono
inteligente? Eso es conversió n de habla a texto, recurso del procesamiento del
lenguaje natural.
 ¿Alguna vez ha navegado por un sitio Web utilizando su barra de bú squeda integrada
o bien seleccionando etiquetas sugeridas de tema, entidad o categoría? Entonces ha
empleado métodos NLP para realizar bú squedas, modelado de remas, extracció n de
entidades y categorizació n de contenido.
Un subcampo de NLP llamado entendimiento del lenguaje natural (NLU, por sus siglas en
inglés) ha comenzado a crecer en popularidad debido a su potencial en aplicaciones cognitivas
y de inteligencia artificial. NLU va má s allá del entendimiento estructural del lenguaje para
interpretar intenció n, resolver ambigü edad de contexto y palabras, e incluso generar lenguaje
humano bien formado por cuenta propia. Los algoritmos NLU deben resolver el problema
muy complejo de la interpretació n semá ntica – es decir, entender el significado pretendido del
lenguaje hablado o escrito, con todas las sutilezas, contenido e inferencias que los humanos
podemos comprender.
La evolució n de NLP hacia NLU tiene muchas implicaciones importantes para empresas y
consumidores por igual. Imagine el poder de un algoritmo que puede entender el significado y
el matiz del lenguaje humano en muchos contextos, desde medicina hasta leyes y hasta el
saló n de clases. A medida que los volú menes de informació n no estructurada continú en
creciendo de manera exponencial, nos beneficiaremos de la habilidad incansable de las
computadoras de ayudarnos a comprenderlo todo.
https://www.sas.com/es_ar/insights/analytics/what-is-natural-language-processing-
nlp.html#nlphowitworks

También podría gustarte