Tecnología revolucionaria en el ámbito de la recuperación de la información. Totalmente diferente de la recuperación convencional de documentos en la que el usuario, debe analizar el documento para extraer toda la información que busca, siendo una tarea aburrida y pesada; pero con esta tecnología se extrae de manera automática la información estructurada que solicita el usuario siendo legible para el ordenador.
La extracción de la Información es una disciplina dentro del procesamiento del lenguaje natural (PLN) que ha supuesto una revolución tecnológica en el ámbito de la recuperación de información y que pretende agilizar la obtención de la información útil por parte de los usuarios. Tradicionalmente, los usuarios recuperaban una gran cantidad de información y después, manualmente, debían extraer la información de estos documentos tras el análisis de los resultados recuperados. Ahora mediante la extracción de información automática se pretenden filtrar automáticamente los resultados haciendo el trabajo mucho menos laborioso para los usuarios.
Los sistemas de extracción de Información realizan la tarea de buscar información de manera concreta en colecciones de documentos, detectando la información relevante, para extraerla y presentarla en un formato susceptible a ser tratado automáticamente más tarde. El tipo de información que estos sistemas son capaces de extraer varía en detalle y en fiabilidad. Por ejemplo, como se tratará de manera más en amplia a lo largo de la web; las entidades con nombre propio como pueden ser personas u organizaciones se recuperan actualmente con una fiabilidad del 90 %, sin embargo esta fiabilidad se reduce al extraer atributos de dichas entidades, hechos o eventos en los que estén relacionadas.
Subir
Trabajo de la Asignatura Sistemas Avanzados de Recuperación de Información (SARI) de la Licenciatura en Documentación, de la Universidad Carlos III de Madrid
Elaborada por: