Tipos de Minería de textos web

Dentro del ámbito del acceso, recuperación y organización de información, la minería de textos un campo muy importante de aplicación es la Web. Existen diferentes tipos de minería de textos web, la de contenido, la de estructura y la de uso.

Minería web de contenido

Dentro de la Web nos encontramos con gran cantidad de documentos de diferentes formatos, estos pueden ser documentos de hipertexto, documentos de texto plano, documentos en formato pdf, así como imágenes o vídeos. Esta heterogeneidad hace muy difícil la clasificación de todos estos documentos. La minería de contenido del web intenta extraer información relevante sobre el contenido de todos los documentos web de manera que pueda ayudar a clasificarlos. Se puede de esta forma aumentar la organización de ese contenido, para posteriormente mejorar el acceso y la recuperación de la información en él contenida.

Minería web de estructura

Éste tipo de minería de textos intenta obtener cómo está organizada una web, cómo está estructurada y cómo se puede realizar la navegación a través de ella. De esta forma se pueden hacer estudios de patrones de comportamiento comunes en la web para saber como organizar mejor la información y como recuperarla de una manera más eficiente

Minería de uso del web

Este tipo trata de extraer patrones de la ustilización de la web por parte de los usuarios. Para ello se utilizan ficheros de logs de los servidores Web. Con estos textos obtenidos se aplica minería de textos y se extrae aquella información que se considera útil.

Este tipo de minería tiene 2 objetivos principales:

  • Sacar patrones generales de uso de un sitio web de manera que se pueda reestructurar para que sea más fácil de utilizar y se pueda mejorar el acceso por parte de los usuarios.
  • Obtener perfiles de los distintos tipos de usuarios a través de su comportamiento y navegación, para poder atender de forma más personalizada.
Página realizada por: Pedro Ángel Sánchez Rubio
Recuperación y Acceso a la Información: Minería de Textos
Última Actualización: 06-04-2008

[Valid RSS] Valid XHTML 1.0 Transitional ¡CSS Válido! Icono de conformidad con el Nivel A, de las Directrices de Accesibilidad para el Contenido Web 1.0 del W3C-WAI Icono de conformidad con el Nivel A, del Test de Accesibilidad Web, T.A.W. Icono de conformidad con el Nivel A, del Test de Accesibilidad Web, HERA