LA INFORMACIÓN SIN BARRERAS.
NUEVAS TECNOLOGÍAS PARA EL PROCESAMIENTODEL LENGUAJE NATURAL.
Limitaciones humanas y respuestas técnicas
LAS BARRERAS DEL IDIOMA: THESAUROS MULTILINGÜES AUTOMATIZADOS Y TRADUCCIÓN AUTOMÁTICA
LAS BARRERAS ERGONÓMICAS: TECNOLOGÍAS DEL HABLA Y RECONOCIMIENTO ÓPTICO
DE CARACTERES
A) Sistemas de reconocimiento del habla
B) Sistemas de conversión texto-voz
Sistemas de reconocimiento óptico de caracteres
LA IMAGEN Y EL SONIDO: DIGITALIZACIÓN, MEMORIAS ÓPTICAS E HIPERMEDIOS
REFLEXIÓN FINAL: INFORMACIÓN TEXTUAL O INFORMACIÓN MULTIMEDIA
Las autopistas de la información y los sistemas informáticos ofrecen actualmente una serie casi ilimitada de posibilidades de acceso a cualquier tipo de documento sea cual sea su estado y situación. Aparentemente, no existen barreras entre el ser humano y la información a la que desea acceder, sea esta para uso científico o personal. Sin embargo, este panorama tan favorable para las comunicaciones tiene unas fronteras muy estrictas, que se hacen sentir con mayor intensidad a medida que se amplían y se diversifican las posibilidades de los sistemas de comunicaciones y a medida que aumenta el tráfico de información.
El primer tipo de limitaciones procede de las condiciones socioculturales de la población. La visión optimista de las nuevas tecnologías mantiene que la generalización del acceso a la información debe favorecer la igualdad entre los hombres, dando las mismas oportunidades a cualquier persona, sin que su situación económica, cultural o social sean factores determinantes. Contra esta teoría se enfrenta la realidad, bastante más cruel: los menos favorecidos socioculturalmente, los más pobres, tienen aún muchas más dificultades para el acceso a la información automatizada que hace unos años. Para las capas más bajas de la población es mucho más difícil acceder a sistemas sofisticados de información que leer el periódico o acudir a una biblioteca, aunque esta sea pequeña y deficiente. Los países menos desarrollados no están representados en las autopistas de la información más que de forma simbólica o marginal y el porcentaje de utilización es mínimo. Incluso dentro de los países más avanzados, donde el uso de Internet está generalizado y es habitual, existen grandes bolsas de pobreza y marginación que, no sólo no tienen acceso a la información que discurre por estas autopistas, sino que sus posibilidades de acceder a ellas se ven mermadas de día en día. Tal situación está creando nuevas desigualdades y agudizando las ya existentes. Es un problema especialmente grave dentro de una sociedad que se llama a sí misma ?sociedad de la información?, y donde el acceso al conocimiento significa desarrollo, poder y riqueza. Contra este tipo de problemas sólo se puede actuar con medidas políticas de ámbito internacional, de tal complejidad que su viabilidad es cuestionable.
El segundo bloque de limitaciones, por el contrario procede de las características propias del ser humano y de sus recursos y actitudes naturales frente a la tecnología. Son problemas que han aparecido al mismo tiempo que las aplicaciones informáticas y de telecomunicaciones que, en poco tiempo, han sido capaces de ofrecer tantas posibilidades, que han superado en muchos aspectos la capacidad de reacción del usuario. El ser humano se encuentra limitado por sus propias fronteras físicas (ergonómicas), por el desconocimiento de lenguas diferentes a la suya y por la incapacidad de comunicación con las máquinas o con los otros hombres. También son impedimentos para el acceso a la información algunos tipos de minusvalías, ciertos problemas psicológicos (dislalias, dislexias, timidez exagerada, etc.) y otras circunstancias de carácter diverso.
Para solucionar estos problemas, el mundo de la información sí cuenta con la poderosa ayuda de la tecnología. La ciencia ha desarrollado, o está en vías de desarrollar, una serie de sistemas capaces de saltar por encima de estas limitaciones humanas y ofrecer un abanico real de posibilidades que hace tan sólo unos años no se encontraban más que en la atrevida imaginación de ciertos visionarios.
1. LIMITACIONES HUMANAS Y RESPUESTAS TÉCNICAS.
La avalancha de información, la rapidez de repuesta, la globalización de los medios, el acceso generalizado a las redes y la necesidad de una cada vez mayor especialización científica han desafiado la capacidad humana para absorber y administrar la masa de conocimientos disponibles. Al mismo tiempo se ha producido una demanda creciente de información, lo que exige la permanente retroalimentación del sistema para satisfacerla. El consumidor de información se ha convertido así en proveedor simultáneo y debe realizar una y otra función a una velocidad tan vertiginosa que no permite la existencia de barreras que la retrase. Sin embargo, las mismas características de velocidad y transferencia global crean nuevas barreras, dando lugar a una espiral de demanda-oferta de comunicación donde esta última se encuentra siempre superada: como la información es un bien que no se destruye con su uso (e incluso puede aumentar), la masa informativa crece exponencialmente, y con ella aumenta el ruido hasta tal punto que amenaza con invalidarla. Paradójicamente, el mismo exceso de información está limitando su disponibilidad.
Los problemas más graves a los que se enfrenta el usuario de información (en su doble vertiente de consumidor y proveedor) no son, pues, la falta de información, sino su exceso. Por eso es fundamental que se cuente con herramientas que permitan, no ya recuperar la información, sino recuperarla con eficacia y pertinencia, bajo cualquier forma que se encuentre, en el menor tiempo posible, con el menor gasto y con posibilidad de retroalimentar el sistema. Esta situación se concreta en las siguientes cuestiones:
A) La necesidad de desarrollar mecanismos eficaces de recuperación de información. A mayor cantidad de información, mayor habilidad de selección.
B) La superación de las barreras lingüísticas de comunicación hombre-hombre y hombre-máquina.
C) La exigencia de rebasar las limitaciones físicas: reducción de tamaños de teclados, velocidad de entrada de datos, problemas ergonómicos en el uso de las máquinas.
D) El requerimiento de gestionar la información bajo cualquier forma que se encuentre: texto, imágenes, sonido...
La tecnología actual ya tiene soluciones para cada uno de estos problemas, aunque se encuentran en distintos estados de desarrollo y su utilización es desigual. Las causas del diferente grado de aplicación dependen tanto del nivel y definición de las investigaciones en cada campo como de intereses comerciales, pero no cabe duda de que todas están llamadas a desarrollarse de manera fulminante en los próximos años. Entre las más avanzadas y prometedoras se destacan las siguientes:
a) Los sistemas de hipertexto y de recuperación de la información por similitud semántica que ofrecen nuevas habilidades de recuperación de información.
b) Los thesaurus multilingües automatizados y la traducción automática, que superan las barreras lingüísticas.
c) Los sistemas de reconocimiento y síntesis de voz y de reconocimiento óptico de caracteres, capaces de superar las limitaciones ergonómicas.
d) Los procedimientos de digitalización de imágenes fijas y en movimiento con o sin sonido añadido, y los sistemas hipermedios, que pueden gestionar complejos archivos iconográficos y sonoros.
Todas estas herramientas se basan en el procesamiento del lenguaje natural y, por tanto, utilizan para su desarrollo diversas partes de la Lingüística. Aunque cada una de estas herramientas es acreedora prioritaria de una de esas partes (fonética, fonología, morfología, semántica, pragmática, etc.), ninguna de ellas lo es en exclusiva. Es decir, cada una de estas herramientas utiliza una o más partes de la Lingüística de manera más intensa, pero no utiliza sólo esas. Al mismo tiempo, cada parte de la Lingüística no es utilizada por una sólo aplicación, sino que aparece en varias. La morfología, por ejemplo, está presente en el reconocimiento óptico de caracteres, en la traducción autómatica y en el procesamiento de voz, entre otros. Los sistemas de procesamiento de voz están obligados a utilizar las fuentes de la fonología, la fonética y la sintaxis; esta última es fundamental en los sistemas de traducción automática, quien no puede prescindir de la semántica, y así sucesivamente. En todo caso, es fundamental el papel de la Lingüística en el desarrollo de las nuevas tecnologías; hasta tal punto lo es, que no podrían existir sin ella. La aplicación de la Lingüística al campo de la documentación automatizada ha dado lugar al concepto de Lingüística Computacional, basada en los principios de la ingeniería lingüística.
2.1. El hipertexto.
Hipertexto es un tipo de texto electrónico, al mismo tiempo una tecnología informática y un modo de edición, que suponen una lectura no secuencial. Se puede entender como un conjunto de textos conectados entre sí mediante vínculos y que permite la elección del orden de lectura por parte del usuario. Pastor y Saorín definen el hipertexto como
"interfaz básico de cualquier sistema de recuperación de la información, que integra las más diversas técnicas de interrogación y de consulta de información-documentos, entendiendo el concepto de interfaz y el de hipertexto, como algo más complejo que la mera presentación visual de distintos tipos de información"
1. Pastor Sánchez, Juan Antonio y Saorín Pérez, Tomas. El hipertexto documental como solución a la crisis conceptual del hipertexto. El reto de los documentos cooperativos en redes. Http:// www.ucm.es/info/m...ta/cuadern4/hiperdoc.htm
Por una parte, el hipertexto hace realidad y amplía el deseo de una obra abierta que subyace en la literatura reciente y por otra, y más prosaicamente, permite simultanear el uso de notas, diccionarios, anexos y texto principal. Ese deseo de texto abierto ha convertido al hipertexto en reflexión teórica de algunos autores (Barthes, Foucault), y ha propiciado las llamadas ediciones genéticas de obras literarias, que permiten un recorrido por el proceso de síntesis de dicha obra y un detallado estudio de estas, además de una lectura a la carta. Entre las primeras realizaciones encontramos el In Memoriam de Tennyson, construido con Hipermedia o Forking Paths : An Interaction after Jorge Luis Borges (1987), de Stuart Moulthrop y construido con Storyspace. Pero donde el concepto de hipertexto se hace más omnipresente y más difuso es en el uso no literario. Según señalan Pastor y Saorín, se ha producido una inflación del término hipertexto, de modo que su contenido se ha reducido prácticamente al de salto entre dos puntos o relación. Por otra parte su presencia constante en el world-wide-web, contribuye aún más a enmarañar la cuestión.
Quizás las dos las tipologías más aceptadas de estos sistemas, las debidas a Jeff Conklin y a T.J. Byers puedan acotar de algún modo el término. Jeff Conklin enumera cuatro tipos de sistemas hipertexto:
a) los macroliterarios, sistemas que soportan grandes conjuntos documentales en linea, como el Memex de Vannever Bush.
b) herramientas para la exploración de problemas, que gestionan ideas sin estructurar sobre un problema determinado
c) sistemas de consulta o browsing systems, similares a los macroliterarios pero a pequeña escala, enfocados a la enseñanza, el trabajo de referencia y la información pública. No permiten interacción del usuario.
d) Tecnología General Hipertexto, sistemas generales aplicables de modo muy amplio, de este tipo son los programas comerciales más conocidos como NoteCardss, Hypercard, Neptune o Guide.
2. Razquín Zazpe, Pedro, Del hipertexto al multimedia interactivo. Evolución situación actual y perspectivas de los sistemas y aplicaciones multimedia, En: Revista General de Información y documentación . 1997, v-. 7 n. 1. Madrid, Universidad Complutense
La clasificación, la de Byers, es más genérica y distingue solo: a) sistemas hipertexto estáticos, que solo permiten la búsqueda a través de enlaces ya creados; y b) sistemas hipertexto dinámicos, que permiten la participación del usuario mediante notas, nuevos vínculos, añadido o supresión de datos, etc.
Pastor y Saorín señalan varios problemas que presenta el hipertexto en su creación y utilización, entre los cuales los más graves son la falta de normalización en el establecimiento de relaciones, las diferentes diferentes significados conceptuales para cada tipo de usuarios y la no existencia de una estructura de base de datos que organice la información de manera sistemática. Esta situación aconseja diseñar el modelo de interfaz navegacional de lo que llaman hipertexto consistente, mediante la creación de una red semántica que se ocupe de establecer una estructura jerárquica entre las diversas entradas del hipertexto. Es decir, que un sistema de hipertexto riguroso deberá apoyarse en un thesaurus (red semántica) que lo gestione.
Tal afirmación parece contradecir el principio mismo del hipertexto, que apareció como repuesta a la necesidad de gestionar fácilmente grandes cantidades de información mediante un sistema capaz de funcionar con una estructura asociativa similar a la de la mente humana. En realidad el interfaz de navegación del hipertexto se apoya en tres tipos de estructuras, la inmediata (ayudas visibles), la interna (códigos de diseño del sistema) y la externa (fuentes complementarias), y cada una de ellas responde a una organización sistemática. La utilización de un sistema hipertexto para navegar llevará al usuario a extraviarse con facilidad y sólo la casualidad le ofrecerá la recuperación de la información que busca. Aunque aparentemente el sistema hipertexto es libre y anárquico en su funcionamiento, solo la creación de una red semántica perfectamente controlada en la que se apoye puede garantizar su eficacia. Esto no impide que el intefaz ofrezca al usuario la posibilidad de actuar con total libertad para moverse a través de la información por un sistema flexible: en realidad tal sistema responde a una estructura lógica. Es decir, exactamente como funciona la mente humana.
2.2. Sistemas de recuperación de la información por similitud semántica.
La mayoría de los sistemas que se utilizan actualmente para recuperar información de las bases de datos automatizadas se apoyan en la comparación léxica de palabras. El usuario define una palabra (cadena de caracteres) y el sistema compara esta cadena de caracteres con otras de aspecto similar que tiene almacenadas y que remiten a documentos determinados. Aunque los sistemas actuales son capaces de actuar por aproximación (es decir, recuperan las cadenas de caracteres idénticas y las de aspecto similar), la ingente cantidad de demandas y respuestas que se almacena en las bases de datos dan como resultado un creciente número de errores en la recuperación de la información.
La respuesta a estas limitaciones parece encontrarse en los sistemas de recuperación de información por similitud semántica, basados en el modelo de espacio vectorial que, según Rodríguez, Díaz y Pardo responde a la siguiente premisa:
El significado de un documento puede derivarse de los términos constituyentes del documento. Representa los documentos como vectores de términos d=(t1, t, ...,tn) donde ti(1<=i<=n) es un valor no negativo que denota el número de ocurrencias del término i en el documento d. De esta forma, cada término único en el documento se corresponde a una dimensión en el espacio. De igual forma, una consulta se representa como un vector i=(t1, t2,...,tn) donde ti(1<=i<m) término es un valor no negativo que denota el número de ocurrencias del término en la consulta (o, sencillamente, un 1 significa la ocurrencia del término). Ambos vectores, el del documento y el de consulta proporcionan las localizaciones de los objetos en el espacio término-documento. Calculando que la distancia entre la consulta y otros objetos sea pequeña, presumiblemente estos objetos tendrán un contenido semántico similar al de la consulta y se presentarán como respuesta al usuario.
3. Rodríguez Muñoz, José V.; Díaz Ortuño, Pedro M.; Pardo de Vega, M. C. Modelos y estrategias para la recuperación de información por similitud semántica. 6es Jornades Catalanes de Documentació, Barcelona, 1996.
Los modelos de espacio vectorial tratan a cada término de forma independiente, sin intentar contraer las dimensiones del espacio vectorial, y permiten ponderar cada elemento. De este modo, cada uno de los término admite una valoración diferente según el valor que tengan en el documento o en el conjunto de documentos. Estos sistemas, al estar basados en la distancia euclídea entre la consulta y los términos del documento dirigen automáticamente al usuario hacia los documentos próximos al significado de su interrogación. Además, este método permite mantener un sistema permanente de retroalimentación por pertinencia, al utilizar la frecuencia y exactitud de los términos de la búsqueda en la ponderación de los términos documentales.
Los sistemas de recuperación por aproximación semántica basados en los modelos de espacio vectorial presentan algunos problemas graves para su puesta en funcionamiento de manera general. Uno de ellos es la gran densidad de la represenatción documental (más de 10.000 vectores por documento), aspecto que trata de solucionar el modelo indización por semántica latente (Latent Semantic Indexing), que usa la descomposición de valores propios (Singular Value Descomposition) para tratar de reducir las dimensiones del espacio término-documento. No obstante, la aplicación de este modelo aún no se encuentra suficientemente desarrollada y la cantidad enorme de recursos y tiempo que consume no la hacen rentable de momento, aunque no cabe duda de que es un modelo a tener en cuenta en el futuro más próximo.
3. LAS BARRERAS DEL IDIOMA: THESAURUS MULTILINGÜES AUTOMATIZADOS Y TRADUCCIÓN AUTOMÁTICA.
3.1. Los thesaurus multilingües.
Los thesauros multilingües constituyen una herramienta imprescindible para la explotación eficaz de las redes internacionales de comunicación (las llamadas autopistas de la información), donde los idiomas son la barrera real más difícil de superar; por este motivo, las organizaciones internacionales apoyan y promueven la creación de este tipo de instrumentos. Los thesauros multilingües ofrecen la oportunidad de establecer estrategias de búsquedas en la interrogación de bases de datos complejas, aunque estas no estén indizadas más que en sus propios idiomas y aunque estos idiomas no coincidan con el del investigador; el thesauro multilingüe actuará entonces como lengua de conexión entre la información contenida en las bases de datos y el investigador.
La premisa sobre la que se debe asentar la concepción y desarrollo de un thesauro multilingüe es la de que todas las lenguas recogidas deben tener el mismo tratamiento. La creación de thesauros multilingües es una tarea compleja y no exenta de dificultades. Los lenguajes naturales no son meras listas de términos, sino un reflejo del universo conceptual de una cultura, que varía de una sociedad a otra: los mismos términos no representan las mismas ideas en diferentes culturas. Los thesauros no sólo reflejan de manera muy clara el conjunto de relaciones terminológicas de una lengua o una ciencia, sino también la estructura conceptual de un idioma. Un thesauro que se limite a ofrecer la traducción de cada uno de sus términos en una o varias lenguas, sin ofrecer también la estructura desarrollada en cada una de ellas, no puede considerarse un thesaurus multilingüe, sino simplemente, una traducción de términos. Un thesauro multilingüe, por tanto, no se limita a poner un thesauro junto a otro, ni a buscar las correspondencias de unas palabras en otros idiomas, sino que va mucho más allá: debe ser capaz de ofrecer conceptos equivalentes en diferentes idiomas y el conjunto de términos reflejará exactamente dos visiones conceptualmente alternativas. Por esta razón, algunos autores mantienen que es mejor hablar de thesauros multiculturales que multilingües4.
4. Hudon, M. Multilingual Thesaurus Contruction. Information Services and Use, vol. 17, n
1 2-3, 1977.El desarrollo de un thesauro multilingüe se puede llevar a cabo de tres maneras diferentes: traducción de los términos de un thesaurus monolingüe a otras lenguas; unión coordinada de varios thesauros monolingües en diferentes idomas; y desarrollo simultáneo del mismo thesauro en diferentes lenguas. De las tres opciones, sólo esta última responde a las características que caben esperar de un auténtico thesaurus multilingüe, ya que no concede prioridad a ninguna lengua (no existe lengua-fuente), como es el primer caso, ni fuerza las coincidencias entre diferentes estructuras, como es el segundo caso.
La idea de un thesauro multilingüe parece sugerir la existencia de dos o más estructuras semánticas idénticas y simétricas, y esto parece absolutamente necesario en los sistemas automatizados5. En realidad, tratar de aproximar dos estructuras semánticas hasta convertirlas en el mutuo reflejo desnaturaliza las relaciones entre términos y acaba por crear estructuras falseadas, forzando equivalencias donde no existen, eliminando equivalencias reales y generando jerarquías semánticas ilógicas. Dos términos genéricos en dos idiomas diferentes pueden tener significados muy ligeramente distintos, pero ello dará lugar a términos específicos de diferente extensión, tanto en número como en significado. Por eso, los thesauros multilingües que admitan una cierta flexibilidad en la correspondencia estructural ofrecen mucha más garantía de fiabilidad que los más rígidos.
5.Encyclopedia of Library and Information Science, New Yorrk, Dekker, 1990De todo esto se desprende la importancia que para la construcción de un thesauro multilingüe tienen la morfología, la semántica y la pragmática. En un thesauro multilingüe ideal, descriptores equivalentes deberían tener equivalentes implicaciones. Sin embargo esta situación no se da en la realidad. La International Standard Organization ha recogido en su obra Guidelines for the establishment and development of multilingual thesauri6 una serie de problemas que se pueden presentar en la construcción de thesauros multilingües y ofrece varias posibilidades para su resolución. Las más importantes son los problemas que se derivan de los diferentes grados de correspondencia terminológica entre los pares de idiomas. Estas relaciones son siempre recíprocas: no se debe olvidar que en la construcción de un thesauro multilingüe no debe existir lengua-fuente y lengua-objeto, sino que cada una de las lenguas actuará alternativamente como fuente y objeto. Las Guidelines señalan cinco grados de equivalencia y ofrece soluciones para cada una de ellos: 1) equivalencia exacta o sinonimia (un término = un término); 2) equivalencia inexacta o cuasisinomia (un término = un término con diferente punto de vista); 3) equivalencia parcial (un término = un término con diferencia específica); 4) equivalencia múltiple o polisemia (un término = múltiples términos); y 5) no equivalencia (un término # cualquier término).
6 International Organization for Standarization. Documentation-Guidelines for the establishment and development of Multiligual Thesauri, ISO 5964, ISO, Ginebra, 1984
Los thesaurus multilingües pueden construirse en diversos tipos de soportes, lo que afecta al modelo de presentación. Sin embargo, en la actualidad, parece falto de rentabilidad un thesauro multilingüe que no esté automatizado, integrado en servicios de tratamiento y recuperación de la información y accesible a indizadores y usuarios, ya que es precisamente en el campo de la infomación automatizada donde su existencia adquiere la mayor importancia. La creación de un thesauros multilingüe automatizado ignora uno de los problemas más arduos de su construcción, que es la representación física. La pantalla de un ordenador no tiene ninguna necesidad de mostrar la estructura interna del thesauro, ni las relaciones que ha establecido entre los términos de la propia lengua y sus correspondencias con otras. Permite que el thesauro multilingüe lo sea realmente, al ofrecer mucha más capacidad de admitir diferentes registros, más capacidad de simultanear y combinar distintos términos, más flexibilidad en su recuperación y más movilidad. Además, ofrece la posibilidad de utilizar numerosos símbolos (alfabéticos, numéricos, alfanuméricos o iconográficos) para indicar las relaciones entre descriptores. Sin embargo, presenta una seria dificultad de tipo técnico: el mismo software que sirve para la representación y uso de un thesauro no siempre es válido para desarrollar otro, porque no siempre responde a la misma estructura lingüística de los diferentes idiomas. Al igual que en el caso del thesaurus, la estructura informática de un programa informático refleja la estructura conceptual de sus creadores, también diferente entre diferentes sociedades. Es decir, que un software creado para gestionar los términos de un idioma probablemente favorecerá a este idioma frente a otros.
El sistema capaza de soportar y gestionar el desarrollo de un thesauro multilingüe automatizado está obligado a responder a varias expectativas que son: a) el thesauro debe ser capaz de ofrecer equivalencias en cada uno de los idiomas que comprenda sin favorecer la estructura de ninguno de ellos; b) el thesauro puede utilizarse como conexión entre descriptores y conceptos de diversas lenguas (en su vertiente multilingüe), o como acceso a la información en cada una de las lenguas utilizadas (es decir, como thesauros molnolingües independientes); c) cada una de las lenguas que comprenda debe poder actuar como lenguaje-fuente o lenguaje-objeto sin ninguna limitación; d) los registros de cada uno de los descriptores de cada lengua deben ser independientes, aunque conectados entre sí; e) debe tener la suficiente flexibilidad y rigor como para ser capaz de ofrecer una equivalencia de cada término sin exigir una estructura simétrica en cada una de las lenguas; y f) debe indicar las relaciones entre decriptores mediante signos suficientemente claros para cualquiera de las lenguas que lo compongan.
Llamamos traducción al procedimiento por el cual reproducimos en una lengua (lengua-objeto) el mensaje contenido en otra (lengua-fuente). Para que exista traducción es pues, imprescindible que exista al menos una pareja de lenguas. Como estas lenguas pueden formalizarse oralmente (lengua hablada) o por escrito (lengua escrita), la traducción puede hacerse de cuatro formas distintas: de voz a voz, de texto a texto, de voz a texto y de texto a voz. Díez Carrera7 propone el siguiente esquema básico para las posibles combinaciones de traducción de texto y voz:
7. Díez Carreras, C. La traducción automática. Signatura, 1993 (3).
VOZ |
è |
TEXTO |
é |
ê |
|
VOZ |
ç |
TEXTO |
8. Díez Carrera. Ibídem
La traducción se puede llevar a cabo por procedimientos exclusivamentes humanos, por procedimientos humanos asistidos o mediante procedimientos de traducción automática. Este último concepto (traducción automática) es muy amplio, puede abarcar diferentes niveles de complejidad, y con frecuencia se confunde con la traducción asistida por ordenador. Tales niveles son los siguientes:
1. Bases de datos terminológicas y diccionarios electrónicos. Son listados de términos aislados con sus correspondencias en los idiomas-objeto, alojados en la memoria del ordenador y utilizados como ayuda a la traducción. En realidad, se trata de traducción humana asistida por medios informáticos.
2. Traducción asistida por ordenador propiamente dicha. La traducción asistida por ordenador puede referirse a la traducción humana asistida por ordenador (apoyo informático), o en la traducción automática asistida por el hombre. En el primer caso es el hombre quien realiza la traducción, pero cuenta para ello con programas que le facilitan la tarea proporcionándole ayudas de diccionarios, frases hechas, giros, etc. En el segundo caso, es la máquina quien lleva a cabo la traducción, pero el hombre la completa y perfecciona para desambiguar, corregir estilo, etc.
3. Traducción automática. La auténtica traducción automática es aquella en la que no es necesaria la participación humana en ninguna fase del proceso. Esta sería la traducción automática perfecta; en realidad se está aún muy lejos de alcanzarla.
Hace ya más de cincuenta años que los científicos e investigadores en el campo de la informática y de la lingüística comenzaron a preocuparse seriamente por las posibilidades de la traducción automática. Los primeros pasos en esta técnicas tuvieron su origen en la investigación científica llevada a cabo por Weaver y Booth8, quienes consideraban a la lengua como un código trasladable a otros de forma literal, aunque más tarde ellos mismos dejaron constancia de las limitaciones de esta teoría. En los años cincuenta y sesenta se crearon muchas expectativas acerca de las técnicas de traducción automática; pero el informe ALPAC de la Academia de Ciencias de los Estados Unidos, aconsejando abandonar este campo de la investigación por sus escasos resultados y pocas posibilidades de futuro, provocó un recorte drástico de subvenciones y recursos lo que supuso un brusco frenazo en los avances técnológicos y dejó relegada la investigación a algunos sectores casi residuales. Para Tapias y Siles
"el problema que ha tenido la Traducción Automática se ha debido, por una parte, a la no existencia de una teoría lingüística rigurosa y a la subestimación de la complejidad del problema por los primeros investigadores, que hicieron concebir falsas esperanzas, y por otra parte a que el país más avanzado tecnológicamente cuando se empezó a trabajar en este campo, Estados Unidos, es una sociedad prácticamente monolingüe, y en la que no existía interés, ni por parte de la opinión pública, ni por parte de de exportadores de equipo, en traducir el inglés a otras lenguas"9.
9.
Tapias Merino, D. y Siles Sánchez, J.A. La traducción automática. Descripción de un sistema con entrada y salida de voz. Telefónica I+D, vol. 3, n1 1, enero-junio 1992.Para estos autores, el aumento del mercado internacional y la competitividad de los mercados nacionales son la causa del renovado interés por la traducción automática.
El desarrollo de un sistema de traducción automática consta fundamentalmente de tres fases: análisis de la lengua-fuente (identificación de términos y representación de las oraciones), transferencia (búsqueda de equivalencias en la lengua-objeto) y síntesis (generación del texto en la lengua-objeto). Los sistemas de traducción automática se complican cuando la entrada es por voz, lo que supone el problema añadido de reconocimiento del habla; y los sistemas de reconocimiento del habla en traductores automáticos exigen una considerable complejidad, puesto que es necesario que sea capaz de reconocer y procesar frases enteras. En cuanto a la salida por voz, el sistema precisa la incorporación de un módulo de síntesis de voz, menos complejo que el de reconocimiento y donde actualmente sí se han alcanzado resultados bastante satisfactorios.
Cada una de de estas fases está subdividida a su vez en otros escalones del proceso. Tapias y Siles sintetizan el proceso de la traducción automática según el siguiente esquema:
ANÁLISIS |
Análisis morfológico |
|||||||||||
Análisis sintáctico |
||||||||||||
Análisis semántico |
||||||||||||
Análisis lógico |
||||||||||||
TRANSFERENCIA |
Transferencia léxica |
|||||||||||
Transferencia estructural |
||||||||||||
GENERACIÓN |
Traducción de palabras |
|||||||||||
Concordancia sintáctIca |
||||||||||||
Concordancia morfológica |
Cada una de estas fases se lleva a cabo a su vez mediante el auxilio de una serie de herramientas complejas. El módulo de análisis debe disponer de analizadores morfológicos, que contarán con diccionarios de raices y sufijos, modelos de comportamiento morfológico, analizadores sintácticos (que deben determinar la corrección de las oraciones en cada lengua y general árboles sintácticos), analizadores lógicos (capaces de extraer las relaciones gramaticales) y el analizador semántico, que identifica el significado de una oración. El módulo de transferencia estará dotado de sistemas de transferencia léxica (palabra por palabra) y estructural (determina la adecuación a las reglas gramaticales: tiempos, concordancias, etc.). Finalmente, el módulo de síntesis contará con las mismas unidades que el módulo de análisis, pero llevará a cabo las operaciones en sentido inverso.
Actualmente se encuentran disponibles en el mercado numerosos sistemas llamados de traducción automática: en realidad deberían llamarse de ayuda a la traducción. Hoy por hoy, y aunque los programas de traducción automática son unos de los productos más solicitados por el mercado (y lo serán cada vez más), no se han alcanzado resultados cien por cien satisfactorios y aproximarse a unos productos de alta calidad comporta todavía un trabajo complejo y oneroso, debido a la gran cantidad de relaciones léxicas, semánticas y pragmáticas que tiene el lenguaje natural. Sin embargo, existen en el mercado programas de ayuda a la traducción, de traducción asistida y diccionarios electrónicos que han alcanzado unos resultados bastante aceptables y que ofrecen tres posibilidades nada despreciables: para el que sabe poco o nada de una lengua, el poder traducir limitándose a la corrección de estilo; para el que sabe algo, el poder ofrecer un abanico de equivalencias en forma de consulta electrónica rápida y eficaz; para el que tiene un buen nivel de conocimiento, el poder dedicarse a perfeccionar el texto o a definir los matices más sutiles liberándolo de las partes más pesadas del trabajo de traductor.
Subir
4. LAS BARRERAS ERGONÓMICAS: TECNOLOGÍAS DEL HABLA Y DE RECONOCIMIENTO ÓPTICO DE CARACTERES.
4.1. Tecnologías del habla.
La utilización de la voz como medio para comunicarse con las máquinas presenta una serie de ventajas indudables en la forma de gestionar la información con respecto a lo que hasta ahora se han considerado métodos tradicionales, y supera muchas limitaciones ergonómicas. Los sistemas orales permiten mayor rapidez en la comunicación, libertad de movimientos y de manos, acceso remoto y disminución del tamaño de los paneles de control. Son sistemas ideales para ser usados por personas ciegas o minusválidas porque rompen las barreras visuales y hápticas, y acercan a las máquinas a todas aquellas personas que se sienten intimidadas al utilizarlas.
J.M. Pardo define las tecnologías del habla como "el conjunto de técnicas que utilizan la señal acústica del habla oral como objeto de trabajo e intentan simular la capacidad humana de hablar y comunicarse por medio del habla"11. En realidad, la tecnología del habla se refiere a cuatro tipos de tecnología diferentes, que pueden utilizarse por separado o conjuntamente11 .
10. Pardo, J.M. Últimos conocimientos en el análisis y síntesis de voz. Estudios de Transportes y Comunicaciones
11. Hernández Gómez, L y Caminero Gil, F.J. Estado del arte en la Tecnología del Habla. Comunicaciones de Telefónica I+D. http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol52/artic1/1.html
A. Reconocimiento de voz: es capaz de identificar el mensaje contenido en la voz humana y transformarlo en texto. Es la tecnología que más ha avanzado en los últimos años.
B. Conversión texto-voz: se ocupa de la generación de mensajes hablados mediante la simulación de lectura de textos previamente almacenados en soporte electrónico.
C. Reconocimiento de locutores: verifica la identidad del hablante mediante el reconocimiento de la señal de voz.
D. Codificación de la voz: representa en formato digital la señal de voz para su almacenamiento o transmisión
A. Sistemas de reconocimiento del habla.
Los sistemas de reconocimiento del habla tienen como objetivo principal el facilitar la comunicación hombre-máquina de la manera más sencilla y natural para el ser humano, ofreciendo la posibilidad de dirigirse a las máquinas mediantes órdenes habladas. Para desarrollar un sistema que permita a la máquina reconocer el mensaje emitido por una voz humana y obedecer las órdenes recibidas, es necesario que previamente haya reconocido una serie de patrones establecidos de antemano. Gómez y Caminero proponen el siguiente modelo genérico de comunicación para reconocimiento del habla
USUARIO è Estilo de habla
ê
Reconocimiento de patrones de unidad lingüístca
ê
Interfaz de comunicación
ê
Información de la base de datos
La aplicación de este esquema, no obstante, sólo sería posible en el caso de que el hablante utilizara siempre un mismo estilo de habla restringido, con un vocabulario limitado y pronunciando las palabras de forma aislada. Sin embargo, esa no sería una manera natural de hablar: el habla es diferente según la persona, el momento en que se encuentre, su estado de salud, influencias culturales, etc. Por ello, los sistemas de reconocimiento de voz deben ocuparse de desarrollar diferentes áreas de trabajo que acerquen el proceso artificial a la manera más natural del habla humana. Para Pozas, Villarrubia y Siles12 , los problemas a los que se enfrentan los sistemas de reconocimiento del habla dependen de, 1) el locutor, que es el aspecto que introduce mayores variables en el sistema; 2) la forma de hablar, que no es aislada y puede modificar la forma de una palabra dependiendo del lugar que ocupe en la frase o el valor que se le asigne; 3) el vocabulario, o número de palabras diferentes que debe reconocer el sistema; 4) la Gramática, que limita y define el número de combinaciones permitidas a las palabras del vocabulario; y 5) el entorno físico, que puede introducir elementos perturbadores para la identificación de los sonidos. Los mismos autores, en la obra citada señalan las siguientes áreas de trabajo:
Proceso de señal de la voz: rasgos de la voz y efectos perturbadores que puedan acompañarla
Técnicas de reconocimiento de patrones. Al principio se utilizaron las técnicas basadas en Alineamiento Temporal a través de algoritmos de programación Dinámica (DTW), más tarde los Modelos Ocultos de Markov (HMM) y actualmente se están utilizando las llamadas Redes Neuronales Artificiales (RN).
Diferentes estilos de habla: reconocimiento de palabras aisladas, de habla conectada y habla continua
Dependencia del locutor, es decir, posibilidad de que el sistema sea válido para un sólo locutor o para múltiples locutores.
Vocabulario de reconocimiento: número de palabras que el sistema puede reconocer y relaciones de similitud fonética.
Tarea de reconocimiento. El crecimiento exponencial de las combinaciones posibles al aumentar la capacidad de los vocabularios admitidos estará limitado por las reglas gramaticales que los regulan.
Bases de datos para entrenamiento y reconocimiento
12 Pozas, M.J.; Villarrubia, L.; Siles, J.A. Teoría y aplicaciones del reconocimiento automático del habla. Comunicaciones de Telefónica I+D, vol. 2, nº 3, enero-junio 1991.
Actualmente se encuentran disponibles en el mercado varios programas de reconocimiento del habla, como BYBLOS, TANGORA, SPHINX-II, LINCOLN, etc.
Subir
B) Sistemas de conversión texto-voz.
Los sistemas de conversión texto-voz tratan de representar la acción humana de la lectura. Cuando un lector humano realiza una lectura de calidad no se limita a hacer que las palabras que lee sean identificables, sino que le da sentido al texto mediante la prosodia. Por eso, los sistemas de conversión texto-voz suponen un serio desafío para la tecnología, ya que no se pueden limitar a reproducir una serie de sonidos que hagan inteligibles algunas palabras, sino que están obligados a acercarse cada vez más al modo de voz humano.
Los sistemas de síntesis de voz se componen de dos módulos diferentes en concepto y metodología: el lingüístico-prosódico y el acústico. Hernández y Caminero lo representan mediante el diagrama siguiente
Símbolos |
Proceso lingüístico prosódico |
è |
è |
Proceso acústico |
Voz |
Representación fonético-prosódica |
El primer proceso (lingüístico) debe determinar, a partir de un texto, dos tipos de información necesarios para proporcionar al segundo proceso (acústico) datos suficientes para que pueda generar voz natural. Son la información segmental y suprasegmental. La información segmental está asociada a la cadena de sonidos que componen un mensaje, los fonemas, cuyo número depende del idioma utilizado. La información parasegmental está relacionada con la prosodia, por lo que refleja elementos lingüísticos (acentos, pausas, etc.) y no lingüísticos (estado de ánimo, emociones, etc.).
El segundo proceso (acústico), busca convertir la cadena fonética y las variables prosódicas en ondas asociadas a la voz sintetizada. Responden al siguiente esquema de funcionamiento
Base de datos de parámetros |
Reglas de concatenación |
||||||||||||
ê |
ê |
||||||||||||
Información fonética + variables prosódicas |
è |
Construcción de sonidos |
è |
Concatenación y producción |
è |
Síntesis de voz |
C) Sistemas de reconocimiento de locutores.
Los sistemas de reconocimiento de locutores plantean problemas similares a los de reconocimiento del habla. Sin embargo, la diferencia entre uno y otro está en que, mientras el reconocimiento del habla se dirige a la identificación del mensaje, independientemente del emisor del mismo, el reconocimiento del locutor se orienta a la identificación del emisor del mensaje, sea cual sea lo que se trate de comunicar. Suponen, pues, el reconocimiento del que habla, en vez del reconocimiento de lo que se habla, y se basa en la aplicación de las técnicas de reconocimiento de patrones. El grado de dificultad estriba en que, en principio, existen tantos patrones como personas vivas, por lo que es necesario establecer una serie de estándares que permitan reducir los factores de identificación a un conjunto de características combinables entre sí. Actualmente se están consiguiendo grandes resultados mediante la aplicación de las técnicas de clasificación basadas en Redes Neuronales.
El valor de los sistemas de reconocimiento de locutores en el campo de la Documentación se encuentra en la posibilidad de asignar perfiles de usuarios al reconocimiento robusto de locutores, con vistas a organizar los servicios de Difusión Selectiva de la Información. En líneas generales, el sistema debería ser capaz de reconocer a la persona que emite la voz mediante la identificación de parámetros; en un segundo nivel, emparejaría los parámetros de identificación del hablante con el perfil de usuario diseñado previamente y alojado en la base de datos de usuarios; estos perfiles a su vez responderían a un diálogo de fijación y reducción a términos de recuperación que actuarían como puntos de acceso a los documentos que guaden información acerca de las materias que interesen al usuario específico. El cómputo de los tiempos de respuesta y el grado de pertinencia son datos objetivos que deben integrarse automáticamente en un archivo que permita evaluar y mejorar el sistema de forma inmediata.
Las aplicaciones que pueden tener los programas de reconocimiento de locutores los hacen, además, muy interesantes para la industria, pero a la vez les señalan unos límites muy específicos. El reconocimiento de locutores permite establecer controles de seguridad para el acceso a zonas o informaciones restringidas (de hecho ya se utilizan actualmente en este campo, aunque generalmente combinadas con otras medidas tales como bandas magnéticas o números secretos). El uso indiscriminado de sistemas capaces de identificar características personales de los usuarios puede atentar contra la privacidad o resultar conflictivo en sus aplicaciones; para evitarlo, se está intentando poner en marcha sistemas de reconocimiento de locutores que contengan la información en chips o bandas magnéticas alojadas en tarjetas personales, para uso exclusivo del propietario, mientras que en las bases de datos compartidas sólo se mantendrían los parámetros de identificación.
D) Sistemas de codificación de voz.
Finalmente, la codificación de la voz es una tecnología que intenta representar de manera eficiente y en formato digital la señal de voz para su almacenamiento y transmisión, alcanzando la mayor calidad con la menor cantidad posible de bits. La codificación de la voz convierte la señal analógica en formato digital y viceversa, aplicando factores de compresión que permiten reducir el número de bits. Una vez digitalizada la señal de voz se puede procesar, transmitir, almacenar o convertirse en señales analógicas para ser utilizada por un ordenador.
Los sistemas de codificación de la voz abren grandes perspectivas al mundo de la documentación, ya que ofrecen la posibilidad de transmisión de información sonora, de tratamiento y gestión de tal información y de almacenar y gestionar grandes cantidades de documentos sonoros de manera sencilla y segura. Estos sistemas enlazan con los que se analizan en el apartado 5, dedicado a la digitalización.
4.2. Sistemas de reconocimiento óptico de caracteres.
El reconocimiento óptico de caracteres es una forma de tratamiento digital de las imágenes, por lo que, en cuanto tecnología, debería tratarse en el apartado siguiente. Sin embargo, por sus características lingüísticas, se encuentra próximo a los sistemas de reconocimiento de voz, y ofrece posibilidades similares, por lo que se incluye en este apartado. Los puntos en común entre ambos sistemas (reconocimiento de voz o de caracteres) estriban en su dependencia de la fonética y la morfología y de la gran variedad de formas reales que pueden tomar los documentos-fuentes; ambos procedimientos aumentan considerablemente la velocidad de entrada de información y son capaces de superar fácilmente determinadas barreras físicas. Las diferencias se encuentran precisamente en el tipo de documento-fuente de uno y otro: documentos sonoros o documentos escritos.
Desde principio de siglo se ha intentado encontrar el procedimiento para pasar textos e imágenes tal y como se encuentran en el documento original a soportes que permitieran reducir el espacio de almacenamiento y aumentar la disponibilidad documental. Este era el objetivo buscado por Goldsmith cuando introdujo el microfilm, y el de las primeras patentes de sistemas de reconocmiento de caracteres, que tuvieron lugar a mediados de los años cincuenta y que buscaban además la manera de reproducir información de la forma más rápida posible. El aumento de la velocidad en la recogida de información y entrada de datos mejoró considerablemente cuando se pasó de los sistemas manuales (manuscritos) a los mecánicos (máquinas de escribir). A partir de este momento se estancó, y ni siquiera los modernos sistemas de teclado ayudados por ratón supusieron un avance de consideración en cuanto a rapidez. Como por su parte, los sistemas de procesamiento de la información sí habían experimentado un aumento vertiginoso de velocidad, pronto se constató la limitación que suponía la baja velocidad de entrada de datos. Es decir, los sistemas automatizados eran muchos más rápidos en procesar la información que en capturarla.
Los sistemas de reconocimiento óptico de caracteres se basan en los sistemas de tratamiento digital de la información, y más estrictamente en la digitalización de imágenes. El escáner recorre la página descomponiendo las imágenes en pequeñas áreas llamadas píxels que producen un conjunto de dígitos binarios, cada uno de los cuales representa el grado de brillo del píxel. El resultado de este proceso puede comprimirse y almacenarse en memorias ópticas de gran capacidad y fácilmente manipulable. Este proceso se utiliza para registrar, almacenar y gestionar texto e imágenes fijas o en movimiento.
Cuando un escáner recorre una página cualquiera para iniciar el proceso de digitalización de un determinado documento, reconoce todas las variaciones de brillo, color y tonalidad que aparecen en tal página, pero no distingue entre texto e imágenes: para un escáner sólo existen las imágenes y como tales toma también las palabras de un texto. El material así recogido no puede ser tratado mediante procesadores de textos, ni con cualquier tipo de software asociado a gestión textual de documentos. Para poder procesar como documento textual la información capturada y almacenada por procedimientos digitales, es necesario que previamente sea tratada por un sistema de reconocimiento óptico de caracteres (OCR). Los sistemas de reconocimiento óptico de caracteres convierten cada uno de los caracteres recogidos por el escáner en un grupo de señales eléctricas que posteriormente se comparan con un conjunto de caracteres alfabéticos previamente almacenados por el sistema. Una vez que el sistema reconoce la imagen como igual o próxima a alguno de los caracteres de su base de datos interna, selecciona el conjunto de señales que definen la imagen inicial y los convierte en un símbolo perfectamente identificable.
Actualmente, los sistemas de OCR son capaces de reconocer espacios, tamaños, formas, símbolos e incluso textos manuscritos y además contienen un sistema de retroalimentación que va almacenando y procesando sus propias experiencias. El tratamiento textual y documental de la información procesada hace posible la corrección de errores, la extracción de términos de identificación, la creación de índices y de otros instrumentos documentales que permitan la gestión múltiple y multimedia de la información. Cuando los sistemas de reconocimiento óptico de caracteres alcanzan niveles de tal calidad (aún poco desarrollados), se habla del reconocimiento inteligente de caracteres (ICR). Los sistemas de reconocimiento inteligente de caracteres pretenden responder igualmente a las necesidades de velocidad de captura, de almacenamiento y de gestión de la información. Los sistemas de OCR ha permitido llevar a cabo proyectos de gran envergadura como los corpus de la Real Academia de la Lngua (CREA y CORDE), el British National Corpus o el CD-ROM de ADMYTE.
Una forma más sofisticada del reconocimiento de caracteres es el sistema de captura directa de sonido (Direct Capture of Sounds, DCS), capaz de actuar con el lenguaje hablado de la misma manera que el OCR con el escrito. Es un sistema que nos lleva al apartado anterior (sistemas de reconocimiento de voz), con el que enlaza.
5. LA IMAGEN Y EL SONIDO: DIGITALIZACIÓN, MEMORIAS ÓPTICAS E HIPERMEDIOS.
Los sistemas de digitalización de imágenes, las memorias ópticas y los hipermedios son un grupo de tecnologías de la información de última generación que han ampliado considerablemente el concepto documental existente hasta ahora. No afectan de manera directa a los sistemas de procesamiento del lenguaje natural, pero sí ocurre al contrario, es decir, que los sistemas de procesamiento del lenguaje natural inciden muy directamente sobre estas tecnologías. La primera razón y más inmediata es que estos sistemas se ocupan de la captura, almacenamiento, gestión y recuperación de información, que, al fin y al cabo, no deja de ser lenguaje; la segunda razón, y más decisiva, es que el lenguaje es la única manera de gestionar estas nuevas bases de datos textuales, iconográficas y sonoras que llevan hasta límites insospechados las posibilidades de información del ser humano.
5.1. La digitalización de imágenes fijas y en movimiento
La Física define el concepto de imagen plana como una función bidimensional de intensidad de luz, es decir, que cada punto de la imagen tiene un valor de intensidad luminosa: la luz que emite un punto es una onda con un espectro, en función del cual se percibe el color13. La combinación de tres colores -rojo, verde y azul (RGB: red, green, blue) para la los dispositivos de emisión y azul, magenta y amarillo (CMY: cyan, magenta, yelow) para los de impresión permiten representar una imagen casi real para el ojo humano. Los sistemas de digitalización convierten la imagen en una representación numérica adecuada (dígitos binarios) para que pueda ser utilizada en un ordenador.
13. Martínez Sánchez, J.M. Introducción a las imágenes digitales: creación y utilización. Museo, nº 2, 1997
El primer paso para la creacion de una base de datos de imágenes es determinar el tipo de formatos digitales que se quiere emplear, de acuerdo con el uso final que se les asigne. La elección de formatos tiene una gran importancia, ya que, cuanto mejor sea la resolución de una imagen, mayor será la cantidad de espacio que ocupe, lo que incidirá negativamente tanto en el precio de su almacenamiento como en la facilidad de recuperación. La representación de la imagen se puede obtener mediante barrido o raster o por representación vectorial (más utilizada esta última para representar imágenes tridimensionales, o de efecto tridimensional). Es posible digitalizar imágenes en dos dimensiones, en blanco y negro (definición de grises) o color, fijas o en movimiento (se digitalizan las distintas secuencias), y el sonido. La imagen digitalizada es fácilmente recuperable y se puede almacenar en soportes ópticos de gran capacidad y resistencia.
5.2. Las memorias ópticas.
Aunque se habla repetidamente de la capacidad de almacenamiento de los documentos digitales, en realidad estos ocupan enormes extensiones de memoria. La característica que los hace tan valiosos para gestionar grandes cantidades de información no es que ocupen poco espacio, sino que permiten su compresión. Por las dos razones (extensión y capacidad de compresión), cuando se habla de sistemas de digitalización debe pensarse siempre en su almacenamiento en memorias ópticas, basadas en la aplicación de las propiedades del rayo láser, que permite una capacidad de almacenamiento mucho más alta que la de los soportes magnéticos. Los soportes ópticos presentan las siguientes ventaja: capacidad de alamacenar cualquier tipo de información, reducción del espacio de almacenamiento, duración superior a los soportes magnéticos, acceso rápido y pertinente a la información, calidad en la restitución de la información original, facilidad en la obtención de copias y fiabilidad en la conservación de la información.
Los soportes de memorias ópticas más conocidas son: el videodisco, memoria óptica que soporta imágenes vídeo y sonido codificado bajo forma analógica y que responde a un estandard de televisión; el videodisco interactivo, que almacena la información en forma digital y se visualiza mediante videoterminales; el disco óptico numérico (DON), donde los datos están numerizados (sistema binario) y almacenados sobre el disco en forma de minúsculas huellas grabadas por un rayo láser; y los compact-discs, familia de productos de idéntica estructura físico-química y características físicas (compact disc-audio (CD-A); compact disc-read only memory (CD-ROM); compact disc-interactive (CD-I) y compact disc-vídeo).
5.3. Los hipermedia.
Los sistemas de hipermedios no son más que una aplicación más extensa de los hipertexto: se basan en el mismo concepto, presentan su mismas estructuras y su forma de actuación es idéntica. La única diferencia es que, mientras que los hipertexto gestionan información exclusivamente textual, los hipermedios lo pueden hacer sobre tipos de información mucho más variado. Caridad y Moscoso14 definen los hipermedios de la siguiente manera:
El término "sistema de hipermedios" se refiere, pues, a la organización de información textual, visual, gráfica y sonora a través de vínculos que crean asociaciones entre información relacionada dentro del sistema. Mediante la integración de texto, gráficos, sonido, vídeo y animación en un mismo sistema, los hipermedios reflejan nuestra manera natural de pensar. En lugar de almacenar solamente enlaces entre distintas piezas de información textual, un sistema de hipermedios se convierte en una red de información en todas las formas posibles, desde texto hasta gráficos, animación, sonido, imágenes, etc.
14. Caridad, M; Moscoso, P. Los sistemas de hipertexto e hipermedios. Madrid, Fundación Germán Sánchez Ruipérez, 1991
.Los sistemas de hipermedio pueden gestionar información sonora (voz, imagen-voz, música), visual (imágenes fijas y en movimiento), gráfica (en dos o tres dimensiones), textual, numérica y textual-numérica. La configuración del sistema consiste en la integración de cuatro subsistemas: soporte físico, sistema de información, sistema de programación y sistema de comunicaciones. Caridad y Moscoso lo explica con el siguiente gráfico.
CONFIGURACIÓN DE UN SISTEMA DE HIPERMEDIOS |
|||||||||||||||||||||
Sistema de información |
Sistema de programación |
||||||||||||||||||||
Información variable en disco magnético |
Información fija en disco óptico |
Indización de material almacenado. Acceso en forma de árbol |
Vínculos asociativos Acceso por navegación |
Controlador de vídeo |
|||||||||||||||||
Sistema del soporte físico |
|||||||||||||||||||||
Micro ordenador |
|||||||||||||||||||||
Sistema de comunicaciones |
|||||||||||||||||||||
Redes locales |
|||||||||||||||||||||
Monitor, pantalla: imágenes, películas, gráficos, textos |
Altavoces: voz, sonidos |
||||||||||||||||||||
Redes remotas |
|||||||||||||||||||||
Caridad y Moscoso. Ibídem |
|||||||||||||||||||||
Ratón, teclado, pantalla de tacto, palanca de mando |
|||||||||||||||||||||
La tecnología actual no presenta prácticamente limitaciones para la creación de sistemas hipermedios, pero su funcionalidad no depende sólo de la tecnología. Para que el sistema no se limite a ser una adición de informaciones irrecuperables, es necesario que contemple las siguientes premisas:
A)Integración de diversos medios
B)Información etiquetada de acuerdo con un lenguaje controlado y pre y postcoordinado.
C) Entradas que permitan la asociación de información entre las etiquetas y los términos de interrogación y entre las diversas formas de documentos.
D) Capacidad de desplazamiento entre documentos a través de vínculos predeterminados
E) Perspectivas múltiples y flexibles de la información almacenada.
F) Abierto a la integración de nueva información y al establecimiento de nuevos vínculos.
Los sistemas que se han visto hasta el momento ofrecen un innegable valor en sí mismos y son instrumentos muy útiles para acabar realmente con las fronteras de la comunicación. Sin embargo, el verdadero valor de estos sistemas no se acaba en su aplicación por separado, sino más bien en la combinación de varios de ellos para ofrecer posibilidades aún más amplias. En el caso de la unión de sistemas de información, dos más dos no suman cuatro, sino que suman miles.
La integración de sistemas es el proceso que sigue la investigación actualmente y, por supuesto, es el campo que más interesa a la industria y al comercio. Los sistemas integrados dan lugar a los thesauros de voz, a la lectura sonora de partituras, a la posibilidad de recuperación de imágenes por aproximación semántica de descriptores, a los diálogos con las máquinas, al pensamiento virtual. Existen tantas posibilidades de sistemas integrados como combinaciones puedan hacerse entre sistemas aislados, y aún está la puerta abierta. Tomemos como ejemplo el sistema que propone el esquema siguiente:
Interrogación |
Entrada |
|||||||||||||||||||||||
ê |
ê |
|||||||||||||||||||||||
Voz |
è |
Procesador |
Base de datos multimedia |
ç |
Voz |
|||||||||||||||||||
OCR |
è |
ç |
Escanner |
|||||||||||||||||||||
Teclado |
è |
ç |
Teclado |
|||||||||||||||||||||
Otros |
è |
ç |
Otros |
|||||||||||||||||||||
ê |
é |
ê |
||||||||||||||||||||||
Búsqueda por aproximadción semántica |
Identificación de términos |
Tesaurus multilingüe |
Traducción |
ê |
||||||||||||||||||||
è |
è |
è |
ê |
|||||||||||||||||||||
ê |
||||||||||||||||||||||||
ê |
ê |
|||||||||||||||||||||||
Recuperación documental |
||||||||||||||||||||||||
ê |
||||||||||||||||||||||||
Traducción |
è |
Sintetizador de voz |
è |
Salida de voz |
||||||||||||||||||||
ê |
||||||||||||||||||||||||
Procesador |
è |
Salida por pantalla |
è |
Salida por impresora |
||||||||||||||||||||
El modelo de sistema integrado de información propuesto como ejemplo permitiría la entrada de datos por OCR, voz, teclado, escaneado o cualquier otro, y los mismos sistemas serían válidos para la interrogación. En este caso, un procesador convertiría los términos de la cuestión propuesta en un conjunto de caracteres reconocibles por el ordenador y los transportaría al sistema de búsqueda por aproximación semántica, capaz de rastrear toda la información pertinente aunque no se haya formulado correctamente la pregunta. El thesaurus multilingüe y los sistemas de traducción convertirían los términos en conceptos idénticos reconocibles para los idiomas de los documentos que forman la base de datos y se efectuaría la recuperación efectiva de la información. A partir de aquí comienza el proceso inverso: traducción, procesador, y salida por pantalla o impresora; y sintetizador de voz (o sonido) para la salida por voz.
7. REFLEXIÓN FINAL: INFORMACIÓN TEXTUAL O INFORMACIÓN MULTIMEDIA.
Los sistemas integrados de texto y voz, la incorporación de imágenes y sonidos, los thesaurus multilingües y la recuperación de información por similitud semántica ofrecen tal número de posibilidades para tratar cualquier tipo de información que sus combinaciones no parecen tener límites. Las posibilidades de información se muestran infinitas. Las nuevas tecnologías de la información han favorecido el crecimiento espectacular de las posibilidades documentales, tanto en su dimensión cuantitativa (más rapidez, con menos impedimentos), como cualitativa (manuscritos, voces, imágenes, color). Sin embargo, la masa de documentación generada no siempre responde a un aumento paralelo de la información que recibe el usuario: por el contrario, en muchas ocasiones la masa de documentos ha generado una tal cantidad de ruido que impide el acceso a la información pertinente.
Para Lluis Codina, la información se divide en trivial y no trivial, de acuerdo con los siguientes planteamientos:
Una fuente de información es no trivial cuando satisface dos condiciones. La primera de ellas es cuantitativa, y se satisface cuando el volumen de información de la fuente es tal que que el tiempo para encontrar un ítem de información mediante la exploración secuencial es superior al tiempo que un usuario de la fuente estará dispuesto a invertir en su búsqueda....La segunda condición de la no trivialidad es cualitativa, y se satisface cuando los objetos informativos que forman parte de la fuente poeseen atributos semánticos complejos y, por tanto, cuando no se puede representar su contenido con una sola palabra o con un solo sintagma nominal15
15. Codina, Ll. El papel del lenguaje natural en los sistemas multimedia. http://www.ucm.es/info/multidoc/revista/cuadern3/codina/htm
Según este planteamiento, un sistema de información es no trivial cuando la cantidad de información que gestiona alcanza una determinada cantidad y es además, información cognitiva, sea cual sea la forma material de la información (iconográfica, textual, sonora o mixta) y el soporte que la contenga. Si la cantidad y calidad de la información que contiene el sistema lo hace incapaz de gestionarse por si misma, es decir, no puede ofrecer acceso inmediato, es necesario que el conocimiento esté representado en unos términos predeterminados, con un mayor o menor nivel de control, que compongan el esqueleto de una estructura lingüística. Para asegurar que la información es recuperable de manera rápida y pertinente y con la menor emisión de ruido, es necesario contar con un sistema de gestión adecuado. La organización de la información debe quedar reflejada en una estructura de datos que sea la base de una sistema relacional de recuperación. Es decir, que la documentación generada por los nuevos sistemas contará con las siguientes características:
a) Identificación del contenido documental (información) mediante el uso de códigos de identificación y descriptores
b) Etiquetado de la documentación legible en las fuentes y en los instrumentos de representación (catálogos, listados, bases de datos, etc.).
c) Establecimiento de una estructura base que permita la relación de los términos empleados en la identificación documental (thesaurus) yque debe alcanzar hasta las unidades mínimas de descripción.
d) Creación de instrumentos auxiliares para la recuperación de la información: índices, tablas, etc.
Es decir, que cualquier sistema de información no trivial, sea cual sea la forma de los documentos y el tipo de información que guarde, deberá llevar asociado un sistema de recuperación textual. Aunque el documento no sea textual, el texto es fundamental a la hora de representar el documento y por tanto, todo sistema de información, para ser realmente eficaz, estará sometido, de una u otra manera, a la gestión del lenguaje.
Ahora bien, para que se cumplan hasta las últimas consecuencias las condiciones de pertinencia y eficacia, es necesario que el lenguaje descriptor del sistema de información coincida con el lenguaje de interrogación del usuario. Este último se dirigirá siempre al sistema utilizando el lenguaje natural, tan rico y variado que difícilmente utilizará dos veces las mismas palabras para expresar el mismo concepto. Como es imposible obligar al usuario a emplear un determinado vocabulario, siempre el mismo y siempre de la misma manera, es preciso controlar de manera estricta el lenguaje del sistema. Las nuevas tecnologías ofrecen la posibilidad de flexibilizar los términos de búsqueda, de que la interrogación se haga de viva voz o en idiomas diferentes; ofrecerán la posibilidad de recuperar información asociada a colores, formas o sonidos; pero en todos y cada uno de los casos existirá una concepción textual severamente estructurada que será la verdadera llave de la información.
La tendencia de las tecnologías de la información en la sociedad actual se dirige a la integración de diversos medios, lo que favorece la implantación de sistemas multimedios. Las razones que favorecen esta orientación son múltiples: formas de información más atractivas, mayor facilidad de uso, posibilidades más amplias, etc. Pero, sobre todo, el gran valor de los sistemas integrados es el de poder romper definitivamente las barreras de las limitaciones humanas. La misma herramienta puede ofrecer, por ejemplo, un texto bibliográfico sobre Mozart y contrastarlo con notas manuscritas del compositor, al tiempo que se oye Don Giovanni y se imprime la partitura; es posible contemplar la puesta en escena en la Scala de Milán y compararla con la que se hizo en el Liceo en un determinado ano, o escuchar por separado a cada uno de los instrumentos de la orquesta; pasear por una recreación virtual de Salzburgo de finales del siglo XVIII y leer lo que escribían los filósofos de la época; tal vez se prefiera escanear la partitura y escuchar la interpretación por los altavoces del ordenador.
La integración de sistemas no sólo hace posible acceder a cualquier clase de documento: tambien hace posible llegar a la información por múltiples caminos. El usuario que leía manuscritos de Mozart tal vez no sabe alemán, al igual que no necesita saber solfeo para escuchar la música; es posible que solicite la información de viva voz y en su idioma, e incluso que no conozca más que el título de una película y se haya limitado a pronunciar Amadeus. Probablemente quiera tener acceso al libreto de la ópera y esta vez lo prefiera en italiano o, a lo mejor, quisiera escuchar algo del otro personaje, un tal Salleri o era Saleri? Saileri?; es igual, bastará pronunciar el nombre de manera aproximada y el sistema integrado pondrá a su disposición toda la obra musical de Antonio Salieri.
Pero antes, durante y después de ello, el lenguaje habrá sido la clave. En Documentación, el lenguaje es la materia prima, es la herramienta para manejarla y es también el producto manufacturado. Puee haber lenguaje sin Documentación, pueden existir muchas formas de lenguaje, pero no habrá ninguna forma de Documentación sin lenguaje.
CARIDAD, M; MOSCOSO, P. Los sistemas de hipertexto e hipermedios. Madrid, Fundación Germán Sánchez Ruipérez, 1991.
CODINA, Ll. El papel del lenguaje natural en los sistemas multimedia: una reflexión sobre la tecno-simpleza y la ciber-ingenuidad. http://www.ucm.es/info/multidoc/revista/cuadern3/codina.htm
DIEZ CARRERA, C. La traducción automática. Signatura, 1993 (3), pp. 18-24.
DIEZ CARRERA, C. Las industrias de la Lengua: panorámica para los gestores de información. Madrid, Biblioteca Nacional, 1994.
DIEZ CARRERA, C.; ESCALADA SARDINA, G. Servicios de voz para la gestión de información. Revista Española de Documentación Científica, 19, 4, 1996. pp. 411-426.
GONZÁLEZ BERBÉS, E.; CALERO GONZÁLEZ, J. Aplicaciones de la Tecnología del Habla. Comunicaciones de Telefónica I+D. http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol52/artic2/2.html
HERNÁNDEZ GÓMEZ, L y CAMINERO GIL, F.J. Estado del arte en la Tecnología del Habla. Comunicaciones de Telefónica I+D. http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol52/artic1/1.html
HUDON, M. Multilingual thesaurus construction. Information Services & Use, vol. 17, 2-3, 1997, pp. 111-123
International Organization for Standarization. Documentation-Guidelines for the establishment and development of Multiligual Thesauri, ISO 5964, ISO, Ginebra, 1984
MARTÍNEZ SÁNCHEZ, J.M. Introducción a las imágenes digitales: creación y utilización. Museo, 2, 1997, pp.117-147.
MEUNIER, F. Les limites de la traduction automatique. IDT'96. París, 1996. pp. 135-139.
PARDO, J.M. Últimos conocimientos en el análisis y síntesis de voz. Estudios de Transportes y Comunicaciones. 2, 1997, pp. 113-124.
PASTOR SÁNCHEZ, J.A.; SAORÍN PÉREZ, T. El hipertexto documental como solución a la crisis conceptual del hipertexto.El reto de los documentos cooperativos en redes.
http://www.ucm.es/info/multidoc/revista/cuadern4/hiperdoc.htm
POZA, M.J.; Villarrubia, L.; SILES, J.A. Teoría y aplicaciones del reconocimiento automático del habla. Comunicaciones de Telefónica I+D.
http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol23/habla/habla.html
RAZQUIN ZAZPE, P. Del hipertexto al multimedia interactivo. Evolución, situación actual y perspectiva de los sistemas y aplicaciones multimedia. Revista General de Información y Documentación. vol. 7, 1, 1997. pp. 107-132.
RODRÍGUEZ CRESPO, J.; ESCALADA, J.G.; MONZÓN, L.; MACARRÓN, A. Teoría y aplicaciones de la conversión texto-voz. Comunicaciones de Telefónica I+D. vol. 2, 4, julio-diciembre 1991.
RODRÍGUEZ MUÑOZ, J.V.; DÍAZ ORTUÑO, P.M.; PARDO DE VEGA, M.C. Modelos y estrategias para la recuperación de información por similitud semántica. 6es. Jornades Catalanes de Documentació, Barcelona, 1997. pp. 161-170.
SABATÉ i CARROVÉ, m. La traducció assistida per ordinador vs. traducció automàtica. Sintagma, 7 (1995), pp. 61-68.
Tapias Merino, D. y Siles Sánchez, J.A. La traducción automática. Descripción de un sistema con entrada y salida de voz. Telefónica I+D, vol. 3, 1, enero-junio 1992. pp. 3-17
VIDAL BENEYTO, J. (Compilador). Las industrias de la Lengua. Fundación Germán Sánchez Ruipérez, Salamanca, 1991.
Volver a: |
Rosario López de Prado
Museo Arqueológico Nacional (BIBLIOTECA)
rlp@man.es