Introducción
En nuestra sociedad vivimos rodeados de un mundo lingüístico, en el que las cosas son lenguaje y el lenguaje es una cosa. El conocimiento que aporta al ser humano la cultura, la producción científica, el dominio mismo de esa realidad se difunde a través del lenguaje (lenguaje natural) de tal manera que su código se presenta como una posibilidad comunicativa por excelencia.
Es la comunicación humana, la estructura lingüística, el conjunto de signos y símbolos orales y escritos por medio de los cuales los seres humanos se comunican entre sí y el lenguaje natural: el conjunto de palabras utilizadas por un autor para expresar la ideas de su documento, los términos que se relacionan estrechamente entre la Lingüística y la Gestión de la Información, ya sea al almacenarse y al recuperarse por cualquier medio.
La comunicación científica se establece en lenguaje natural, un lenguaje que en su expresión escrita presenta algunas imprecisiones derivadas de la falta de significado unívoco y preciso de las palabras que lo componen; presenta diversas dificultades para el tratamiento de la información al estar compuesto por decenas de miles de palabras y estar sujeto a diferentes accidentes léxico-semánticos, como: la homonimia, polisemia, sinonimia, figuras retóricas ; que impiden el signo lingüístico sea unívoco y como consecuencia la comunicación sea exacta.
Precisamente esta situación es la que propicia que el tratamiento y la recuperación de la información en Lenguaje Natural sean posibles gracias a la intervención de la computadora. Cada vez son más abundantes los programas (software) documentales basados en el lenguaje natural que se destinan a cuestionar bases textuales constituidas tanto en lenguaje cotidiano como en una terminología especializada.
La importancia y trascendencia de estos programas para el tratamiento y la indización del lenguaje natural aumenta en el contexto en que nos encontramos: la explosión de la información textual posibilitada por la computadora, donde la edición electrónica a finales del siglo XX se ha convertido en un hecho a la vez que un problema para la recuperación de información.
Desarrollo
La indización ha sido tradicionalmente uno de los temas más importantes de investigación en Documentación, ya que los índices han facilitado la recuperación de información tanto en los sistemas manuales tradicionales como en los nuevos sistemas informatizados. La indización está dedicada a la recuperación de información.
El concepto de recuperación de información es utilizado de alguna manera casi desde siempre y se incrementa su importancia en el actual mundo informativo digital, en el que numerosas representaciones del conocimiento humano se hacen en formato electrónico.
Uno de los procesos fundamentales del análisis de contenido, es la indización y son muchas las definiciones que se le han dado pero todas ellas la definen como una técnica, la de caracterizar el contenido tanto del documento como de las consultas de los usuarios, reteniendo las ideas más representativas para vincularlas a unos términos de indización, bien extraídos del lenguaje natural empleado por los autores, o de un vocabulario controlado o lenguaje documental seleccionado para ello. Actualmente es posible vincular el proceso de indización al lenguaje natural del documento gracias a las computadoras.
La indización automática ha evolucionado en la gestión de las palabras desde los inicios en lenguajes libres, determinados por la regularización de las palabras en términos contrastados mediante tesauros y bases del conocimiento.
Las investigaciones sobre la automatización de la indización iniciaron a finales de los años cincuenta y desde entonces, han sido numerosas y diversas las propuestas para realizar el proceso intelectual que implica la indización.
La indización es un proceso guiado por el profesional de la información, que consiste en el análisis y la selección de los conceptos esenciales, así como en la asignación de los implícitos y el almacenamiento de los mismos en un lenguaje natural o su conversión en términos normalizados y controlados que permitan la recuperación en el momento deseado.
El concepto de la automatización de la indización se ubica desde:
Programas informáticos que asisten en el proceso de almacenamiento de los términos de indización, después de haber sido obtenidos de manera intelectual (Indización Asistida por Ordenador Durante el Almacenamiento).
Sistemas que analizan documentos de manera automática, pero los términos son propuestos los valida y edita un profesional (Indización Semiautomática).
Programas sin algún tipo de validación. Los términos propuestos se almacenan directamente como descriptores de ese documento (Indización Automática o Automatizada).
El principio de indización automatizada es identificar un documento por un conjunto de palabras claves representativas de su contenido, que pertenezcan a un conjunto abierto de términos, — indización libre—, o que pertenezcan a un conjunto cerrado y referenciado en una lista de autoridad o en un tesauro —indización controlada—. Así, podemos definir la indización automatizada como el uso de máquinas para extraer o asignar términos de indización sin intervención humana, una vez se han establecido programas o normas relativas al procedimiento.
Los factores que hacen posible pensar en el paso de una indización manual a una indización automatizada son, los siguientes:
a) Alto costo de la indización humana (tiempo).
Actualmente el uso de profesionales para llevar a cabo el proceso de indización es elevado, pues la creciente proliferación de información así lo requiere, pero esto incrementa los costos o inversión en el pago de personal especializado. Además, las necesidades actuales cambian y estamos en un mundo donde surge, sin medida, la información y para que sea recuperada, es necesario organizarla., por lo cual la pertinencia de la indización automática frente a la humana es más conveniente.
b) Aumento exponencial de la información electrónica y la proliferación del full-text.
El incremento de la ciencia y de la comunicación electrónica, crece de manera imparable; cada vez son más las bases de datos que se pueden consultar a texto completo, al mismo tiempo que la vida media de la información tiende a disminuir, todo ello contribuye a que no exista un paradigma unificado para la recuperación de información. La tarea de convertir en accesibles todas estas informaciones relevantes requiere una serie de actividades que componen el ciclo documental, entre las cuales, el análisis de contenido tiene un papel fundamental, con lo cual es lógico que las investigaciones en documentación busquen nuevas alternativas para optimizar la recuperación de información. Una de estas alternativas es la indización automatizada donde, acudiendo a otras disciplinas como la lingüística o la estadística, se pretende dar solución al problema de la caracterización del contenido documental, y con ello, de la recuperación de información.
c) La Gestión Electrónica de Documentos (GED) y a la informatización de los procesos documentales.
La automatización de los procesos documentales —almacenamiento, recuperación y reproducción de los documentos— mediante herramientas y aplicaciones informáticas, está estrechamente ligado a la indización automatizada, ya que la mayoría de los sistemas GED incluyen un motor de indización y búsqueda para procesar el lenguaje natural y efectuar la recuperación por contenido.
d) Automatización de los procesos cognitivos y la investigación creciente y los avances en el Procesamiento del Lenguaje Natural (PLN).
La mente humana posee una eficacia cualitativa en sus procesos cognitivos (percepción, decisión, planificación y lenguaje). Existen distintas teorías que avalan que el Lenguaje Natural, lenguaje de comunicación humana, no es un lenguaje interno de pensamiento sino que es un lenguaje fruto del aprendizaje. De esta afirmación, se puede deducir que las máquinas también pueden aprender el procesamiento del lenguaje natural, incluso si se toma en cuenta que se pueden automatizar, con un relativo margen de adecuación o calidad, aquellos procesos o tareas en que se den dos condiciones: 1) que las tareas se puedan describir por una secuencia perfectamente definida de acciones elementales y 2) cuando esas tareas se deban repetir muchas veces; ambas condiciones se dan en los procesos de indización, por ello, son perfectamente susceptibles de ser automatizadas.
El lenguaje refleja y contiene infinitas posibilidades del pensamiento humano, mientras que las estructuras normales que son los modelos con los que puede operar la computadora son de naturaleza finita. Una palabra es más que la secuencia de las letras de su significante, a causa del significado que se asocia a éstas y de su relación con otras palabras y con el contexto que las rodea.
Conclusiones
El campo de investigación de la indización automatizada y de la recuperación de información es inagotable y trascendente al introducir en él el fenómeno de la gestión de la información en Red (Internet/Intranet). Se trata pues, de ser receptivos y coherentes con el desarrollo tecnológico de nuestro tiempo, ya que en todo lo que implica extracción de datos, la gestión y la búsqueda del contenido son la próxima etapa, por ello los sistemas de indización "inteligentes" serán el futuro para una verdadera gestión del conocimiento (estructurado o no).
Las últimas tendencias, que permiten hablar de una nueva generación de sistemas de indización automatizada, giran en torno al acceso directo a los documentos a través del procesamiento lingüístico automático y la utilización del lenguaje natural, combinando otras técnicas como el análisis estadístico o la ponderación terminológica.
La gestión del conocimiento, que es la tendencia de todos los sistemas de información actuales, no tratan de crear un simple almacenamiento y acceso a la información, sino todo un proceso de manipulación, selección, mejora y preparación de la información, para dotarla de un valor añadido.
Fuentes consultadas
http://mural.uv.es/marhema3/apuntes/a_contenido/tema_3.pdf
http://www.hipertext.net/web/pag253.htm#Indización%20automática
http://www.bib.uc3m.es/~mendez/publicaciones/articulos/indizacion99.pdf
http://webs.um.es/isgil/SISA%20Indizacion%20automatica%20Automatic%20Indexing%20GI%20LEIVA.pdf
http://bibliotecavirtual.clacso.org.ar/ar/bibliointra/documentacion/analisis_documental.pdf
http://www3.unileon.es/dp/abd/tesauro/pagina/indizacion/ventana.htm
http://www.elprofesionaldelainformacion.com/contenidos/1996/mayo/zyindex_indizacin_automtica_y_recuperacin_de_la_informacin.html
http://ecibjaveriana.wordpress.com/2006/04/08/la-recuperacion-de-la-informacion-%C2%BFlenguaje-natural-vs-lenguaje-controlado/