domingo, 27 de julio de 2008

Ensayo Unidad IV

Ventaja de los medios electrónicos en la indización
Introducción En nuestra sociedad vivimos rodeados de un mundo lingüístico, en el que las cosas son lenguaje y el lenguaje es una cosa. El conocimiento que aporta al ser humano la cultura, la producción científica, el dominio mismo de esa realidad se difunde a través del lenguaje (lenguaje natural) de tal manera que su código se presenta como una posibilidad comunicativa por excelencia. Es la comunicación humana, la estructura lingüística, el conjunto de signos y símbolos orales y escritos por medio de los cuales los seres humanos se comunican entre sí y el lenguaje natural: el conjunto de palabras utilizadas por un autor para expresar la ideas de su documento, los términos que se relacionan estrechamente entre la Lingüística y la Gestión de la Información, ya sea al almacenarse y al recuperarse por cualquier medio.
La comunicación científica se establece en lenguaje natural, un lenguaje que en su expresión escrita presenta algunas imprecisiones derivadas de la falta de significado unívoco y preciso de las palabras que lo componen; presenta diversas dificultades para el tratamiento de la información al estar compuesto por decenas de miles de palabras y estar sujeto a diferentes accidentes léxico-semánticos, como: la homonimia, polisemia, sinonimia, figuras retóricas ; que impiden el signo lingüístico sea unívoco y como consecuencia la comunicación sea exacta.
Precisamente esta situación es la que propicia que el tratamiento y la recuperación de la información en Lenguaje Natural sean posibles gracias a la intervención de la computadora. Cada vez son más abundantes los programas (software) documentales basados en el lenguaje natural que se destinan a cuestionar bases textuales constituidas tanto en lenguaje cotidiano como en una terminología especializada.
La importancia y trascendencia de estos programas para el tratamiento y la indización del lenguaje natural aumenta en el contexto en que nos encontramos: la explosión de la información textual posibilitada por la computadora, donde la edición electrónica a finales del siglo XX se ha convertido en un hecho a la vez que un problema para la recuperación de información.
Desarrollo
La indización ha sido tradicionalmente uno de los temas más importantes de investigación en Documentación, ya que los índices han facilitado la recuperación de información tanto en los sistemas manuales tradicionales como en los nuevos sistemas informatizados. La indización está dedicada a la recuperación de información.
El concepto de recuperación de información es utilizado de alguna manera casi desde siempre y se incrementa su importancia en el actual mundo informativo digital, en el que numerosas representaciones del conocimiento humano se hacen en formato electrónico. Uno de los procesos fundamentales del análisis de contenido, es la indización y son muchas las definiciones que se le han dado pero todas ellas la definen como una técnica, la de caracterizar el contenido tanto del documento como de las consultas de los usuarios, reteniendo las ideas más representativas para vincularlas a unos términos de indización, bien extraídos del lenguaje natural empleado por los autores, o de un vocabulario controlado o lenguaje documental seleccionado para ello. Actualmente es posible vincular el proceso de indización al lenguaje natural del documento gracias a las computadoras. La indización automática ha evolucionado en la gestión de las palabras desde los inicios en lenguajes libres, determinados por la regularización de las palabras en términos contrastados mediante tesauros y bases del conocimiento. Las investigaciones sobre la automatización de la indización iniciaron a finales de los años cincuenta y desde entonces, han sido numerosas y diversas las propuestas para realizar el proceso intelectual que implica la indización. La indización es un proceso guiado por el profesional de la información, que consiste en el análisis y la selección de los conceptos esenciales, así como en la asignación de los implícitos y el almacenamiento de los mismos en un lenguaje natural o su conversión en términos normalizados y controlados que permitan la recuperación en el momento deseado.
El concepto de la automatización de la indización se ubica desde: Programas informáticos que asisten en el proceso de almacenamiento de los términos de indización, después de haber sido obtenidos de manera intelectual (Indización Asistida por Ordenador Durante el Almacenamiento).
Sistemas que analizan documentos de manera automática, pero los términos son propuestos los valida y edita un profesional (Indización Semiautomática).
Programas sin algún tipo de validación. Los términos propuestos se almacenan directamente como descriptores de ese documento (Indización Automática o Automatizada).
El principio de indización automatizada es identificar un documento por un conjunto de palabras claves representativas de su contenido, que pertenezcan a un conjunto abierto de términos, — indización libre—, o que pertenezcan a un conjunto cerrado y referenciado en una lista de autoridad o en un tesauro —indización controlada—. Así, podemos definir la indización automatizada como el uso de máquinas para extraer o asignar términos de indización sin intervención humana, una vez se han establecido programas o normas relativas al procedimiento.
Los factores que hacen posible pensar en el paso de una indización manual a una indización automatizada son, los siguientes:
a) Alto costo de la indización humana (tiempo). Actualmente el uso de profesionales para llevar a cabo el proceso de indización es elevado, pues la creciente proliferación de información así lo requiere, pero esto incrementa los costos o inversión en el pago de personal especializado. Además, las necesidades actuales cambian y estamos en un mundo donde surge, sin medida, la información y para que sea recuperada, es necesario organizarla., por lo cual la pertinencia de la indización automática frente a la humana es más conveniente.
b) Aumento exponencial de la información electrónica y la proliferación del full-text. El incremento de la ciencia y de la comunicación electrónica, crece de manera imparable; cada vez son más las bases de datos que se pueden consultar a texto completo, al mismo tiempo que la vida media de la información tiende a disminuir, todo ello contribuye a que no exista un paradigma unificado para la recuperación de información. La tarea de convertir en accesibles todas estas informaciones relevantes requiere una serie de actividades que componen el ciclo documental, entre las cuales, el análisis de contenido tiene un papel fundamental, con lo cual es lógico que las investigaciones en documentación busquen nuevas alternativas para optimizar la recuperación de información. Una de estas alternativas es la indización automatizada donde, acudiendo a otras disciplinas como la lingüística o la estadística, se pretende dar solución al problema de la caracterización del contenido documental, y con ello, de la recuperación de información.
c) La Gestión Electrónica de Documentos (GED) y a la informatización de los procesos documentales. La automatización de los procesos documentales —almacenamiento, recuperación y reproducción de los documentos— mediante herramientas y aplicaciones informáticas, está estrechamente ligado a la indización automatizada, ya que la mayoría de los sistemas GED incluyen un motor de indización y búsqueda para procesar el lenguaje natural y efectuar la recuperación por contenido.
d) Automatización de los procesos cognitivos y la investigación creciente y los avances en el Procesamiento del Lenguaje Natural (PLN). La mente humana posee una eficacia cualitativa en sus procesos cognitivos (percepción, decisión, planificación y lenguaje). Existen distintas teorías que avalan que el Lenguaje Natural, lenguaje de comunicación humana, no es un lenguaje interno de pensamiento sino que es un lenguaje fruto del aprendizaje. De esta afirmación, se puede deducir que las máquinas también pueden aprender el procesamiento del lenguaje natural, incluso si se toma en cuenta que se pueden automatizar, con un relativo margen de adecuación o calidad, aquellos procesos o tareas en que se den dos condiciones: 1) que las tareas se puedan describir por una secuencia perfectamente definida de acciones elementales y 2) cuando esas tareas se deban repetir muchas veces; ambas condiciones se dan en los procesos de indización, por ello, son perfectamente susceptibles de ser automatizadas. El lenguaje refleja y contiene infinitas posibilidades del pensamiento humano, mientras que las estructuras normales que son los modelos con los que puede operar la computadora son de naturaleza finita. Una palabra es más que la secuencia de las letras de su significante, a causa del significado que se asocia a éstas y de su relación con otras palabras y con el contexto que las rodea.
Conclusiones
El campo de investigación de la indización automatizada y de la recuperación de información es inagotable y trascendente al introducir en él el fenómeno de la gestión de la información en Red (Internet/Intranet). Se trata pues, de ser receptivos y coherentes con el desarrollo tecnológico de nuestro tiempo, ya que en todo lo que implica extracción de datos, la gestión y la búsqueda del contenido son la próxima etapa, por ello los sistemas de indización "inteligentes" serán el futuro para una verdadera gestión del conocimiento (estructurado o no). Las últimas tendencias, que permiten hablar de una nueva generación de sistemas de indización automatizada, giran en torno al acceso directo a los documentos a través del procesamiento lingüístico automático y la utilización del lenguaje natural, combinando otras técnicas como el análisis estadístico o la ponderación terminológica. La gestión del conocimiento, que es la tendencia de todos los sistemas de información actuales, no tratan de crear un simple almacenamiento y acceso a la información, sino todo un proceso de manipulación, selección, mejora y preparación de la información, para dotarla de un valor añadido. Fuentes consultadas http://mural.uv.es/marhema3/apuntes/a_contenido/tema_3.pdf http://www.hipertext.net/web/pag253.htm#Indización%20automática http://www.bib.uc3m.es/~mendez/publicaciones/articulos/indizacion99.pdf http://webs.um.es/isgil/SISA%20Indizacion%20automatica%20Automatic%20Indexing%20GI%20LEIVA.pdf http://bibliotecavirtual.clacso.org.ar/ar/bibliointra/documentacion/analisis_documental.pdf http://www3.unileon.es/dp/abd/tesauro/pagina/indizacion/ventana.htm http://www.elprofesionaldelainformacion.com/contenidos/1996/mayo/zyindex_indizacin_automtica_y_recuperacin_de_la_informacin.html http://ecibjaveriana.wordpress.com/2006/04/08/la-recuperacion-de-la-informacion-%C2%BFlenguaje-natural-vs-lenguaje-controlado/

sábado, 26 de julio de 2008

UNIDAD IV

Cuestionario. 1. Menciona cuales son las dos formas de realizar el proceso de indización. El proceso intelectual que realiza el hombre en forma manual y el proceso total y parcialmente automatizado. 2. ¿Para qué se utiliza el software de indización? Para generar, facilitar rutinas sobre formatos, copiar el registro según los descriptores o encabezamientos asignados. 3. ¿Cuál es la ventaja de los medios electrónicos? Es la rapidez en la recuperación, la flexibilidad en la búsqueda, en la actualización y en la eliminación de los volúmenes físicos (tarjetas) y los costos que implica su impresión. En los catálogos e índices impresos, las búsquedas son fijadas a algunos elementos previamente establecidos y en los electrónicos el acceso es por cualquier palabra o secuencia de palabras. 4. Menciona cuales son los tres ejemplos más comunes de despliegue de lenguaje natural y menciona qué significa cada uno de ellos. Son: KWIC (Key Word in Context): Se crea una entrada separada para cada una de las palabras claves de un texto, estas palabras son arregladas en orden alfabético y con texto en ambos lados. Se utilizan palabras solas o frases tomadas del título o del documento indizado. KWOC (Key Word Out of Contex): Fueron diseñados para imitar el formato más tradicional de los índices en los que un término encabeza una entrada. KWAC (Key Word And Context): Se desarrollaron para preservar las palabras pares y frases y al mismo tiempo presentan el índice en formato tradicional con un encabezado a la izquierda. 5. Completa con el número que le corresponde en el paréntesis. (C) KWAC: Se desarrollan para preservar las palabras pares y frases y al mismo tiempo presentan el índice en formato tradicional con un encabezado a la izquierda. B) KWOC Fueron diseñados para imitar el formato más tradicional de los índices en los que un término encabeza una entrada. D) KWEC Fueron utilizados para crear los primeros índices automatizados. A) KWIC: Se crea una entrada separada para cada una de las palabras claves de un texto, estas palabras son arregladas en orden alfabético y con texto en ambos lados. Se utilizan palabras solas o frases tomadas del título o del documento indizado.

Lenguaje documental

Cuestionario 1. ¿Qué es un lenguaje documental? Es un sistema de signos que permite representar el contenido de los documentos con el fin de recuperar los documentos pertinentes en respuesta a consultas que tratan sobre ese contenido. También se define como “todo sistema artificial de signos normalizados, que facilitan la representación formalizada del contenido de los documentos para permitir la recuperación, manual o automática, de información solicitada por los usuarios. 2. ¿En qué principios se fundamenta el lenguaje documental? El lenguaje documental debe regirse por el principio de entropía que, como concepto opuesto a la redundancia, se corresponde con la mayor cantidad de información aportada por un solo signo o mensaje. Precisamente el carácter ontrópico del lenguaje documental es lo que le diferencia del natural que, por el contrario, es asimétrico, porque la lengua es fundamentalmente oral y requiere mucha redundancia. 3. ¿Cómo adquieren valor semántico los signos que componen el lenguaje documental? Por medio de su normalización y de las reglas morfosintácticas que lo articulan. Son precisamente esas reglas las que le dan categoría de lenguaje. 4. ¿Señale los objetivos fundamentales del lenguaje documental? El objetivo fundamental es la recuperación de documentos o de la información contenida en los documentos, misma que pude llevarse a cabo por diferentes vías: a partir del nombre del autor, del título o del tema que trate la obra. Mediante la capacidad de representar los mensajes contenidos en los documentos, cumple con sus dos objetivos fundamentales: en de la normalización y el de la inducción, este último encamina a todas las demás funciones que desempeña a lo largo del proceso documental. 5. ¿En qué fases del tratamiento documental resulta esencial el uso de un lenguaje documental? En la fase de la descripción, tras la lectura e identificación de los conceptos contenidos en los documentos, se representan mediante un lenguaje documental, que proporciona un vocabulario unívoco que favorece la coherencia del análisis y permite traducir los conceptos en términos normalizados. 6. Atendiendo al criterio de coordinación, ¿a qué tipo de lenguaje documental pertenecen las listas de encabezamientos de materia? Al tipo de precoordinados 7. ¿En qué principio se funda el lenguaje libre? En el principio de postcoordinados 8. En función de su estructura, ¿a qué tipo de lenguaje documental pertenecen los tesauros? Combinatoria 9. ¿En qué principio se fundan las clasificaciones bibliográficas? En el principio de vocabulario controlado. Se trata de un lenguaje codificado de forma numérica, alfanumérica o alfabética que pretende ser la descripción sintáctica del contenido de los documentos, es de carácter enciclopédico. 10. ¿Por qué las listas de descriptores libres entran en la categoría de lenguajes postcoordinados? Porque permite la elección del término de indización en respuesta a necesidades de información reales.

jueves, 24 de julio de 2008

NORMA ISO 5963

El alcance y aplicación de la norma ISO 5963. Esta norma es un conjunto de métodos para examinar los documentos, determinar su materia y seleccionar los términos de indización. Describe los procedimientos recomendados para examinar documentos, determinar sus materias, y la selección de términos de indización apropiados. Se limita a las etapas preliminares de la indización, y no se refiere a las prácticas de cualquier tipo particular de los sistemas de indización, si pre-coordinados o post-coordinados. También se describen técnicas generales para el análisis de los documentos que deben aplicarse en todas las situaciones de indización. Estos métodos son, sin embargo, especialmente destinados a sistemas de indización en la que los sujetos o documentos que se expresan en forma resumida, donde los conceptos se registran en los términos de un lenguaje controlado de indización. Un lenguaje controlado se refiere a un subconjunto de términos seleccionados de lenguaje natural y se regula, por ejemplo, un tesauro. Estos métodos se aplican, para sistemas en los que están representados los conceptos para fines de recuperación de los símbolos elegidos de las listas de un esquema de clasificación. Las técnicas descritas en esta norma pueden ser usadas por cualquier institución de información donde el proceso de indización se realice de forma manual y tiene como propósito, esta norma, guiar a los indizadores durante las etapas de análisis de documentos e identificación de conceptos esenciales en la descripción de la materia. Esta norma internacional es prácticamente una guía para indizadores durante las etapas de análisis de documentos y el concepto de identificación. Puede ser útil para el análisis de los usuarios, contiene más información y su traducción, para fines de recuperación, en los términos controlados de indización de un idioma, podría servir de orientación en la elaboración de resúmenes.

BREVE RESUMEN DE PÁGINAS

En la consulta de las páginas sugeridas encontré información sobre las normas ISO, mismas que a continuación comento. La norma ISO 2788:1986. Guía para tesauros monolingües. Esta norma abarca algunos aspectos de la selección de términos de indización, los procedimientos para el control del vocabulario y el modo de establecer relaciones entre estos términos, así como la inclusión y supresión de términos, los métodos de compilación, la forma y el contenido de los tesauros, el uso de la automatización en el procesamiento de los datos, etc. Las indicaciones establecidas en esta norma aseguran una práctica uniforme en cada una de las áreas o entidades de indización. Las técnicas descritas en su contenido se basan en principios generales que se aplican a cualquier materia. ISO 5964 1985. Guía para el establecimiento y desarrollo de tesauros multilingües. Esta norma presenta reglas que deben utilizarse en conjunto con la norma ISO 2788 (Guía para el establecimiento y desarrollo de tesauros monolingües), pues los métodos y recomendaciones consideradas en ésta son igualmente válidas para los tesauros multilingües. La presente norma se considera como un paso fundamental en el perfeccionamiento de la recuperación de la información y el logro de la compatibilidad entre los tesauros producidos por instituciones que indizan con términos seleccionados a partir de más de dos lenguajes naturales (idiomas). Su contenido abarca los problemas multilingües que pueden surgir durante la creación de un tesauro convencional. ISO 7275 1985 (Presentación de la información en el título de una serie.) En esta norme se describen los elementos necesarios para la identificación y descripción bibliográfica de las series y partes de ellas, así como también ofrece las reglas para la presentación, numeración y ubicación de tales elementos. Su objetivo es permitir a editores y casas editoras la identificación de las publicaciones agrupadas en series, lo que facilita su adquisición y registro. De esta forma ofrece una norma simple que los editores y casas editoriales comprenderán mejor la terminología y descripción bibliográfica de las series, cuando la utilicen. ISO 5963 1985 Métodos para examinar los documentos, determinar su materia y seleccionar los términos de indización. En la presente norma se describen los métodos para examinar y analizar los documentos, determinar la materia que tratan y seleccionar los términos de indización apropiados. Se limita a las etapas preliminares de la indización y no incluye las prácticas de un tipo específico de sistema de indización, ya sea precoordinado o poscoordinado. Las técnicas descritas pueden ser usadas por cualquier institución de información donde el proceso de indización se realice de forma manual; por el contrario, no se aplican en aquellas instituciones que empleen técnicas de indización automatizada. El propósito de esta norma es guiar a los indizadores durante las etapas de análisis de documentos e identificación de conceptos esenciales en la descripción de la materia. ISO 999 1975 Índice de una publicación. Esta norma proporciona una serie de requisitos que permite a los editores y casas editoras producir índices de publicaciones que faciliten su uso por los bibliógrafos, bibliotecarios e investigadores. A pesar de que esta norma se ha preparado básicamente para la confección de índices de forma manual, muchos de sus principios se pueden aplicar igualmente a la preparación automatizada de índices. Aborda en su contenido, los tipos de índices, la frecuencia de la publicación, los datos que deben registrarse en el encabezamiento de un índice, principalmente.

UNISIST

Investigar si se han reformado las normas existentes de 1993 a la fecha; asimismo, investigar la actividad de la UNISIST referente a las normas nuevas o nuevos acuerdos. La norma es un dato de referencia que servirá de base acordada para solucionar problemas repetitivos y que se identifica por las siglas que le asignan las autoridades que la ponen en circulación. La normalización hace posible el intercambio de documentos entre centros de documentación de diferentes países y centraliza la documentación relativa a un tema determinado lo cual facilita su búsqueda. El programa UNISIST (Informe realizado por la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura) es un programa del PGI (Programa General de Información), adoptado en la conferencia intergubernamental de 1971, cuyo fin es catalizar y organizar la cooperación internacional, con miras a la interconexión y desarrollo de programas de información, en el campo de las ciencias exactas, naturales y sociales. Por medio de la mejora de los medios técnicos, cooperación y asistencia, desarrollo de recursos humanos, etc. Se trata de la idea aportada posteriormente por NATIS (National Information Systems), lanzada por la conferencia intergubernamental de 1974, que pretende el desarrollo de infraestructuras nacionales, con el fin de establecer sistemas de información nacional uniformes.[1] Tell (1995) esboza la historia del formato MARC que se compara con la UNISIST Reference Manual, que está siendo utilizado por los principales servicios de resúmenes. El modelo UNISIST de diseminación de la información fue propuesta en 1971 en un informe UNISIST (1971). Se trata de un modelo social del sistema comunicación, que esta integrado por los productores de conocimientos, intermediarios y usuarios. Estos grupos de personas (o agentes) son diferentes tipos de profesionistas. El sistema social también contiene algunos institutos, como institutos de investigación, editores y bibliotecas. Los actores y las instituciones realizan los servicios de información tales como escribir, publicar, almacenar y recuperar documentos e información. Los actores se comunican en tanto de manera formal como informal para saber que están produciendo distintos tipos de documentos tales como artículos de revistas, libros, reseñas de libros, actas, bibliografías y catálogos, diccionarios, manuales, enciclopedias y artículos de revisión. Puede utilizarse este modelo UNISIST para definir las relaciones entre las diferentes clases de documentos científicos y académicos. Proporciona una clasificación de documentos y servicios de información en la educación primaria, secundaria y terciaria de servicios y productos. El modelo original UNISIST ha sido actualizado por Fjordback Søndergaard; Andersen & Hjørland (2003). Las dos razones más importantes para la versión actualizada son: 1) poner énfasis las diferencias entre los distintos ámbitos y 2) para reflejar los cambios científicos y académicos de comunicación causada por la Internet. [1] http://sabus.usal.es/docu/pdf/Organism.PDF

UNIDAD II

LAS VENTAJAS DE REALIZAR EL PROCESO DE INDIZACIÓN Es la indización un arte y un proceso que se realiza para auxiliar en la búsqueda y recuperación de la información, implica facilitar el acceso al investigador y ahorrarle tiempo, por lo que su función prioritaria será indicar la falta de registros importantes en la solicitud. La descripción indizada de un documento es la mención condensada de su contenido y su principal y, a veces, único componente es el conjunto de términos sustantivos que sirven como pistas para encontrar la materia del documento. En las etapas de la indización, primeramente debe estudiarse el contenido del documento, luego se procederá a extraer los conceptos significativos en el lenguaje natural que se encuentran. Posteriormente, debe procederse a la conversión de tales conceptos a lenguaje documental, sin prejuicio de que pudieran coincidir ambos lenguajes en muchos casos. Finalmente deberá hacerse una búsqueda de otros conceptos significativos por determinadas relaciones semánticas; de esta manera la búsqueda de otros conceptos cuya denotación ayudará a configurar una red de relaciones entre todos ellos, implica configurar una nueva estructura del documento. No hay una perfección absoluta en la indización, pero si existen métodos que permiten lograr una fidelidad en el proceso de análisis. Independientemente de cuál sea el método utilizado para el análisis existen normas o principios básicos que deben ser respetados para darle credibilidad a la investigación y surgen algunas reglas para esta labor como son: Objetividad: con ello se destaca que la opinión personal del analista no debe interferir ni dejarse ver en la selección de las palabras. Uniformidad o normalización: responde a criterios uniformes, a un mismo método de trabajo. Criterio: debe tener presente la inmensa gama de posibles preguntas que brinda un tema. La indización presenta varias formas, atendiendo el criterio a través del cual se analice. a) Por el grado de profundidad: indización genérica (identifica el tema principal del documento), indización intermedia (identifica aquellos temas significativos en términos más o menos generales), indización en profundidad (se identifican todos los temas tratados de informativos, describiéndolos en profundidad), indización exhaustiva (abarca todo el texto del documento, cubriendo frase por frase en un análisis profundo) e indización selectiva (retiene solo la información útil para los usuarios. b) Por el sistema utilizado: manual, realizado por expertos documentalistas y profesionales del campo temático; y automático, como su nombre lo indica, se requiere de un sistema computarizado para llevarlo a cabo, pero debido a la inexistencia de un lenguaje natural y documental que se asemejen no es muy recomendable. Algunas reglas que se aplican después de las etapas de la indización son: la consistencia al aplicar las reglas, la imparcialidad resumida a todos los conceptos básicos de los documentos. La especificidad, antepuesta a los términos genéricos. La multiplicidad, criterio amplio y generoso a la hora de retener las palabras clave. La veracidad referida a adecuar perfectamente las palabras clave, al contenido, siendo su reflejo exacto. El criterio, pertenencia y exhaustividad. Debe indicarse todo lo que sea importante y que en verdad lo sea. La responsabilidad del profesional al aplicar las reglas y su propio criterio en la selección de términos para llevar a cabo la indización facilita las labores de búsqueda y recuperación de la información en los usuarios de los documentos.

sábado, 5 de julio de 2008

Definición de términos

a) Unitérminos. Son palabras sencillas utilizadas en un lenguaje documental para designar un concepto puro en la indización. Sistema ideado por Mortime Toube en 1955 quien utiliza los términos simples, o uniterms, para representar los contenidos de los documentos al registrarlos y supone un avance importante de la indización por materias. Es un sistema de almacenamiento y recuperación de la información, que consiste en un “método de indización por palabras únicas o simples, por lo general, tomadas del lenguaje natural, recuperables por medio de la posterior coordinación de conceptos y determina la numeración correlativa de los documentos, y la inclusión de cada concepto y de columnas del 0 al 9 en la fichas, asentando los documentos bajo el último dígito del número”[1]. La aplicación de este sistema es ideal para sistemas manuales, por lo que en la actualidad y con el avance de la tecnología resulta obsoleto. “Algunos de los inconvenientes son: 1. exceso de falsas combinaciones y 2. abundancia de palabras polisémicas, sinónimas, ambiguas y vacías”.[2] Para facilitar el acceso se elaboran fichas especiales, mismas que al completarse se ordenan alfabéticamente. http://eubca1.eubca.edu.uy/diccionario/letra_u.htm http://www.uv.es/ponsc/LlibresenInternet/analisis%20documental.htm b) Descriptores. Los Descriptores son dos o más términos que explican el contenido de un documento o representan un concepto, utilizando un lenguaje controlado dentro del Tesauro y constituyen términos indizantes que tienen carácter de preferentes para representar un concepto dado frente a términos no preferentes o no descriptores que no se utilizan en la indización pero que constituyen una entrada alternativa, que permite el acceso directamente mediante la instrucción VEASE. En ocasiones la palabra clave se utiliza de manera incorrecta, cuando se le llama descriptor. Existen descriptores · primarios, · secundarios e · infraconceptos, · por su contenido: onomásticos, geográficos, de materias y cronológicos · por su composición en simples o compuestos. Los descriptores son unívocos, la sinonimia se elimina por medio de las relaciones de equivalencia; la polisemia se delimita por las relaciones semánticas y jerárquicas y al uso delimitado mediante las notas de alcance. http://alfama.sim.ucm.es/buc/documentos/NormasTecnicas/Catalogacion/evaluacion_descriptores.pdf c) Palabras clave. Son palabras del lenguaje natural utilizadas para la indización mediante la extracción automatizada de diversas partes de los documentos primarios o secundarios que se indizan (título, resumen, notas, autor, etc.), frente al sistema de asignación de términos o encabezamientos por el indizador, que es el utilizado en los lenguajes controlados y en los descriptores libres. En estos sistemas, además de eliminarse las palabras vacías mediante listas (stop words), se incorpora algún tipo de técnica para valorar la importancia de esas palabras en la recuperación: frecuencia de aparición, lugar en el que aparecen en el documento, etc. El acceso puede ser manual o automático, por medio de palabras del lenguaje natural o artificial para encontrar sitios web o páginas web específicas. En el lenguaje documental el término es creado por Kelvin Mores en 1960 para referirse a los descriptores. http://alfama.sim.ucm.es/buc/documentos/NormasTecnicas/Catalogacion/evaluacion_descriptores.pdf d) Encabezamientos de materia. Materia es el argumento específico sobre el que trata el documento. Y encabezamiento es la práctica catalográfica, cuyo objeto es dar cuenta y hacer accesibles las publicaciones o documentos que posee la biblioteca, mediante la indicación en la ficha de las materias de esa publicación o documento. Los encabezamientos de materia no representan las disciplinas a que conduce el documento. La disciplina de una materia determinada se indica por medio de los catálogos sistemáticos y los catálogos de materias indican los argumentos específicos de las obras. Los encabezamientos de materia forman un lenguaje documental de estructuras asociativas, lo mismo que lo tesauros; corresponde a un tipo de lenguaje precoordinado, es decir, los términos se combinan en el momento de la indización; ordena alfabéticamente palabras o expresiones que se utilizan para representar los conceptos de los que trata un documento. Son los puntos de acceso en un registro bibliográfico impreso en una ficha y característico de la catalogación manual. El nombre lo toma de la aplicación: encabeza un registro. También es considerado como el sistema tradicional usado en los catálogos de las bibliotecas para brindar acceso a las materias de los documentos. Fue Charles Ami Cutre quien estableció por primera vez las normas para la construcción de los encabezamientos de materia en su obra Rules for a Dictionary Catalogue (1876). Siendo la primera lista de este tipo: List af Subject Headings for Use in Diccionary Catalogs (1895) publicado por la American Library Association. La lista está conformada por encabezamientos y subencabezamientos. El primero consiste en una o varias palabras que representan un concepto; en tanto que el subencabezamiento es una o varias palabras que siguen al encabezamiento y especifica el significado. Se une con un guión al encabezamiento o a los subencabezamientos anteriores y puede ser de cuatro tipos: · De materia o tópicos: se utiliza para indicar cualidades, propiedades, acciones, etc. De una materia. · Topográficos o nombres de lugar. · Cronológicos, para situar la materia en un periodo histórico. · Formales: son los que se refieren a la forma que adopta una materia, como genero literario, tipo de documento, entre otros. Al igual que el tesauro, la lista encabezamientos de materia mantiene los principios básicos del control de la sinonimia, la polisemia y la homografía, asó como una estructura de reenvíos que muestra las relaciones semánticas entre los términos del vocabulario. A pesar de que no existe una uniformidad en el uso de las abreviaturas para referirse a las relaciones en las diferentes listas de encabezamiento, por lo general se utilizan las siguientes: Véase (V) para remitir de un sinónimo no aceptado a un encabezamiento. Üsase por (U.p) para expresar su inverso. Véase además (V.a) para remitir a otros encabezamientos relaciones temáticamente o de un encabezamiento general a otro de carácter específico o al contrario. Referido en (R.e) como un envío inverso. En la actualidad existe la motivación para reemplazar las siglas tradicionales de los encabezamientos de materias por abreviaturas iguales o similares a las utilizadas en los tesauros (use, UP, TG, TE Y TR). Se agregan, también, en algunas ocasiones, notas de aplicación precedida de la palabra “Nota”. La estructura jerárquica de los encabezamientos de materia no está construida de manera rigurosa, a diferencia del tesauro y en algunas de las listas, no se diferencia entre la relación jerárquica y la asociativa. Aunque maneja un mayor número de términos precoordinados. Este esquema proporciona un sistema de términos controlados para representar las materias de los documentos en una colección; las listas de encabezamientos de materias pueden ser extensas y cubrir una amplia variedad de temas. Sin embargo, su estructura es generalmente muy baja, con una estructura jerárquica limitada. Los encabezamientos de materias tienden a ser coordinados, para que las materias se puedan ensamblar y proporcionar conceptos más específicos. . http://alfama.sim.ucm.es/buc/documentos/NormasTecnicas/Catalogacion/evaluacion_descriptores.pdf [1] http://eubca1.eubca.edu.uy/diccionario/letra_u.htm [2] http://www.uv.es/ponsc/LlibresenInternet/analisis%20documental.htm

jueves, 3 de julio de 2008

formulario de índices de publicaciones periódicas

Realizar la búsqueda y consulta de tres índices de publicaciones periódicas y seriadas; y, llenar el formulario: a) Título del índice Latindex. Sistema Regional de Información en Línea para Revistas Científicas de América Latina, el Caribe, España y Portugal. b) Tipo de arreglo. Una base de datos que incluye un directorio de publicaciones de diversas temáticas; un catálogo, así como un enlace a revistas electrónicas. c) Características del índice. En una ficha se localizan los datos más relevantes de las publicaciones. d) Comentarios propios LATINDEX es una base de datos que contiene un índice de revistas científicas y de divulgación científica, especializadas en diversas áreas, como: biomédica, odontología, enfermería, homeopatía y demás ámbitos de las Ciencias de la Salud; de investigación científica y tecnológica, difusión científica, académicas, literatura, documentación, filosofía, geografía, biblioteconomía, educación y Ciencias Sociales. Son varios los países de Centro y Sudamérica los que participan en esta base de datos, por lo cual las revistas no son de un solo país, sino de los países participantes en el proyecto. El índice incluye una descripción de los criterios de selección de las revistas registradas, éstas se encuentran dentro de un enlace general e integra varias publicaciones, así como los artículos correspondientes a cada número. Al realizar la búsqueda en internet, me di cuenta que es una base de datos muy reconocida y aparece como un recurso general o por temas y en cada uno de éstos se señalan la cantidad de revistas, descriptores, artículos y algunos enlaces para ampliar la información. La dirección electrónica para encontrarla es por el nombre mismo o completa como se detalla a continuación. http://www.latindex.unam.mx/latindex/Indizacion/indizacion.html a) Título del índice Medigraphic Artemisa b) Tipo de arreglo. Alfabético por especialidades médicas c) Características del índice. El índice está organizado alfabéticamente por especialidades médicas y en cada una de ellas un menú principal de los temas y las revistas que integran la sección. e) Comentarios propios El índice de publicaciones periódicas corresponde al área de la salud y se puede ver en español o inglés. Como ya mencioné, está ordenado alfabéticamente y presenta 69 revistas con textos completos en español. Las búsquedas se pueden realizar de manera general utilizando una palabra o con el uso de operadores boleanos. Es de fácil acceso, gratuito con enlaces a otras publicaciones, incluso algunas editadas de manera privada por organismos o instituciones de salud, por lo cual no es posible confirmar la veracidad de la información contenida. Incluso algunas de las revistas no presentan el ISSN. Al iniciar con las búsquedas de los índices, me encontré con una referencia a Artemisa, como es lógico, quise ver el contenido, pero lo único que pude ver es que había cambiado de dirección. Por coincidencia encontré este índice cuyo contenido es el mismo e incluso lleva el nombre. Para consultar este índice en la dirección: http://medigraphic.com/inicio.htm a) Título del índice e-journal Revistas Especializadas de prestigio en formato electrónico b) Tipo de arreglo. El arreglo es cronológico. c) Características del índice. En la ficha técnica se describen los datos correspondientes a la publicación. Y los enlaces al índice de la revista, la descripción, el directorio, así como datos de la revista, del editor y el uso de las referencias bibliográficas. f) Comentarios propios (media cuartilla). El nombre es e investigación bibliotecológica, una revista científica mexicana del área de la bibliotecología y ciencia de la información. la periodicidad es semestral y es editada por el Centro Universitario de Investigaciones Bibliotecológicas de la Universidad Nacional Autónoma de México. El contenido son artículos científicos, resultado de investigaciones realizadas en nuestro país, América Latina y España. Se puede consultar en varios idiomas como español, inglés, portugués, por mencionar algunos. Esta publicación está indizada en LISA, ISA, CLASE e INFOBILA. El acceso es gratuito y permite hacer búsquedas especializadas por tema o autor. Los datos de este índice también se encuentran en uno de los enlaces de la base de datos Latindex. Y se puede tener acceso en la dirección: http://www.ejournal.unam.mx/cuadros2.php?r=13&liga=1

Reporte de lectura y conceptos

Reporte de lectura y conceptos clave a) Historia de la Indización. Tan antiguos como la escritura, los primeros índices que existieron eran referidos a · los nombres de personas reales · a la ocurrencia de palabras en un texto registrado de manera ordenada. Los índices por palabra fueron utilizados comúnmente por religiosos en sus escritos, resultando así, una herramienta importante en las interpretaciones místicas del Talmud, por ejemplo. Con el desarrollo de la taxonomía en la documentación y la ciencia bibliotecaria a finales del siglo XIX, la Indización por materia se dio a conocer de manera amplia y más sistemática. Durante los pasados 100 años, el índice por materia más utilizado era un alista de términos que carecía de divisiones o que las incluía en una estructura jerárquica simple: dos o tres niveles, es decir: encabezamiento principal y modificador; o encabezamiento principal, subencabezamiento y modificador; con los términos o fases en cada nivel organizados de manera alfabética, por lo general. Los indizadores trabajaron duramente los años de 1958 a 1982 para estar al día y en condiciones competitivas frente a la llamada “crisis de la información” en ciencia y tecnología, principalmente. El desarrollo en las ciencias sociales, el fuerte crecimiento de las ciencias físicas y la investigación, logró que durante esos años, los servicios de indización y los resúmenes fueran utilizados por mayor cantidad de gente. Con la “explosión de la información”, la actitud de los editores, bibliotecarios y usuarios de la información se modificó en gran medida. Mientras sucedía la Segunda Guerra Mundial y al final de ella, se dio un incremento trascendente en la cantidad de información que tenía que ser procesada y diseminada; con el poco tiempo disponible para esta actividad, implicó un esfuerzo y atención muy especial al llevar a cabo las labores de la Indización. b) Definición de Indización. La indización es el análisis que se hace de un documento o conjunto de documentos, con un sistema de recuperación de información; por medio del cual se utilizan términos específicos para elaborar el índice y facilitar su posterior recuperación. La UNESCO define la Indización como un proceso que consiste en “describir y caracterizar un documento con la ayuda de representaciones de conceptos contenidos en dicho documento, desde el punto de vista de su finalidad, como la operación destinada a permitir una búsqueda de informaciones contenidas en el fondo documental”. Para el autor Neet indexar significa analizar los documentos y aislar los conceptos esenciales o convenientes que deben ser necesitados y utilizados en búsquedas posteriores. La indización es definida por Coll Vinent como el acto de retener una o más nociones que representan al contenido de un documento, adecuándolo a un lenguaje natural o documental, previamente seleccionado por un profesional. Por su parte García Gutiérrez asegura que es sólo una técnica del tratamiento documental que se utiliza para descripción del contenido de los documentos que permite llevar a cabo estrategias de recuperación por medio de conceptos o materias. En general, la indización es la operación que permite expresar la materia principal de un documento por medio de un número determinado de términos que representen la característica de la mencionada materia. c) Relación entre Indización, Resúmenes y Búsqueda de Información. En la Indización, los resúmenes y la búsqueda en un sistema de recuperación de la información, según Cleveland, no existen dependientes, porque están interrelacionados de tal manera que pueden formar las bases de este sistema. los primeros no tienen significados hasta que son utilizados en una búsqueda; por el contrario, una búsqueda sin estos indicadores de contenidos, dificulta el acceso al usuario quien tiene la necesidad de revisar cada uno de los documentos. Las relaciones existentes se ven reflejadas en la satisfacción del usuario con el Sistema, ya sea manual o digital, la búsqueda tiene que ser sencilla y rápida, de preferencia para evitarle un descontento y pérdida de tiempo. d) Objetivo de la Indización. El objetivo principal del manejo técnico de la Indización es el ahorro del tiempo. La sociedad requiere tener, para destinar el menor tiempo posible, de índices elaborados correctamente, resúmenes, así como también revisiones a la literatura. Por su parte, Cleveland aclara que debido al avance de la tecnología en el área de la informática, de las computadoras, se ha facilitado la recuperación de la información automatizada, situación que hace posible se localice una lista de registros en cuestión de nanosegundos. Aunque lo más importante es la información de los registros, la validez y cobertura de esa información, recae en la delicada labor que realizan los indicadores y quienes tienen el compromiso de elaborar los resúmenes. El objetivo de la Indización, según Coll, es “hacerse con un lenguaje y unas expresiones tales que tengan la virtud, en razón de su significado estricto, por sinonimia, por asociación o por cualquier otro sistema, de suscitar un proceso mnemotécnico en el utilizador que le ayude a formular mejor su pregunta y que le facilite en definitiva encontrar aquello que le interesa”. Lancaster declara que la meta principal de la Indización y los resúmenes es estructurar representaciones de material impreso de manera adecuada para integrarlas en un tipo de bases de datos, como el “Chemical Abstracts” o el “Engineering Index”, en un sistema de recuperación electrónica, en cuyo caso la base de datos vendrá a ser, a menudo, un equivalente al de un servicio impreso, o en forma de tarjetas, como el catálogo convencional de una biblioteca e) Principios de la Indización. Cleveland, menciona que algunos factores son importantes y los considera adecuados para lograr una excelente indización, como son: Selección de términos: las personas responsables de llevar a cabo el proceso de indización, deben estar seguras que han sido seleccionados todos los términos correctos, así como de excluir los que no se necesiten, con el propósito de no extraviar o señalar opciones no tan necesarias para la localización de información por parte del usuario. El indicador debe prever o adivinar en cierta forma, lo que el usuario requiere y cómo reacciona a las entradas indizadas. La selección de un término ideal, reflejará el contenido del documento, es preciso y amplio para identificar el material relacionado. Aquí puede aclararse que un buen Tesauro ligará los términos relacionados a través de relaciones semánticas y jerárquicas, uniéndolos con las “referencias cruzadas”, “términos calificados” y “notas de alcance”, principalmente. Puntos de acceso: las palabras que otorgan al usuario ingreso a la información incluida en una base de datos, si se cuenta con un sistema automatizado, se llaman “entradas” y el término puede ser uno que se utilizó al indizar o que puede dirigir al usuario al término adecuado. Las relaciones establecidas por las entradas son fundamentales para efectuar una indización y lograr éxito en una búsqueda. Las entradas, usualmente son sinónimos de términos aceptados, cambios, o pluralizaciones; algunas veces éstas son coloquiales, de modo que las referencias cruzadas, conducen a términos más formales facilitando así el acceso a los usuarios. Profundización de la indización: la selección que realiza el descriptor va a estar influenciada casi siempre, por la profundidad del índice o el grado de tópicos que serán cubiertos en la indización de un documento o por la cantidad de detalles cubiertos en cada tópico específico. Lo más viable es reconocer en el proceso de análisis la totalidad de materias incluidas en un documento y asignarles descriptores para representar esa totalidad de materias; por lo cual puede considerarse como una indización a profundidad, pues entre más profunda sea la indización, mayor será la cantidad de términos indizados. Precisión en la Indización: este factor se refiere a las relaciones genéricas entre los términos indizados. Si los términos son específicos, más precisos serán los resultados. Cuando los descriptores utilizados son paralelos a los conceptos de la materia del documento y reflejan éstos, entonces la posibilidad de que indización sea específica es mayor; ya que la misma es menos precisa y menos paralela a los conceptos exactos, cuando los descriptores refieran un rango más amplio. Con un lenguaje de indización más específico, se tendrá un vocabulario más amplio, con descriptores de más potencial. Peso al asignar descriptores: es con este factor que se signa un valor el término para señalar la importancia que tiene, utilizando una especie de escala. Esta técnica se fundamenta en la frecuencia de la ocurrencia de palabras, utilizando el conteo de las mismas a manera de modelo estadístico. La intención es que las palabras en el documento, sean medidas de acuerdo a la variación en la frecuencia. Considero que la Indización es un proceso difícil, delicado, que requiere atención y delicadeza al realizarla, pero ya conociendo los términos necesarios, siento me estoy familiarizando con los conceptos.