EVALUACION E INDICADORES DE CALIDAD EN BASES DE DATOS

Luis Rodríguez Yunta
CSIC, CINDOC.

Resumen: Análisis de la problemática del control de calidad desde el punto de vista de los productores de bases de datos documentales. Se intentan sistematizar los distintos criterios que se han propuesto para la evaluación de la calidad en bases de datos, así como enumerar métodos de recogida de datos que pueden aplicarse. Se hace un especial hincapié en la relación entre la calidad y el diseño de las bases de datos, a través del ejemplo de la base de datos ISOC.
Palabras clave: diseño de bases de datos; control de calidad.

Abstract: Analysis on qualay control problems from the bibliographic databases producers viewpoin. The aim is lo systematize thc different criteria suggested for databases qualuy evaluation, and to enumerate useful data collection methods. The relation between quality and database design is particularly outstanding, as secn through the example oí ISOC database.
Key words: database design; quality control.

1 Introducción

La preocupación por la calidad en los productos y servicios de información es un terna de creciente interés para los profesionales de la información. Sin embargo la mayor parte de los cursos, artículos y comunicaciones que han tratado este problema en España se centraron en el punto de vista de la gestión de los centros y servicios de documentación en general (1), sin descender en la mayoría de los casos al análisis de aspectos más concretos de la administración de bases de datos. En este artículo se pretende abordar esta cuestión desde el punto de vista concreto de los profesionales de la información que realizan el proceso de análisis documental para alimentar y mantener las bases de datos bibliográficas. Es evidente que la implantación de un sistema de gestión de calidad en un centro de documentación marcará necesariamente la gestión de los productos que se elaboran en el mismo, pero no bastará con ello. Se hace necesaria una mayor concreción en cuanto a qué aspectos deben evaluarse y cómo hacerlo.
Otras comunicaciones y artículos publicados sobre la calidad se centraron exclusivamente en un único aspecto: la presencia o ausencia de errores, la limpieza o suciedad de las bases de datos (2). La corrección de erratas puede convertirse en una auténtica obsesión en el trabajo diario del documentalista, pero no garantiza por sí sola una auténtica calidad de un producto bibliográfico. Es tan sólo uno de los aspectos a tener en cuenta, importante pero en ningún caso exclusivo.

En la actualidad, la mejora en las comunicaciones ha potenciado la expansión de múltiples recursos de información cuya calidad debe ser evaluada por los usuarios de estos servicios. Las nuevas tecnologías permiten el volcado masivo de información con un escaso proceso de elaboración, conformando bases de datos bibliográficas que ponen en entredicho la necesidad y la validez de los sistemas tradicionales de información basados en un costoso proceso de análisis documental no automatizado.
Es preciso aplicar los principios de la gestión de calidad en la administración de nuestros sistemas de información (3), tanto para el diseño y puesta en marcha de nue
os productos documentales como para la readaptación de los ya existentes a las me;oras que ofrecen las nuevas tecnologías. Y en ambos casos se hace necesario que previamente tengamos claro cuáles son los criterios de calidad que deben perseguirse.
En los diferentes estudios de evaluación de bases de datos se entremezclan dos puntos de vista principales, que se corresponden con dos tipos de intereses muy distintos:
- Evaluación desde el punto de vista del usuario: pretende comparar distintas ofertas a fin de elegir la más rentable en términos de coste?beneficio. Se dirige fundamentalmente a establecer criterios para la selección de los mejores recursos de información según su adecuación para cubrir unas necesidades muy concretas. Aquí habría que aclarar que no debiera hablarse sólo de evaluación de bases de datos de forma aislada, sino también de evaluación del software documental y de los distribuidores, puesto que la selección de recursos se encuentra muy relacionada con su accesibilidad, o con valores añadidos como la posibilidad de consulta conjunta de varias bases de datos.
- Evaluación desde el punto de vista del propio productor o administrador de una base de datos. Es un elemento clave para la gestión de calidad en cualquier servicio de información (4). La evaluación no debe ser una tarea que se ejecute al final de la producción, sino que debe integrarse en ella. Ha de servir para prever y evitar los errores, y realizar mejoras en los sistemas de trabajo: racionalización de procesos y servicios concretos del centro, disminución de costes (tanto económicos como de esfuerzo) o la adaptación a cambios sociales o tecnológicos.
Desde hace unos años, en los estudios sobre bases de datos se ha popularizado la referencia al decálogo de indicadores de calidad propuesto por SCOUG (Southern California Online User Group) (5). Este exitoso decálogo puede ser útil para la elaboración de estudios comparativos sobre calidad desde el punto de vista de los usuarios, pero es una simplificación incompleta y no clarifica plenamente la multitud de aspectos que pueden ser objeto de evaluación. Este artículo pretende responder a la necesidad de sistematizar los distintos indicadores de calidad que se han propuesto. Para ello se realiza una propuesta de clasificación de los mismos que pretende facilitar el proceso de toma de decisiones con el que debe concluir la evaluación aplicada desde el punto de vista de los productores y administradores de bases de datos.

2 Indicadores de calidad en bases de datos

Dentro del complejo proceso que supone el diseño y puesta en marcha de una adecuada evaluación, una fase fundamental es la selección de indicadores que sean pertinentes y significativos. Es recomendable centrarse en los aspectos que sean evaluables y al mismo tiempo con alta incidencia sobre la calidad de las bases de datos.
De la bibliografía consultada pueden extraerse gran número de criterios de evaluación, desde los acuñados por los manuales (6), hasta el ya citado decálogo propuesto por SCOUG (Southern California Onfine User Group) (5) y asumido por el CIQM (Centre for Information Quality Management) (7) y EUSIDIC (European Association of Inforrnation Services) (8). Pero cuando se habla de calidad en bases de datos podemos referirnos a aspectos muy dispares, de modo que algunos pueden depender del productor y otros del distribuidor. Algunos estudios pueden realizarse de forma parcial, por ejemplo limitados a la edición electrónica en CD?ROM (9). Por ello, parece útil agrupar en distintas categorías los diferentes indicadores propuestos, a fin de distinguir distintos niveles de análisis:

2.1 Indicadores de calidad que dependen de las fuentes seleccionadas

En este primer grupo se incluyen factores de calidad que dependen de la selección de fuentes que se vacían en un sistema de información. Se valora a través de ellos el grado de adecuación de una base de datos para atender unas necesidades de información concretas, de modo que un producto de información puede ser de alta calidad para un grupo de usuarios, y no serlo en absoluto para otro.

· Grado de cobertura temática o alcance: Es la proporción de información existente sobre una materia, publicada dentro de un período de tiempo concreto, que está incluida en la base de datos. Los usuarios se dirigirán preferentemente a la base de datos considerada como principal en su área temática, pero es importante valorar el grado de cobertura de esta misma área en bases de datos especializadas en otros campos afines, así como en las generales o multidisciplinares. Por lo tanto, mide la calidad desde el punto de vista de su validez para los usuarios de una materia concreta. Así, una base de datos puede tener una alta cobertura o interés para la Ecología y no tenerla para el Urbanismo. Normalmente resulta más sencillo valorar este indicador según la proporción de revistas que pueden considerarse de interés para un área temática que se hayan efectivamente recogidas en un sistema de información. En este caso, es necesario comprobar la presencia o ausencia de lagunas en el vaciado de las fuentes (años o artículos que quedaron sin vaciar, retrasos...) para considerar como realmente cubierta cada publicación periódica.
· Grado de especialización temática: carácter multidisciplinar o no de una base de datos. Aquí nos situamos en otro punto de vista. No se propone medir la calidad por el número de fuentes específicas seleccionadas que son de interés para un área, sino por la presencia o no de otras materias o el grado de exclusividad o importancia que el área de nuestro interés tiene dentro de una base de datos. En los sistemas de información altamente especializados, podemos esperar una mayor capacidad para realizar fácilmente búsquedas limitadas a campos temáticos concretos, sin que los resultados sean distorsionados por la presencia de registros sin interés, relativos a otras materias colaterales. Es decir que si lo que busco son estudios médicos sobre el sida, sólo con poner este término estoy seguro de no encontrar estudios de carácter sociológico o una reseña de la película "Philadelphiá". Además. se espera una mayor precisión y especificidad en el vocabulario de indización utilizado. Por el contrario, en una base de datos multidisciplinar puedo esperar una mayor capacidad para las búsquedas exhaustivas, pero tendré que comprobar si el sistema me permite limitar fácilmente la interrogación por áreas temáticas y si cuenta o no con un vocabulario de indización suficientemente desarrollado y no genérico.
· Calidad y accesibilidad de los documentos originales. Es otro factor de interés que el usuario debe conocer a priori para decidirse a consultar o no un sistema de información: tipología de fuentes analizadas, criterios de selección, facilidad para la localización física de los documentos originales. Es importante medir la calidad de estas fuentes en relación con su accesibilidad. Por ejemplo, las tesis son documentos en los que se presupone un alto nivel de calidad, pero es de gran interés para el usuario conocer si puede solicitar la microficha del original, o limitar su búsqueda a aquellas tesis en las que el productor de la base de datos se compromete a suministrar el documento primario.

2.2 Indicadores que dependen de la actualización y presentación de los datos

Se trata de factores asimismo relacionados con las fuentes vaciadas, pero no por su valor intrínseco sino por la capacidad de los servicios de producción de bases de datos para proceder a su análisis.
· Grado de actualización: presencia y proporción de la información más moderna dentro del conjunto de registros consultables en la base de datos. Se comprueba la presencia o no de referencias del último año, y la proporción de registros ya presentes en el sistema de información, respecto a los previsibles (por comparación con otros años)
· Nivel de crecimiento: número de registros nuevos por año. El nivel de crecimiento anual debe ser igual o mayor al número de registros anuales que teóricamente se producen en las fuentes que el servicio recoge. Sólo si es mayor nos indica la capacidad del sistema para mantener su grado de actualización o recuperar posibles lagunas.
· Fiabilidad y precisión de los datos: presencia y proporción de datos incompletos o erróneos en un conjunto de documentos. Los errores tipográficos pueden ser aparentemente intrascendentes. pero pueden impedir la recuperación, al igual que la falta de precisión en los datos dificultará la localización del documento primario. La presencia de registros duplicados en una misma base de datos también repercute negativamente sobre su calidad. Debe medirse el grado de permanencia de los errores en el sistema (es decir su antigüedad). Estos datos están muy relacionados con la fiabilidad que podemos otorgar al centro productor: si cuenta o no con suficiente personal especializado y con experiencia, si realiza o no correcciones sistemáticas.

2.3 Indicadores que dependen del diseño de la base de datos y criterios aplicados en el análisis documental

Hay una gran variedad de estructuras de bases de datos y modelos de análisis documental. Ambos aspectos deben definirse en función de la mejora de las posibilidades de recuperación que ofrecen (10):

· Capacidad para realizar búsquedas exhaustivas. El diseño de campos en las bases de datos debe facilitar la realización de búsquedas exhaustivas sin que signifique una gran pérdida de pertinencia. Para conceptos genéricos es fundamental la existencia de una buena clasificación jerárquica, que sea conocida o fácil de consultar. Cuando se trata de conceptos específicos es muy importante la existencia de suficientes y diferentes puntos de acceso a cada registro para una búsqueda en texto libre (muy elevado cuando hay texto completo, también alto cuando cuenta con resumen). Esta riqueza de puntos de acceso es tanto mas efectiva cuanto menor es la sobreindización (redundancia o repetición de las mismas entradas entre distintos índices de campo, por ejemplo entre palabras de título y descriptores). Una indización inteligente ha de reflejar tanto la información explícita contenida en el título de un documento como la información implícita, es decir, que siempre ha de aportar más puntos de acceso que una indización automática simplemente mecánica.
· Capacidad para realizar búsquedas precisas. La estructura de campos de una base de datos debe facilitar también instrumentos que garanticen al máximo la pertinencia de los registros, así como recursos para limitar una búsqueda ya realizada. Para ello es fundamental la posibilidad de consulta a través de índices en campos de indización con lenguaje controlado. Los listados de autoridad o tesauros deben ser consultables desde el propio programa de interrogación de una base de datos. Además, el nivel de profundidad de la indización ha de ser suficientemente específico, para garantizar la capacidad de discriminación de los descriptores. La cadena de términos de indización que describen la temática de un documento ha de permitir singularizar la mayor parte de los distintos registros que responden a una búsqueda.
· Facilidad para juzgar la adecuación de los registros a la búsqueda deseada. Una vez realizada una pregunta al sistema, las referencias obtenidas deben ser suficientemente informativas para que el usuario pueda seleccionar fácilmente aquellos documentos que le interesa consultar y cuáles no. Para ello es fundamental el diseño de formatos de visualización que incluyan el resumen de los documentos. En ausencia de este recurso, habrá que valorar la capacidad informativa de los términos de indización empleados en la descripción del documento, así como la existencia de otros recursos que permiten al usuario valorar con rapidez si los registros son adecuados a sus necesidades (notas, idioma, etc.).
· Esfuerzo requerido en la recuperación. La riqueza de posibilidades de búsqueda de una base de datos no debe entrar en contradicción con la facilidad para realizar consultas "corrientes" sin necesidad de realizar un curso de formación o tener que explorar un voluminoso manual. La información contenida en la base de datos sobre un tema concreto ha de poder recuperarse usando una estrategia de búsqueda "razonable". Si existe un gran número de campos en su estructura ha de haber suficientes prefijos que agrupen las opciones de búsqueda más necesarias.
· Consistencia del análisis documental: grado de coherencia en el tratamiento que reciben distintos documentos relativos a una misma temática. Puede valorarse el grado de cumplimiento de las normas de descripción o análisis formal para documentos de una misma tipología. También ha de valorarse la consistencia en la adjudicación de clasificaciones o de términos de indización. Hay inconsistencias entre distintos lenguajes documentales, pero también dentro de un mismo sistema de información se producen inconsistencias por cambios de criterio o de diseño de la base de datos a lo largo de su crecimiento (8). La consistencia en la indización puede medirse por la proporción de los descriptores coincidentes en un conjunto de documentos de temática afín, y la capacidad de los mismos para expresar dicha temática. Un concepto o tema de búsqueda debe aparecer siempre expresado de la misma forma en el sistema de información, con cl mismo descriptor con la misma combinación de palabras clave. El control del lenguaje documental ha de servir para garantizar al usuario que si existe un término de indización que define correctamente su demanda, no debe ser necesario ampliar la estrategia de búsqueda para recuperar los documentos pertinentes sobre dicho tema. El análisis de la consistencia es de gran utilidad, no sólo para el control de calidad de las bases de datos. sino también para la formación de indizadores (6).

2.4 Indicadores que dependen de la forma de acceso de los usuarios

Una misma base de datos puede ofrecer distintos modos de acceso que no son incompatibles entre sí: distribución en línea por el propio productor o a través de otra empresa, pasarela Internet, edición electrónica en CD-ROM o en disquetes, boletines impresos. Por tanto, la particularidad de los indicadores de este grupo es que podemos tener que evaluarlos varias veces para una misma base de datos. E1 modo de acceso tiene una enorme incidencia en la opinión que tienen los usuarios sobre el recurso que se les ofrece, pero como productores no debemos considerarlo como el factor más relevante. Es preferible buscar el software más adecuado a nuestras necesidades (aunque suponga esperar mucho tiempo) que esclavizar nuestros criterios de análisis documental a las características de nuestro actual programa.
Los indicadores de este grupo son:

· Amigabilidad del lenguaje de recuperación: facilidad para realizar consultas corrientes sin necesidad de hacer un curso de formación de usuarios. Presentación agradable y de uso intuitivo de las opciones más comunes de búsqueda. Facilidad para diseñar distintos formatos de salida de los resultados de la recuperación. Tiempos de respuesta aceptables para estrategias de búsqueda que combinen distintos aspectos.
· Potencialidad del lenguaje de recuperación: operadores booleanos y sintácticos, delimitación por campos, combinación de conjuntos, repetición de estrategias de búsqueda, enlaces hipertexto, búsqueda relacional o en varias bases de datos a la vez y, en este caso, con eliminación o no de duplicados Se ha de valorar la
adecuación de estas potencialidades a las características de nuestra base de datos (por ejemplo: los operadores sintácticos son más importantes en bases de datos con resúmenes o de texto completo).
· Atención al usuario: servicio de mantenimiento, cursos de formación, servicios de búsqueda delegada, calidad y suficiencia de los manuales y ayudas. Estas deben ser personalizadas, es decir que permitan llegar rápidamente al lugar donde se encontrará la solución de una duda concreta. Es muy importante la claridad, variedad y adecuación de los ejemplos. Deben incluirse las orientaciones necesarias sobre los criterios utilizados por el productor en el análisis documental, el control de calidad, la selección de fuentes... También debe pedirse al productor que informe al usuario de las posibles irregularidades en la actualización: prioridades en el vaciado de las fuentes, lagunas existentes... Es interesante que existan mecanismos ágiles (como el correo electrónico) para que los posibles errores detectados por los usuarios lleguen a los productores.
· Calidad de las salidas: posibilidad de seleccionar diferentes formatos para la visualización de los resultados de la recuperación y obtenerlos por diferentes vías: papel, disquete, correo electrónico; posibilidad de diseñar formatos de salida personalizados.
· Accesibilidad, tanto para iniciar una consulta como para llegar a la información una vez dentro de una base de datos. En el caso del acceso en línea pueden valorarse los requerimientos informáticos (también importantes para la edición en CD?ROM). la necesidad y rapidez de la contratación previa del servicio, sus costes. Una vez realizada la conexión, hay que evaluar las facilidades para la consulta de la información: grado de difusión o integración del software de recuperación, claridad de la estructura de campos (similitud con otras base de datos). grado de universalidad de la clasificación empleada, posibilidad de consulta por índices en campos clave (autores, descriptores), búsqueda automática a través del tesauro, existencia de reenvíos entre términos equivalentes.

2.5 Indicadores de calidad de bases de datos en una búsqueda concreta

La evaluación de las respuestas obtenidas en el uso cotidiano de una base de datos es la prueba empírica diaria de su calidad. En gran parte, los errores pueden ser achacables a la falta de pericia de algunos usuarios, pero cl sistema debe guiar y facilitar suficientemente el camino para estar libre de responsabilidad. En una búsqueda concreta podemos evaluar:
· Tasa de pertinencia. precisión o relevancia: proporción de documentos juzgados por el usuario como relevantes entre los obtenidos en una búsqueda. Su contrario es la tasa de ruido (documentos no relevantes y sí recuperados en una búsqueda).
· Tasa de acierto, de respuesta n de exhaustividad: proporción de documentos relevantes seleccionados respecto al total de documentos pertinentes existentes en el sistema de información. Su contrario es la tasa de silencio (documentos relevantes no recuperados en una búsqueda).
· Tasa de actualización: proporción de rtems recuperados que resultan novedosos para el usuario.

3 Métodos de análisis de calidad. Ejemplos concretos

Otro aspecto de gran interés en el proceso de evaluación es el establecimiento de sistemas de recogida de datos. Los criterios e indicadores de calidad sólo resultarán de utilidad si pueden ser medibles a través de métodos de fácil ejecución. Estos pueden ser muy variados:
- Recuentos estadísticos, por ejemplo del grado de actualización general de la base de datos, ritmo de crecimiento, evolución del número de registros según diversos aspectos. Podernos obtener una visión inicial del estado general de una base de datos.
- Repetición de una misma estrategia de búsqueda a intervalos regulares de tiempo. a fin de detectar el número de ítems no recuperados por culpa de retrasos en el procesamiento de la información, o la existencia de correcciones relevantes. Es un acercamiento a la tasa de actualización.
- Tests de suciedad (11): búsqueda de erratas tipográficas sobre una tabla predeterminada de 10 términos con cierta frecuencia de error en el idioma de la base de datos.
- Comparación de los resultados de una búsqueda con la respuesta obtenida por otros sistemas de información (bases de datos. bibliografías impresas, revisiones bibliográficas o citas incluidas en artículos concretos). Sirve en primer lugar para analizar el grado de cobertura temática de nuestra base de datos: principales lagunas que un sistema no cubre y que sí es recogido por otros (tipos de documentos, títulos de revistas no detectadas, etc.). En segundo lugar. sirve para detectar errores en el análisis documental: registros que están físicamente en tina base de datos pero que no tienen asignado el descriptor pertinente por el que se realizó la búsqueda. Al ser un método comparativo, pone de relieve la existencia de criterios diferentes entre los distintos sistemas de información, tanto en la selección de fuentes como en los criterios aplicados en el análisis documental.
- Comparación de los resultados de una búsqueda obtenida mediante una estrategia precisa (descriptores) con la conseguida con una estrategia exhaustiva (título, resumen, texto completo) en la misma base de dalos. Este método se basa en el dilema al que nos enfrentamos en todas las búsquedas bibliográficas: si aplico tina estrategia precisa corro el riesgo de perder referencias válidas (silencio), mientras que si opto por la exhaustividad me veré obligado a visualizar y depurar un cierto número de registros no pertinentes (ruido). Aquí es importante fijarse en los datos absolutos y no sólo en los relativos: es un grave trastorno para el usuario un 50%, de ruido en una búsqueda en la que obtenemos mil referencias, por el trabajo que supone la selección de los más adecuados, y es prácticamente intrascendente si este mismo 50% se obtiene en un conjunto de sólo dos registros. Un sistema de información debe tender a la reducción del ruido especialmente en los aspectos donde esto suponga un trastorno grave para el usuario. Este tnétodo nos permite detectar errores en la indización, medir la consistencia y resaltar los puntos débiles del lenguaje de indización.
- Estudio de simulación: selección de un conjunto de documentos que serán indizados con distintos sistemas, a fin de poder valorar las posibilidades o problemas que se generan en la recuperación.
Puede aplicarse para comparar ventajas e inconvenientes de la indización con distintos niveles de profundidad, o la viabilidad de un sistema de indización automática frente a la humana. Igualmente puede realizarse una simulación entre distintos indizadores a fin de detectar y valorar las inconsistencias.
- Recogida de juicios de los usuarios sobre las referencias que reciben en un perfil o servicio de difusión selectiva de información. Puede aprovecharse un servicio ya existente que realice el centro de información o bien efectuar ex profeso un envío extraordinario de referencias bibliográficas a usuarios potenciales (como parte de las actividades de marketing de la base de datos).
- Prueba de verificación de referencias conocidas: se selecciona al azar una fuente para proceder a la comprobación de los datos de la referencia bibliográfica, clasificación, términos de indización asignados, cte.
- Pruebas de consistencia entre la información existente en diversos campos. Puede realizarse de forma automática la comprobación de la presencia de datos incompatibles entre sí. Por ejemplo: si nuestras normas de indización nos obligan a traducir el título de los documentos que no estén castellano, previéndose para ello dos campos diferenciados (título original y traducido), en cada registro donde el campo idioma marque cualquier valor distinto de `españoF deben contener información ambos campos. De igual forma, puede realizarse una comparación entre la clasificación y los términos de indización asignados a cada referencia a fin de detectar posibles errores. Este tipo de comprobaciones ha de estar facilitado por el diseño de campos de la base de datos, ya que puede ser interesante crear campos previstos específicamente para estas actividades de control.
- Registro o seguimiento completo de las consultas recibidas: finalidad, temática, estrategia utilizada, resultados, valoración del usuario. Se pueden establecer sistemas de control que consistan en la selección aleatoria de algunas de estas consultas y la comparación de los resultados que obtuvo el usuario con los obtenidos posteriormente en una búsqueda paralela por una segunda persona. A través de este procedimiento podemos descubrir sobre todo las necesidades de comunicación y ayuda al usuario. En cada búsqueda se valorarán las tasas de exhaustividad y pertinencia, con objeto de detectar los factores que influyen sobre las probabilidades de éxito (tipo de usuario, tipo de indización, conocimiento del sistema, estrategias de menor riesgo, cte.). Si el número de búsquedas es elevado se analizará una selección promediada según tipo de usuarios, áreas temáticas u otras variables.
- Cuadernos de quejas. Consiste en proporcionar a los usuarios un instrumento donde expresar todas sus críticas al sistema. Ya que nuestro objetivo final es reducir al máximo la existencia de errores es importante analizar las causas de cualquier fallo: documentos implicados, estrategias de búsqueda, interacción con el usuario, indización incorrecta o incompleta, cte.
- Prueba de documento fuente. Se convierte el título de un registro concreto en una búsqueda artificial en el sistema de información. Si un autor escribe sobre una combinación concreta de temas, ésta es al mismo tiempo una hipotética necesidad de información. A través de ella se mide la capacidad de nuestro lenguaje de indización para definir un tema con una estrategia de búsqueda razonablemente sencilla.
- Encuesta a los propios autores de los documentos originales solicitándoles su opinión sobre el análisis documental aplicado en los registros correspondientes a sus artículos en la base de datos (13). Sirve para detectar errores de indización o lagunas en los lenguajes documentales (clasificación, descriptores).
- Test de cobertura de las fuentes. Se selecciona de forma aleatoria un conjunto de revistas para revisar la consistencia en su vaciado: detección de lagunas, comparación de número de registros asignados a una fuente por año entre distintas bases de datos que la cubran.
- Estudio de la consistencia en la indización. Puede realizarse la comparación entre distintos sistemas, analizando el tratamiento que recibe un mismo conjunto de documentos. También puede evaluarse la consistencia interna de una misma base de datos realizando un seguimiento del análisis documental dado a un tema o materia concreta.

4 Relación entre calidad y diseño de bases de datos. El ejemplo de la base de datos ISOC

La base de datos ISOC. gestionada por el CINDOC, se ha desarrollado y evolucionado a lo largo de más de veinte años procediendo al vaciado y análisis de la literatura científica española en Ciencias Sociales y Humanidades. Durante este tiempo se han ido tomando muchas decisiones con el propósito de conseguir su optimización y que pueden servir de ejemplo para mostrar la problemática y complejidad de la calidad en bases de datos bibliográficas. Este artículo se centrará en las decisiones que afectan al diseño y estructura de la base de datos, prescindiendo de cualquier análisis de los distintos softwares por los que puede accederse a este recurso de información (cd?knosys para el CD?ROM, basis plus para el acceso en línea).
La gestión de calidad en una base de datos bibliográfica de gran tamaño y de carácter multidisciplinar es un gran reto. El camino hacia una auténtica gestión de calidad está apenas iniciado: nos quedan aún muchas tareas pendientes. Quizás algunos de los criterios adoptados en este camino no sean los más idóneos, ya que es muy necesario guardar un difícil equilibrio en la toma de decisiones.
A continuación se analizan las características más importantes que afectan a la calidad de esta base de datos, con sus ventajas e inconvenientes:

4.1 Una base de datos de bases de datos: cl difícil equilibrio entre multidisciplinariedad y especificidad

Se ha intentado hacer compatibles la ventaja que supone ser una base de datos multidisciplinar con el tratamiento específico de cada una de las materias. En consecuencia, se trata de una base compuesta de distintas sub-bases especializadas y con un tratamiento específico, que comparten un mismo fichero. La base de datos ISOC cubre las áreas de Antropología, Arqueología. Bellas Artes. Ciencias de la Educación, Ciencias Históricas, Ciencias Jurídicas, Ciencias Políticas, Documentación Científica, Economía, Filosofía, Geografía, Lingúística, Literatura. Psicología, Sociología y Urbanismo. El usuario puede elegir entre la consulta individualizada de cada uno de estos sub-ficheros o la consulta global en todos ellos. Dada la gran dispersión y difícil control de la literatura científica española publicada en revistas, este carácter multidisciplinar nos permite aumentar considerablemente la calidad de cada sub?base en este aspecto concreto (cobertura).
Sin embargo, las bases de datos multidisciplinares suelen aplicar un modelo de indización en el que predominan los términos genéricos, resultando a menudo insuficientes para resolver determinadas necesidades de información. En la base de datos ISOC se ha apostado decididamente por el tratamiento especifico de cada materia, intentando aprovechar las ventajas a un tiempo de ambos sistemas.

4.2 Indización con lenguaje controlado: construcción de tesauros

Se ha apostado decididamente por el control del vocabulario en la indización. El CINDOC ha publicado ya varios tesauros especializados producto del trabajo de la base de datos ISOC (Urbanismo, Economía, Psicología). No es una decisión libre de riesgos: al no poder avanzar al mismo ritmo en la construcción de todos estos léxicos no se pueden aprovechar todas las ventajas del lenguaje controlado, sobre todo en la interrogación conjunta de la base de datos completa. Es un reto aún pendiente dar término a todos los tesauros iniciados, lograr una plena consistencia entre los mismos y darles una mayor visibilidad para su aprovechamiento pleno en la recuperación de información.

4.3 Un diseño enriquecido de los campos de indización

En su inicio, la base de datos ISOC contaba con un sólo campo para reflejar los términos de indización o palabras-clave. Posteriormente se dividió el número de campos destinados a este fin, con el objetivo de facilitar el control de vocabulario y mejorar la pertinencia en la recuperación. El actual diseño de la base de datos incluye los siguiente campos: descriptores principales, descriptores secundarios, descriptores candidatos, identificadores, topónimos, legislación y jurisprudencia.
Este diseño contribuye claramente a aumentar la precisión en las búsquedas, eliminando muchas ambigüedades en el alcance de los términos de indización. E1 usuario podrá consultar estos campos de forma individualizada, pero también de forma conjunta. El inconveniente es que resulta un diseño complejo para el primer contacto con esta base de datos que no siempre es comprendido de forma intuitiva. También el indizador encuentra algún inconveniente: se beneficia claramente de mejores condiciones para el control terminológico, pero todas las actividades relacionadas con este control no resultan fáciles. Ni siquiera es siempre claro en qué campo deben ubicarse algunos términos de indización.

4.4 Utilización de clasificaciones de elaboración propia

En el diseño de campos destinados a reflejar el análisis documental del contenido de los documentos es de gran importancia la clasificación. Este elemento debe resolver las necesidades de búsqueda de temas genéricos, siendo indispensable para conseguir la máxima pertinencia en este tipo de preguntas. También nos permite la presentación ordenada por materias de los registros o la realización de estudios bibliométricos. Para que su utilidad sea mayor, precisamos una tabla de clasificaciones que se adapte a la evolución continua del conocimiento científico y que podamos ir cambiando progresivamente, de acuerdo con las necesidades de información.
Por ello se desechó la adopción de una clasificación universal. Sin embargo, el mayor inconveniente de optar por tablas clasificatorias de construcción propia es su falta de visibilidad para el usuario, dificultada aun más en nuestro caso por la diversidad de materias, con muchos aspectos interdisciplinares.

4.5 Inclusión de resúmenes de autor

Después de la clasificación y la indización, el resumen es la tercera operación del análisis documental que un sistema de información puede incorporar. Pero también es un vehículo de comunicación científica que debe acompañar a las propias publicaciones primarias. Cuando diseñamos una base de datos referencial podremos optar, por tanto, por incorporar o no este campo, y. en su caso, incluir los resúmenes de autor o bien realizar los resúmenes por personal especializado de nuestro propio centro. Esta última opción parece la más recomendable para sistemas de información que carecen de dcscriptores o palabras clave, en los que el resumen represente el principal campo de interrogación. En una base de datos alimentada por resúmenes de autor encontraremos una excesiva dispersión terminológica, disparidad de criterios e inconsistencias en su grado de profundidad. Por el contrario, cuando se trata de un campo complementario de los descriptores, se convierte en un recurso que enriquece notablemente las bases de datos, con un coste mínimo de tiempo.
En la filosofía de las bases de datos ISOC, los descriptores deben resolver la mayor parte de las necesidades de información, y son el campo de interrogación fundamental. Los registros se completan con la inclusión de los resúmenes que se publican en los propios documentos originales analizados. Esto permite, en primer lugar, aumentar los puntos de acceso y las posibilidades de recuperación de conceptos muy específicos, neologismos y aspectos metodológicos que frecuentemente pueden no quedar recogidos en la indización. En segundo lugar, el resumen, gracias a su mayor capacidad informativa, permite al usuario juzgar con más criterio la adecuación entre las referencias obtenidas y sus necesidades. La cadena de deseriptores sólo puede orientarnos sobre los temas tratados por un artículo; el resumen debe transmitir además lo que se dice sobre dicho tema: conclusiones, datos, tesis defendidas por el autor. La indización pretende tan sólo extraer los conceptos tratados de forma suficientemente pertinente en los documentos y que puedan ser objeto de búsqueda, nunca puede suplir al resumen como texto compuesto para informar, para ser leído. Y viceversa, el resumen no puede competir con los términos de indización como recurso para la recuperación pertinente de información. Por ello, las bases de datos se enriquecen notablemente cuando cuentan con ambos campos.
Sin embargo, las publicaciones científicas españolas en Ciencias Sociales y Humanas carecen aún en muchos casos de resúmenes de autor. Sería necesario un gran esfuerzo colectivo para mejorar su adecuación a las normas internacionales, tanto en éste como en otros aspectos.

4.6 Un sistema de trabajo que garantice la máxima actualización y control de errores

Las bases de datos son productos vivos que exigen un esfuerzo continuo para poder mantener su plena actualización, al mismo tiempo que su salud (depuración de errores). Es fundamental adecuar los sistemas de trabajo a la capacidad del personal con que se cuenta y, al mismo tiempo. garantizar en lo posible la máxima limpieza. Sin embargo, todos los errores no tienen la misma trascendencia. Debemos centrarnos en intentar prevenir y evitar los errores que no nos podemos permitir: relaciones erróneas entre los artículos y las fuentes donde se encuentran, presencia de duplicados y lagunas no deseadas en el vaciado de las fuentes, etc.; en definitiva, un sistema de trabajo que asegure el control del mismo.
Algunas de las decisiones tomadas en el curso de estos más de veinte años de evolución de las bases de datos 1SOC nos han obligado a realizar algunas correcciones retrospectivas. Echar la vista atrás parece incompatible con la necesidad de conseguir la plena actualización, pero resulta imprescindible para la gestión de un único sistema de información con unos mínimos de consistencia interna.
Para facilitar la puesta al día de las bases y al mismo tiempo mejorar los instrumentos de control se ha puesto en práctica un nuevo sistema de trabajo que divide la grabación de los registros en dos fases: una grabación inicial de los datos fundamentales (autor, título, fuente, resumen, clasificación genérica) y una posterior en la que los documentalistas incorporan los términos de indización pertinentes a cada registro. En consecuencia, puede haber coyunturalmente registros incompletos en la base de datos. Lo ideal sería que todos los registros se incorporasen de forma completa y rápida. Sin embargo, la falta de personal y la necesidad de dividir el trabajo por especialidades temáticas (lo que obliga a que algunas revistas multidisciplinares tengan que pasar por varias manos), provocaba lagunas y dificultades para controlar el estado real del trabajo pendiente. La grabación previa de los sumarios de las revistas permite que muchos registros, que de otra manera estarían ausentes de la base de datos, puedan ser localizados en las búsquedas bibliográficas al menos a través de las palabras del tíhilo y del resumen.

5 Conclusiones

El control de calidad ha de estar integrado en la metodología de trabajo de los productores de bases de datos. La evaluación es de gran utilidad para dar un sentido global a las distintas tareas o servicios implicados en un sistema de información. El trabajo del indizador no debe realizarse de espaldas a los servicios de atención al público sino que ha de retroalimentarse a partir del uso real que reciben los productos de información.
Nunca se debe evaluar con el objetivo de presentar un informe que resalte lo bien que está funcionando un producto de información, sino que ha de centrarse en los aspectos que precisan de mejora. Pero la toma de decisiones ha de estar siempre equilibrada. Por ejemplo: si se potencia la pertinencia se corre el riesgo de perder exhaustividad, y viceversa. Tampoco todos los problemas tienen la misma relevancia; especialmente hay que evitar y prevenir los "errores que no nos podemos permitir" (no las anécdotas). Los errores de omisión son más difíciles de comprobar pero pueden ser más graves que los errores de hecho.

Para una correcta toma de decisiones en la gestión. el productor precisa un claro conocimiento de la situación real en que se encuentra la base de datos: niveles de uso, rendimiento, problemas principales o puntos débiles del sistema. Pero como instrumento de mejora continua, la evaluación ha de conducir a la realización de propuestas concretas de cambio. Estas mejoras pueden afectar a distintos aspectos de la gestión y mantenimiento de una base de datos:

1. Cambios en el software documental. Si es posible se aplicarán de forma inmediata. Si no, el planteamiento a más largo plazo es también de gran interés. No conviene nunca tomar decisiones en los criterios de análisis documental basándose en lo que no permite el software de gestión documental. Habrá que adecuar los programas a las necesidades y no al revés. Los administradores de la bases de datos deben establecer con claridad sus necesidades y prioridades para el momento en el que se plantee una migración a un nuevo programa de gestión.
2. Adecuación de los manuales o ayudas en línea que se ofrecen al usuario. Muchos problemas detectados en la interrogación a las bases de datos tienen fácil solución con una mejor información al usuario. Hay que ofrecer todas las aclaraciones que sean necesarias sin que los manuales se conviertan en una acumulación de justificaciones.
3. Rediseño de la estructura de campos de la base de datos. Puede ser conveniente la creación de nuevos campos, bien por separación de otros existentes en el diseño inicial, para garantizar una mayor precisión en la descripción catalográfica (responsabilidad principal y secundaria), mayor pertinencia en la recuperación (descriptores principales y secundarios) o un mejor control del vocabulario de indización (descriptores y palabras candidatas, identificadores, topónimos). o bien por el proceso inverso, la agrupación de varios campos en uno sólo para dar mayor coherencia o simplificar tanto el análisis como la búsqueda.
4. Revisión de los criterios aplicados en el análisis documental. Para una mayor consistencia, todos los criterios deben ser revisados y consensuados, desde el número máximo de epígrafes clasificatorios que pueden asignarse a los documentos hasta el nivel de especificidad de la indización o la forma correcta de los términos del tesauro.
5. Cambios en los métodos de trabajo (13). Algunos errores que provocan disfunciones en los sistemas de información, como la existencia de duplicaciones y lagunas, deben solucionarse desde la reorganización de las distintas tareas implicadas en el proceso de mantenimiento de una base de datos.
En cualquier caso, las actividades de evaluación no dejan de ser de utilidad aunque no conduzcan de forma inmediata a la toma de decisiones. Siempre es útil la reflexión sobre el propio trabajo de forma que se pongan sobre la mesa los puntos que precisan una mayor atención o las causas de las pequeñas insatisfacciones tanto de los usuarios como del personal de un centro.

6 Bibliografía

1. D'ALOS MONER. A.; CORNELLA, A. Calidad total en los Centros de Documentación, Servicios de Información y Bibliotecas. En: Los profesionales ante el reto del siglo XXI: integración y calidad. 4.as Jornadas Españolas de Documentación Automatizada, 1994, Gijón, p. 287-293.
2. ORTEGO DE LORENZO-CACERES, M. P.; BONAL ZAZO, J. L. Indicadores para el control de calidad de bases de datos bibliográficas españolas. En: Sistemas de información: balance de 12 años de Jornadas y perspectivas de futuro. 5.as Jornadas Españolas de Documentación Automatizada, 1996. Cáceres, p. 503-512.
3. LLORET ROMERO. N.; LATORRE ZACARES. J. Análisis sobre las necesidades de implantación de un sistema de calidad en un Centro de Documentación. Apuntes para una guía. Madrid: CINDOC, 1995.
4. MEDAWAR, K. Database Quality: a literature review of the past and a plan for the future. Program 1995, vol. 29, n.° 3, p. 257-272.
5. BASCH, R. Measuring the quality of the data. report en the fourth annual SCOUG retreat Database Searcher 1990, octubre.
6. LANCASTER, F. W. Indexing and abstracting in theory anal practice. London: The Library Association, 1991.
7. ARMSTRONG, C. CIQM: Report on Database Quality. Database, 1994, vol. 17, n.° 6, p. 45-48.
8. EUSIDIC. The impact qf Quality Management on The Information Sector, 1994.
9. HARRY, V.; OPPENHEIM, C. Evaluations of electronic databases. Online & CDROM Review, 1993, vol. 17. n.° 4, p. 211-222, y n.° 6, p. 339-351.
10. PALMA VILLALON, M. V. Técnicas y métodos para mejorar la calidad de la indización y su recuperación en bases de datos documentales de Ciencias Sociales y Humanidades. En: V Jornades Catalanes de Documentació, 1995, Barcelona, p. 223-239.
11. CAHN, P. Testing Database Quality. Database, 1994, vol. 17, n.° 1, p. 23-30.
12. BRAAM, R. R.; BRUIL, J. Quality of indexing information: authors' views on indexing of their articles in Chemical Abstracts online CA-file. Journal qf lnfórmation Science, 1992, vol. 18, n.° 5, p. 399-408.
13. BUSTELO, C. El replanteamiento de los métodos de trabajo en la aplicación de nuevas herramientas de tratamiento de la información. En: Sistemas de información: balance de 12 años de Jornadas y perspectivas de futuro. 5.as Jornadas Españolas de Documentación Automatizada, 1996, Cáceres, p. 639-644.