|
EVALUACION
E INDICADORES DE CALIDAD EN BASES DE DATOS
Luis Rodríguez Yunta
CSIC, CINDOC.
Resumen: Análisis de la problemática del control
de calidad desde el punto de vista de los productores de bases de
datos documentales. Se intentan sistematizar los distintos criterios
que se han propuesto para la evaluación de la calidad en
bases de datos, así como enumerar métodos de recogida
de datos que pueden aplicarse. Se hace un especial hincapié
en la relación entre la calidad y el diseño de las
bases de datos, a través del ejemplo de la base de datos
ISOC.
Palabras clave: diseño de bases de datos; control de calidad.
Abstract: Analysis on qualay control problems from the bibliographic
databases producers viewpoin. The aim is lo systematize thc different
criteria suggested for databases qualuy evaluation, and to enumerate
useful data collection methods. The relation between quality and
database design is particularly outstanding, as secn through the
example oí ISOC database.
Key words: database design; quality control.
1 Introducción
La preocupación por la calidad en los productos y servicios
de información es un terna de creciente interés para
los profesionales de la información. Sin embargo la mayor
parte de los cursos, artículos y comunicaciones que han tratado
este problema en España se centraron en el punto de vista
de la gestión de los centros y servicios de documentación
en general (1), sin descender en la mayoría de los casos
al análisis de aspectos más concretos de la administración
de bases de datos. En este artículo se pretende abordar esta
cuestión desde el punto de vista concreto de los profesionales
de la información que realizan el proceso de análisis
documental para alimentar y mantener las bases de datos bibliográficas.
Es evidente que la implantación de un sistema de gestión
de calidad en un centro de documentación marcará necesariamente
la gestión de los productos que se elaboran en el mismo,
pero no bastará con ello. Se hace necesaria una mayor concreción
en cuanto a qué aspectos deben evaluarse y cómo hacerlo.
Otras comunicaciones y artículos publicados sobre la calidad
se centraron exclusivamente en un único aspecto: la presencia
o ausencia de errores, la limpieza o suciedad de las bases de datos
(2). La corrección de erratas puede convertirse en una auténtica
obsesión en el trabajo diario del documentalista, pero no
garantiza por sí sola una auténtica calidad de un
producto bibliográfico. Es tan sólo uno de los aspectos
a tener en cuenta, importante pero en ningún caso exclusivo.
En la actualidad, la mejora en las comunicaciones ha potenciado
la expansión de múltiples recursos de información
cuya calidad debe ser evaluada por los usuarios de estos servicios.
Las nuevas tecnologías permiten el volcado masivo de información
con un escaso proceso de elaboración, conformando bases de
datos bibliográficas que ponen en entredicho la necesidad
y la validez de los sistemas tradicionales de información
basados en un costoso proceso de análisis documental no automatizado.
Es preciso aplicar los principios de la gestión de calidad
en la administración de nuestros sistemas de información
(3), tanto para el diseño y puesta en marcha de nue
os productos documentales como para la readaptación de los
ya existentes a las me;oras que ofrecen las nuevas tecnologías.
Y en ambos casos se hace necesario que previamente tengamos claro
cuáles son los criterios de calidad que deben perseguirse.
En los diferentes estudios de evaluación de bases de datos
se entremezclan dos puntos de vista principales, que se corresponden
con dos tipos de intereses muy distintos:
- Evaluación desde el punto de vista del usuario: pretende
comparar distintas ofertas a fin de elegir la más rentable
en términos de coste?beneficio. Se dirige fundamentalmente
a establecer criterios para la selección de los mejores recursos
de información según su adecuación para cubrir
unas necesidades muy concretas. Aquí habría que aclarar
que no debiera hablarse sólo de evaluación de bases
de datos de forma aislada, sino también de evaluación
del software documental y de los distribuidores, puesto que la selección
de recursos se encuentra muy relacionada con su accesibilidad, o
con valores añadidos como la posibilidad de consulta conjunta
de varias bases de datos.
- Evaluación desde el punto de vista del propio productor
o administrador de una base de datos. Es un elemento clave para
la gestión de calidad en cualquier servicio de información
(4). La evaluación no debe ser una tarea que se ejecute al
final de la producción, sino que debe integrarse en ella.
Ha de servir para prever y evitar los errores, y realizar mejoras
en los sistemas de trabajo: racionalización de procesos y
servicios concretos del centro, disminución de costes (tanto
económicos como de esfuerzo) o la adaptación a cambios
sociales o tecnológicos.
Desde hace unos años, en los estudios sobre bases de datos
se ha popularizado la referencia al decálogo de indicadores
de calidad propuesto por SCOUG (Southern California Online User
Group) (5). Este exitoso decálogo puede ser útil para
la elaboración de estudios comparativos sobre calidad desde
el punto de vista de los usuarios, pero es una simplificación
incompleta y no clarifica plenamente la multitud de aspectos que
pueden ser objeto de evaluación. Este artículo pretende
responder a la necesidad de sistematizar los distintos indicadores
de calidad que se han propuesto. Para ello se realiza una propuesta
de clasificación de los mismos que pretende facilitar el
proceso de toma de decisiones con el que debe concluir la evaluación
aplicada desde el punto de vista de los productores y administradores
de bases de datos.
2 Indicadores de calidad en bases de datos
Dentro del complejo proceso que supone el diseño y puesta
en marcha de una adecuada evaluación, una fase fundamental
es la selección de indicadores que sean pertinentes y significativos.
Es recomendable centrarse en los aspectos que sean evaluables y
al mismo tiempo con alta incidencia sobre la calidad de las bases
de datos.
De la bibliografía consultada pueden extraerse gran número
de criterios de evaluación, desde los acuñados por
los manuales (6), hasta el ya citado decálogo propuesto por
SCOUG (Southern California Onfine User Group) (5) y asumido por
el CIQM (Centre for Information Quality Management) (7) y EUSIDIC
(European Association of Inforrnation Services) (8). Pero cuando
se habla de calidad en bases de datos podemos referirnos a aspectos
muy dispares, de modo que algunos pueden depender del productor
y otros del distribuidor. Algunos estudios pueden realizarse de
forma parcial, por ejemplo limitados a la edición electrónica
en CD?ROM (9). Por ello, parece útil agrupar en distintas
categorías los diferentes indicadores propuestos, a fin de
distinguir distintos niveles de análisis:
2.1 Indicadores de calidad que dependen
de las fuentes seleccionadas
En este primer grupo se incluyen factores de calidad que dependen
de la selección de fuentes que se vacían en un sistema
de información. Se valora a través de ellos el grado
de adecuación de una base de datos para atender unas necesidades
de información concretas, de modo que un producto de información
puede ser de alta calidad para un grupo de usuarios, y no serlo
en absoluto para otro.
· Grado de cobertura temática o alcance: Es la proporción
de información existente sobre una materia, publicada dentro
de un período de tiempo concreto, que está incluida
en la base de datos. Los usuarios se dirigirán preferentemente
a la base de datos considerada como principal en su área
temática, pero es importante valorar el grado de cobertura
de esta misma área en bases de datos especializadas en otros
campos afines, así como en las generales o multidisciplinares.
Por lo tanto, mide la calidad desde el punto de vista de su validez
para los usuarios de una materia concreta. Así, una base
de datos puede tener una alta cobertura o interés para la
Ecología y no tenerla para el Urbanismo. Normalmente resulta
más sencillo valorar este indicador según la proporción
de revistas que pueden considerarse de interés para un área
temática que se hayan efectivamente recogidas en un sistema
de información. En este caso, es necesario comprobar la presencia
o ausencia de lagunas en el vaciado de las fuentes (años
o artículos que quedaron sin vaciar, retrasos...) para considerar
como realmente cubierta cada publicación periódica.
· Grado de especialización temática: carácter
multidisciplinar o no de una base de datos. Aquí nos situamos
en otro punto de vista. No se propone medir la calidad por el número
de fuentes específicas seleccionadas que son de interés
para un área, sino por la presencia o no de otras materias
o el grado de exclusividad o importancia que el área de nuestro
interés tiene dentro de una base de datos. En los sistemas
de información altamente especializados, podemos esperar
una mayor capacidad para realizar fácilmente búsquedas
limitadas a campos temáticos concretos, sin que los resultados
sean distorsionados por la presencia de registros sin interés,
relativos a otras materias colaterales. Es decir que si lo que busco
son estudios médicos sobre el sida, sólo con poner
este término estoy seguro de no encontrar estudios de carácter
sociológico o una reseña de la película "Philadelphiá".
Además. se espera una mayor precisión y especificidad
en el vocabulario de indización utilizado. Por el contrario,
en una base de datos multidisciplinar puedo esperar una mayor capacidad
para las búsquedas exhaustivas, pero tendré que comprobar
si el sistema me permite limitar fácilmente la interrogación
por áreas temáticas y si cuenta o no con un vocabulario
de indización suficientemente desarrollado y no genérico.
· Calidad y accesibilidad de los documentos originales. Es
otro factor de interés que el usuario debe conocer a priori
para decidirse a consultar o no un sistema de información:
tipología de fuentes analizadas, criterios de selección,
facilidad para la localización física de los documentos
originales. Es importante medir la calidad de estas fuentes en relación
con su accesibilidad. Por ejemplo, las tesis son documentos en los
que se presupone un alto nivel de calidad, pero es de gran interés
para el usuario conocer si puede solicitar la microficha del original,
o limitar su búsqueda a aquellas tesis en las que el productor
de la base de datos se compromete a suministrar el documento primario.
2.2 Indicadores que dependen de la actualización
y presentación de los datos
Se trata de factores asimismo relacionados con las fuentes vaciadas,
pero no por su valor intrínseco sino por la capacidad de
los servicios de producción de bases de datos para proceder
a su análisis.
· Grado de actualización: presencia y proporción
de la información más moderna dentro del conjunto
de registros consultables en la base de datos. Se comprueba la presencia
o no de referencias del último año, y la proporción
de registros ya presentes en el sistema de información, respecto
a los previsibles (por comparación con otros años)
· Nivel de crecimiento: número de registros nuevos
por año. El nivel de crecimiento anual debe ser igual o mayor
al número de registros anuales que teóricamente se
producen en las fuentes que el servicio recoge. Sólo si es
mayor nos indica la capacidad del sistema para mantener su grado
de actualización o recuperar posibles lagunas.
· Fiabilidad y precisión de los datos: presencia y
proporción de datos incompletos o erróneos en un conjunto
de documentos. Los errores tipográficos pueden ser aparentemente
intrascendentes. pero pueden impedir la recuperación, al
igual que la falta de precisión en los datos dificultará
la localización del documento primario. La presencia de registros
duplicados en una misma base de datos también repercute negativamente
sobre su calidad. Debe medirse el grado de permanencia de los errores
en el sistema (es decir su antigüedad). Estos datos están
muy relacionados con la fiabilidad que podemos otorgar al centro
productor: si cuenta o no con suficiente personal especializado
y con experiencia, si realiza o no correcciones sistemáticas.
2.3 Indicadores que dependen del diseño
de la base de datos y criterios aplicados en el análisis
documental
Hay una gran variedad de estructuras de bases de datos y modelos
de análisis documental. Ambos aspectos deben definirse en
función de la mejora de las posibilidades de recuperación
que ofrecen (10):
· Capacidad para realizar búsquedas exhaustivas. El
diseño de campos en las bases de datos debe facilitar la
realización de búsquedas exhaustivas sin que signifique
una gran pérdida de pertinencia. Para conceptos genéricos
es fundamental la existencia de una buena clasificación jerárquica,
que sea conocida o fácil de consultar. Cuando se trata de
conceptos específicos es muy importante la existencia de
suficientes y diferentes puntos de acceso a cada registro para una
búsqueda en texto libre (muy elevado cuando hay texto completo,
también alto cuando cuenta con resumen). Esta riqueza de
puntos de acceso es tanto mas efectiva cuanto menor es la sobreindización
(redundancia o repetición de las mismas entradas entre distintos
índices de campo, por ejemplo entre palabras de título
y descriptores). Una indización inteligente ha de reflejar
tanto la información explícita contenida en el título
de un documento como la información implícita, es
decir, que siempre ha de aportar más puntos de acceso que
una indización automática simplemente mecánica.
· Capacidad para realizar búsquedas precisas. La estructura
de campos de una base de datos debe facilitar también instrumentos
que garanticen al máximo la pertinencia de los registros,
así como recursos para limitar una búsqueda ya realizada.
Para ello es fundamental la posibilidad de consulta a través
de índices en campos de indización con lenguaje controlado.
Los listados de autoridad o tesauros deben ser consultables desde
el propio programa de interrogación de una base de datos.
Además, el nivel de profundidad de la indización ha
de ser suficientemente específico, para garantizar la capacidad
de discriminación de los descriptores. La cadena de términos
de indización que describen la temática de un documento
ha de permitir singularizar la mayor parte de los distintos registros
que responden a una búsqueda.
· Facilidad para juzgar la adecuación de los registros
a la búsqueda deseada. Una vez realizada una pregunta al
sistema, las referencias obtenidas deben ser suficientemente informativas
para que el usuario pueda seleccionar fácilmente aquellos
documentos que le interesa consultar y cuáles no. Para ello
es fundamental el diseño de formatos de visualización
que incluyan el resumen de los documentos. En ausencia de este recurso,
habrá que valorar la capacidad informativa de los términos
de indización empleados en la descripción del documento,
así como la existencia de otros recursos que permiten al
usuario valorar con rapidez si los registros son adecuados a sus
necesidades (notas, idioma, etc.).
· Esfuerzo requerido en la recuperación. La riqueza
de posibilidades de búsqueda de una base de datos no debe
entrar en contradicción con la facilidad para realizar consultas
"corrientes" sin necesidad de realizar un curso de formación
o tener que explorar un voluminoso manual. La información
contenida en la base de datos sobre un tema concreto ha de poder
recuperarse usando una estrategia de búsqueda "razonable".
Si existe un gran número de campos en su estructura ha de
haber suficientes prefijos que agrupen las opciones de búsqueda
más necesarias.
· Consistencia del análisis documental: grado de coherencia
en el tratamiento que reciben distintos documentos relativos a una
misma temática. Puede valorarse el grado de cumplimiento
de las normas de descripción o análisis formal para
documentos de una misma tipología. También ha de valorarse
la consistencia en la adjudicación de clasificaciones o de
términos de indización. Hay inconsistencias entre
distintos lenguajes documentales, pero también dentro de
un mismo sistema de información se producen inconsistencias
por cambios de criterio o de diseño de la base de datos a
lo largo de su crecimiento (8). La consistencia en la indización
puede medirse por la proporción de los descriptores coincidentes
en un conjunto de documentos de temática afín, y la
capacidad de los mismos para expresar dicha temática. Un
concepto o tema de búsqueda debe aparecer siempre expresado
de la misma forma en el sistema de información, con cl mismo
descriptor con la misma combinación de palabras clave. El
control del lenguaje documental ha de servir para garantizar al
usuario que si existe un término de indización que
define correctamente su demanda, no debe ser necesario ampliar la
estrategia de búsqueda para recuperar los documentos pertinentes
sobre dicho tema. El análisis de la consistencia es de gran
utilidad, no sólo para el control de calidad de las bases
de datos. sino también para la formación de indizadores
(6).
2.4 Indicadores que dependen de la forma
de acceso de los usuarios
Una misma base de datos puede ofrecer distintos modos de acceso
que no son incompatibles entre sí: distribución en
línea por el propio productor o a través de otra empresa,
pasarela Internet, edición electrónica en CD-ROM o
en disquetes, boletines impresos. Por tanto, la particularidad de
los indicadores de este grupo es que podemos tener que evaluarlos
varias veces para una misma base de datos. E1 modo de acceso tiene
una enorme incidencia en la opinión que tienen los usuarios
sobre el recurso que se les ofrece, pero como productores no debemos
considerarlo como el factor más relevante. Es preferible
buscar el software más adecuado a nuestras necesidades (aunque
suponga esperar mucho tiempo) que esclavizar nuestros criterios
de análisis documental a las características de nuestro
actual programa.
Los indicadores de este grupo son:
· Amigabilidad del lenguaje de recuperación: facilidad
para realizar consultas corrientes sin necesidad de hacer un curso
de formación de usuarios. Presentación agradable y
de uso intuitivo de las opciones más comunes de búsqueda.
Facilidad para diseñar distintos formatos de salida de los
resultados de la recuperación. Tiempos de respuesta aceptables
para estrategias de búsqueda que combinen distintos aspectos.
· Potencialidad del lenguaje de recuperación: operadores
booleanos y sintácticos, delimitación por campos,
combinación de conjuntos, repetición de estrategias
de búsqueda, enlaces hipertexto, búsqueda relacional
o en varias bases de datos a la vez y, en este caso, con eliminación
o no de duplicados Se ha de valorar la adecuación
de estas potencialidades a las características de nuestra
base de datos (por ejemplo: los operadores sintácticos son
más importantes en bases de datos con resúmenes o
de texto completo).
· Atención al usuario: servicio de mantenimiento,
cursos de formación, servicios de búsqueda delegada,
calidad y suficiencia de los manuales y ayudas. Estas deben ser
personalizadas, es decir que permitan llegar rápidamente
al lugar donde se encontrará la solución de una duda
concreta. Es muy importante la claridad, variedad y adecuación
de los ejemplos. Deben incluirse las orientaciones necesarias sobre
los criterios utilizados por el productor en el análisis
documental, el control de calidad, la selección de fuentes...
También debe pedirse al productor que informe al usuario
de las posibles irregularidades en la actualización: prioridades
en el vaciado de las fuentes, lagunas existentes... Es interesante
que existan mecanismos ágiles (como el correo electrónico)
para que los posibles errores detectados por los usuarios lleguen
a los productores.
· Calidad de las salidas: posibilidad de seleccionar diferentes
formatos para la visualización de los resultados de la recuperación
y obtenerlos por diferentes vías: papel, disquete, correo
electrónico; posibilidad de diseñar formatos de salida
personalizados.
· Accesibilidad, tanto para iniciar una consulta como para
llegar a la información una vez dentro de una base de datos.
En el caso del acceso en línea pueden valorarse los requerimientos
informáticos (también importantes para la edición
en CD?ROM). la necesidad y rapidez de la contratación previa
del servicio, sus costes. Una vez realizada la conexión,
hay que evaluar las facilidades para la consulta de la información:
grado de difusión o integración del software de recuperación,
claridad de la estructura de campos (similitud con otras base de
datos). grado de universalidad de la clasificación empleada,
posibilidad de consulta por índices en campos clave (autores,
descriptores), búsqueda automática a través
del tesauro, existencia de reenvíos entre términos
equivalentes.
2.5 Indicadores de calidad de bases de
datos en una búsqueda concreta
La evaluación de las respuestas obtenidas en el uso cotidiano
de una base de datos es la prueba empírica diaria de su calidad.
En gran parte, los errores pueden ser achacables a la falta de pericia
de algunos usuarios, pero cl sistema debe guiar y facilitar suficientemente
el camino para estar libre de responsabilidad. En una búsqueda
concreta podemos evaluar:
· Tasa de pertinencia. precisión o relevancia: proporción
de documentos juzgados por el usuario como relevantes entre los
obtenidos en una búsqueda. Su contrario es la tasa de ruido
(documentos no relevantes y sí recuperados en una búsqueda).
· Tasa de acierto, de respuesta n de exhaustividad: proporción
de documentos relevantes seleccionados respecto al total de documentos
pertinentes existentes en el sistema de información. Su contrario
es la tasa de silencio (documentos relevantes no recuperados en
una búsqueda).
· Tasa de actualización: proporción de rtems
recuperados que resultan novedosos para el usuario.
3 Métodos de análisis de
calidad. Ejemplos concretos
Otro aspecto de gran interés en el proceso de evaluación
es el establecimiento de sistemas de recogida de datos. Los criterios
e indicadores de calidad sólo resultarán de utilidad
si pueden ser medibles a través de métodos de fácil
ejecución. Estos pueden ser muy variados:
- Recuentos estadísticos, por ejemplo del grado de actualización
general de la base de datos, ritmo de crecimiento, evolución
del número de registros según diversos aspectos. Podernos
obtener una visión inicial del estado general de una base
de datos.
- Repetición de una misma estrategia de búsqueda a
intervalos regulares de tiempo. a fin de detectar el número
de ítems no recuperados por culpa de retrasos en el procesamiento
de la información, o la existencia de correcciones relevantes.
Es un acercamiento a la tasa de actualización.
- Tests de suciedad (11): búsqueda de erratas tipográficas
sobre una tabla predeterminada de 10 términos con cierta
frecuencia de error en el idioma de la base de datos.
- Comparación de los resultados de una búsqueda con
la respuesta obtenida por otros sistemas de información (bases
de datos. bibliografías impresas, revisiones bibliográficas
o citas incluidas en artículos concretos). Sirve en primer
lugar para analizar el grado de cobertura temática de nuestra
base de datos: principales lagunas que un sistema no cubre y que
sí es recogido por otros (tipos de documentos, títulos
de revistas no detectadas, etc.). En segundo lugar. sirve para detectar
errores en el análisis documental: registros que están
físicamente en tina base de datos pero que no tienen asignado
el descriptor pertinente por el que se realizó la búsqueda.
Al ser un método comparativo, pone de relieve la existencia
de criterios diferentes entre los distintos sistemas de información,
tanto en la selección de fuentes como en los criterios aplicados
en el análisis documental.
- Comparación de los resultados de una búsqueda obtenida
mediante una estrategia precisa (descriptores) con la conseguida
con una estrategia exhaustiva (título, resumen, texto completo)
en la misma base de dalos. Este método se basa en el dilema
al que nos enfrentamos en todas las búsquedas bibliográficas:
si aplico tina estrategia precisa corro el riesgo de perder referencias
válidas (silencio), mientras que si opto por la exhaustividad
me veré obligado a visualizar y depurar un cierto número
de registros no pertinentes (ruido). Aquí es importante fijarse
en los datos absolutos y no sólo en los relativos: es un
grave trastorno para el usuario un 50%, de ruido en una búsqueda
en la que obtenemos mil referencias, por el trabajo que supone la
selección de los más adecuados, y es prácticamente
intrascendente si este mismo 50% se obtiene en un conjunto de sólo
dos registros. Un sistema de información debe tender a la
reducción del ruido especialmente en los aspectos donde esto
suponga un trastorno grave para el usuario. Este tnétodo
nos permite detectar errores en la indización, medir la consistencia
y resaltar los puntos débiles del lenguaje de indización.
- Estudio de simulación: selección de un conjunto
de documentos que serán indizados con distintos sistemas,
a fin de poder valorar las posibilidades o problemas que se generan
en la recuperación.
Puede aplicarse para comparar ventajas e inconvenientes de la indización
con distintos niveles de profundidad, o la viabilidad de un sistema
de indización automática frente a la humana. Igualmente
puede realizarse una simulación entre distintos indizadores
a fin de detectar y valorar las inconsistencias.
- Recogida de juicios de los usuarios sobre las referencias que
reciben en un perfil o servicio de difusión selectiva de
información. Puede aprovecharse un servicio ya existente
que realice el centro de información o bien efectuar ex profeso
un envío extraordinario de referencias bibliográficas
a usuarios potenciales (como parte de las actividades de marketing
de la base de datos).
- Prueba de verificación de referencias conocidas: se selecciona
al azar una fuente para proceder a la comprobación de los
datos de la referencia bibliográfica, clasificación,
términos de indización asignados, cte.
- Pruebas de consistencia entre la información existente
en diversos campos. Puede realizarse de forma automática
la comprobación de la presencia de datos incompatibles entre
sí. Por ejemplo: si nuestras normas de indización
nos obligan a traducir el título de los documentos que no
estén castellano, previéndose para ello dos campos
diferenciados (título original y traducido), en cada registro
donde el campo idioma marque cualquier valor distinto de `españoF
deben contener información ambos campos. De igual forma,
puede realizarse una comparación entre la clasificación
y los términos de indización asignados a cada referencia
a fin de detectar posibles errores. Este tipo de comprobaciones
ha de estar facilitado por el diseño de campos de la base
de datos, ya que puede ser interesante crear campos previstos específicamente
para estas actividades de control.
- Registro o seguimiento completo de las consultas recibidas: finalidad,
temática, estrategia utilizada, resultados, valoración
del usuario. Se pueden establecer sistemas de control que consistan
en la selección aleatoria de algunas de estas consultas y
la comparación de los resultados que obtuvo el usuario con
los obtenidos posteriormente en una búsqueda paralela por
una segunda persona. A través de este procedimiento podemos
descubrir sobre todo las necesidades de comunicación y ayuda
al usuario. En cada búsqueda se valorarán las tasas
de exhaustividad y pertinencia, con objeto de detectar los factores
que influyen sobre las probabilidades de éxito (tipo de usuario,
tipo de indización, conocimiento del sistema, estrategias
de menor riesgo, cte.). Si el número de búsquedas
es elevado se analizará una selección promediada según
tipo de usuarios, áreas temáticas u otras variables.
- Cuadernos de quejas. Consiste en proporcionar a los usuarios un
instrumento donde expresar todas sus críticas al sistema.
Ya que nuestro objetivo final es reducir al máximo la existencia
de errores es importante analizar las causas de cualquier fallo:
documentos implicados, estrategias de búsqueda, interacción
con el usuario, indización incorrecta o incompleta, cte.
- Prueba de documento fuente. Se convierte el título de un
registro concreto en una búsqueda artificial en el sistema
de información. Si un autor escribe sobre una combinación
concreta de temas, ésta es al mismo tiempo una hipotética
necesidad de información. A través de ella se mide
la capacidad de nuestro lenguaje de indización para definir
un tema con una estrategia de búsqueda razonablemente sencilla.
- Encuesta a los propios autores de los documentos originales solicitándoles
su opinión sobre el análisis documental aplicado en
los registros correspondientes a sus artículos en la base
de datos (13). Sirve para detectar errores de indización
o lagunas en los lenguajes documentales (clasificación, descriptores).
- Test de cobertura de las fuentes. Se selecciona de forma aleatoria
un conjunto de revistas para revisar la consistencia en su vaciado:
detección de lagunas, comparación de número
de registros asignados a una fuente por año entre distintas
bases de datos que la cubran.
- Estudio de la consistencia en la indización. Puede realizarse
la comparación entre distintos sistemas, analizando el tratamiento
que recibe un mismo conjunto de documentos. También puede
evaluarse la consistencia interna de una misma base de datos realizando
un seguimiento del análisis documental dado a un tema o materia
concreta.
4 Relación entre calidad y diseño
de bases de datos. El ejemplo de la base de datos ISOC
La base de datos ISOC. gestionada por el CINDOC, se ha desarrollado
y evolucionado a lo largo de más de veinte años procediendo
al vaciado y análisis de la literatura científica
española en Ciencias Sociales y Humanidades. Durante este
tiempo se han ido tomando muchas decisiones con el propósito
de conseguir su optimización y que pueden servir de ejemplo
para mostrar la problemática y complejidad de la calidad
en bases de datos bibliográficas. Este artículo se
centrará en las decisiones que afectan al diseño y
estructura de la base de datos, prescindiendo de cualquier análisis
de los distintos softwares por los que puede accederse a este recurso
de información (cd?knosys para el CD?ROM, basis plus para
el acceso en línea).
La gestión de calidad en una base de datos bibliográfica
de gran tamaño y de carácter multidisciplinar es un
gran reto. El camino hacia una auténtica gestión de
calidad está apenas iniciado: nos quedan aún muchas
tareas pendientes. Quizás algunos de los criterios adoptados
en este camino no sean los más idóneos, ya que es
muy necesario guardar un difícil equilibrio en la toma de
decisiones.
A continuación se analizan las características más
importantes que afectan a la calidad de esta base de datos, con
sus ventajas e inconvenientes:
4.1 Una base de datos de bases de datos:
cl difícil equilibrio entre multidisciplinariedad y especificidad
Se ha intentado hacer compatibles la ventaja que supone ser una
base de datos multidisciplinar con el tratamiento específico
de cada una de las materias. En consecuencia, se trata de una base
compuesta de distintas sub-bases especializadas y con un tratamiento
específico, que comparten un mismo fichero. La base de datos
ISOC cubre las áreas de Antropología, Arqueología.
Bellas Artes. Ciencias de la Educación, Ciencias Históricas,
Ciencias Jurídicas, Ciencias Políticas, Documentación
Científica, Economía, Filosofía, Geografía,
Lingúística, Literatura. Psicología, Sociología
y Urbanismo. El usuario puede elegir entre la consulta individualizada
de cada uno de estos sub-ficheros o la consulta global en todos
ellos. Dada la gran dispersión y difícil control de
la literatura científica española publicada en revistas,
este carácter multidisciplinar nos permite aumentar considerablemente
la calidad de cada sub?base en este aspecto concreto (cobertura).
Sin embargo, las bases de datos multidisciplinares suelen aplicar
un modelo de indización en el que predominan los términos
genéricos, resultando a menudo insuficientes para resolver
determinadas necesidades de información. En la base de datos
ISOC se ha apostado decididamente por el tratamiento especifico
de cada materia, intentando aprovechar las ventajas a un tiempo
de ambos sistemas.
4.2 Indización con lenguaje controlado:
construcción de tesauros
Se ha apostado decididamente por el control del vocabulario en la
indización. El CINDOC ha publicado ya varios tesauros especializados
producto del trabajo de la base de datos ISOC (Urbanismo, Economía,
Psicología). No es una decisión libre de riesgos:
al no poder avanzar al mismo ritmo en la construcción de
todos estos léxicos no se pueden aprovechar todas las ventajas
del lenguaje controlado, sobre todo en la interrogación conjunta
de la base de datos completa. Es un reto aún pendiente dar
término a todos los tesauros iniciados, lograr una plena
consistencia entre los mismos y darles una mayor visibilidad para
su aprovechamiento pleno en la recuperación de información.
4.3 Un diseño enriquecido de los
campos de indización
En su inicio, la base de datos ISOC contaba con un sólo campo
para reflejar los términos de indización o palabras-clave.
Posteriormente se dividió el número de campos destinados
a este fin, con el objetivo de facilitar el control de vocabulario
y mejorar la pertinencia en la recuperación. El actual diseño
de la base de datos incluye los siguiente campos: descriptores principales,
descriptores secundarios, descriptores candidatos, identificadores,
topónimos, legislación y jurisprudencia.
Este diseño contribuye claramente a aumentar la precisión
en las búsquedas, eliminando muchas ambigüedades en
el alcance de los términos de indización. E1 usuario
podrá consultar estos campos de forma individualizada, pero
también de forma conjunta. El inconveniente es que resulta
un diseño complejo para el primer contacto con esta base
de datos que no siempre es comprendido de forma intuitiva. También
el indizador encuentra algún inconveniente: se beneficia
claramente de mejores condiciones para el control terminológico,
pero todas las actividades relacionadas con este control no resultan
fáciles. Ni siquiera es siempre claro en qué campo
deben ubicarse algunos términos de indización.
4.4 Utilización de clasificaciones
de elaboración propia
En el diseño de campos destinados a reflejar el análisis
documental del contenido de los documentos es de gran importancia
la clasificación. Este elemento debe resolver las necesidades
de búsqueda de temas genéricos, siendo indispensable
para conseguir la máxima pertinencia en este tipo de preguntas.
También nos permite la presentación ordenada por materias
de los registros o la realización de estudios bibliométricos.
Para que su utilidad sea mayor, precisamos una tabla de clasificaciones
que se adapte a la evolución continua del conocimiento científico
y que podamos ir cambiando progresivamente, de acuerdo con las necesidades
de información.
Por ello se desechó la adopción de una clasificación
universal. Sin embargo, el mayor inconveniente de optar por tablas
clasificatorias de construcción propia es su falta de visibilidad
para el usuario, dificultada aun más en nuestro caso por
la diversidad de materias, con muchos aspectos interdisciplinares.
4.5 Inclusión de resúmenes
de autor
Después de la clasificación y la indización,
el resumen es la tercera operación del análisis documental
que un sistema de información puede incorporar. Pero también
es un vehículo de comunicación científica que
debe acompañar a las propias publicaciones primarias. Cuando
diseñamos una base de datos referencial podremos optar, por
tanto, por incorporar o no este campo, y. en su caso, incluir los
resúmenes de autor o bien realizar los resúmenes por
personal especializado de nuestro propio centro. Esta última
opción parece la más recomendable para sistemas de
información que carecen de dcscriptores o palabras clave,
en los que el resumen represente el principal campo de interrogación.
En una base de datos alimentada por resúmenes de autor encontraremos
una excesiva dispersión terminológica, disparidad
de criterios e inconsistencias en su grado de profundidad. Por el
contrario, cuando se trata de un campo complementario de los descriptores,
se convierte en un recurso que enriquece notablemente las bases
de datos, con un coste mínimo de tiempo.
En la filosofía de las bases de datos ISOC, los descriptores
deben resolver la mayor parte de las necesidades de información,
y son el campo de interrogación fundamental. Los registros
se completan con la inclusión de los resúmenes que
se publican en los propios documentos originales analizados. Esto
permite, en primer lugar, aumentar los puntos de acceso y las posibilidades
de recuperación de conceptos muy específicos, neologismos
y aspectos metodológicos que frecuentemente pueden no quedar
recogidos en la indización. En segundo lugar, el resumen,
gracias a su mayor capacidad informativa, permite al usuario juzgar
con más criterio la adecuación entre las referencias
obtenidas y sus necesidades. La cadena de deseriptores sólo
puede orientarnos sobre los temas tratados por un artículo;
el resumen debe transmitir además lo que se dice sobre dicho
tema: conclusiones, datos, tesis defendidas por el autor. La indización
pretende tan sólo extraer los conceptos tratados de forma
suficientemente pertinente en los documentos y que puedan ser objeto
de búsqueda, nunca puede suplir al resumen como texto compuesto
para informar, para ser leído. Y viceversa, el resumen no
puede competir con los términos de indización como
recurso para la recuperación pertinente de información.
Por ello, las bases de datos se enriquecen notablemente cuando cuentan
con ambos campos.
Sin embargo, las publicaciones científicas españolas
en Ciencias Sociales y Humanas carecen aún en muchos casos
de resúmenes de autor. Sería necesario un gran esfuerzo
colectivo para mejorar su adecuación a las normas internacionales,
tanto en éste como en otros aspectos.
4.6 Un sistema de trabajo que garantice
la máxima actualización y control de errores
Las bases de datos son productos vivos que exigen un esfuerzo continuo
para poder mantener su plena actualización, al mismo tiempo
que su salud (depuración de errores). Es fundamental adecuar
los sistemas de trabajo a la capacidad del personal con que se cuenta
y, al mismo tiempo. garantizar en lo posible la máxima limpieza.
Sin embargo, todos los errores no tienen la misma trascendencia.
Debemos centrarnos en intentar prevenir y evitar los errores que
no nos podemos permitir: relaciones erróneas entre los artículos
y las fuentes donde se encuentran, presencia de duplicados y lagunas
no deseadas en el vaciado de las fuentes, etc.; en definitiva, un
sistema de trabajo que asegure el control del mismo.
Algunas de las decisiones tomadas en el curso de estos más
de veinte años de evolución de las bases de datos
1SOC nos han obligado a realizar algunas correcciones retrospectivas.
Echar la vista atrás parece incompatible con la necesidad
de conseguir la plena actualización, pero resulta imprescindible
para la gestión de un único sistema de información
con unos mínimos de consistencia interna.
Para facilitar la puesta al día de las bases y al mismo tiempo
mejorar los instrumentos de control se ha puesto en práctica
un nuevo sistema de trabajo que divide la grabación de los
registros en dos fases: una grabación inicial de los datos
fundamentales (autor, título, fuente, resumen, clasificación
genérica) y una posterior en la que los documentalistas incorporan
los términos de indización pertinentes a cada registro.
En consecuencia, puede haber coyunturalmente registros incompletos
en la base de datos. Lo ideal sería que todos los registros
se incorporasen de forma completa y rápida. Sin embargo,
la falta de personal y la necesidad de dividir el trabajo por especialidades
temáticas (lo que obliga a que algunas revistas multidisciplinares
tengan que pasar por varias manos), provocaba lagunas y dificultades
para controlar el estado real del trabajo pendiente. La grabación
previa de los sumarios de las revistas permite que muchos registros,
que de otra manera estarían ausentes de la base de datos,
puedan ser localizados en las búsquedas bibliográficas
al menos a través de las palabras del tíhilo y del
resumen.
5 Conclusiones
El control de calidad ha de estar integrado en la metodología
de trabajo de los productores de bases de datos. La evaluación
es de gran utilidad para dar un sentido global a las distintas tareas
o servicios implicados en un sistema de información. El trabajo
del indizador no debe realizarse de espaldas a los servicios de
atención al público sino que ha de retroalimentarse
a partir del uso real que reciben los productos de información.
Nunca se debe evaluar con el objetivo de presentar un informe que
resalte lo bien que está funcionando un producto de información,
sino que ha de centrarse en los aspectos que precisan de mejora.
Pero la toma de decisiones ha de estar siempre equilibrada. Por
ejemplo: si se potencia la pertinencia se corre el riesgo de perder
exhaustividad, y viceversa. Tampoco todos los problemas tienen la
misma relevancia; especialmente hay que evitar y prevenir los "errores
que no nos podemos permitir" (no las anécdotas). Los
errores de omisión son más difíciles de comprobar
pero pueden ser más graves que los errores de hecho.
Para una correcta toma de decisiones en la gestión. el productor
precisa un claro conocimiento de la situación real en que
se encuentra la base de datos: niveles de uso, rendimiento, problemas
principales o puntos débiles del sistema. Pero como instrumento
de mejora continua, la evaluación ha de conducir a la realización
de propuestas concretas de cambio. Estas mejoras pueden afectar
a distintos aspectos de la gestión y mantenimiento de una
base de datos:
1. Cambios en el software documental. Si es posible se aplicarán
de forma inmediata. Si no, el planteamiento a más largo plazo
es también de gran interés. No conviene nunca tomar
decisiones en los criterios de análisis documental basándose
en lo que no permite el software de gestión documental. Habrá
que adecuar los programas a las necesidades y no al revés.
Los administradores de la bases de datos deben establecer con claridad
sus necesidades y prioridades para el momento en el que se plantee
una migración a un nuevo programa de gestión.
2. Adecuación de los manuales o ayudas en línea que
se ofrecen al usuario. Muchos problemas detectados en la interrogación
a las bases de datos tienen fácil solución con una
mejor información al usuario. Hay que ofrecer todas las aclaraciones
que sean necesarias sin que los manuales se conviertan en una acumulación
de justificaciones.
3. Rediseño de la estructura de campos de la base de datos.
Puede ser conveniente la creación de nuevos campos, bien
por separación de otros existentes en el diseño inicial,
para garantizar una mayor precisión en la descripción
catalográfica (responsabilidad principal y secundaria), mayor
pertinencia en la recuperación (descriptores principales
y secundarios) o un mejor control del vocabulario de indización
(descriptores y palabras candidatas, identificadores, topónimos).
o bien por el proceso inverso, la agrupación de varios campos
en uno sólo para dar mayor coherencia o simplificar tanto
el análisis como la búsqueda.
4. Revisión de los criterios aplicados en el análisis
documental. Para una mayor consistencia, todos los criterios deben
ser revisados y consensuados, desde el número máximo
de epígrafes clasificatorios que pueden asignarse a los documentos
hasta el nivel de especificidad de la indización o la forma
correcta de los términos del tesauro.
5. Cambios en los métodos de trabajo (13). Algunos errores
que provocan disfunciones en los sistemas de información,
como la existencia de duplicaciones y lagunas, deben solucionarse
desde la reorganización de las distintas tareas implicadas
en el proceso de mantenimiento de una base de datos.
En cualquier caso, las actividades de evaluación no dejan
de ser de utilidad aunque no conduzcan de forma inmediata a la toma
de decisiones. Siempre es útil la reflexión sobre
el propio trabajo de forma que se pongan sobre la mesa los puntos
que precisan una mayor atención o las causas de las pequeñas
insatisfacciones tanto de los usuarios como del personal de un centro.
6 Bibliografía
1. D'ALOS MONER. A.; CORNELLA, A. Calidad total en los Centros de
Documentación, Servicios de Información y Bibliotecas.
En: Los profesionales ante el reto del siglo XXI: integración
y calidad. 4.as Jornadas Españolas de Documentación
Automatizada, 1994, Gijón, p. 287-293.
2. ORTEGO DE LORENZO-CACERES, M. P.; BONAL ZAZO, J. L. Indicadores
para el control de calidad de bases de datos bibliográficas
españolas. En: Sistemas de información: balance de
12 años de Jornadas y perspectivas de futuro. 5.as Jornadas
Españolas de Documentación Automatizada, 1996. Cáceres,
p. 503-512.
3. LLORET ROMERO. N.; LATORRE ZACARES. J. Análisis sobre
las necesidades de implantación de un sistema de calidad
en un Centro de Documentación. Apuntes para una guía.
Madrid: CINDOC, 1995.
4. MEDAWAR, K. Database Quality: a literature review of the past
and a plan for the future. Program 1995, vol. 29, n.° 3, p.
257-272.
5. BASCH, R. Measuring the quality of the data. report en the fourth
annual SCOUG retreat Database Searcher 1990, octubre.
6. LANCASTER, F. W. Indexing and abstracting in theory anal practice.
London: The Library Association, 1991.
7. ARMSTRONG, C. CIQM: Report on Database Quality. Database, 1994,
vol. 17, n.° 6, p. 45-48.
8. EUSIDIC. The impact qf Quality Management on The Information
Sector, 1994.
9. HARRY, V.; OPPENHEIM, C. Evaluations of electronic databases.
Online & CDROM Review, 1993, vol. 17. n.° 4, p. 211-222,
y n.° 6, p. 339-351.
10. PALMA VILLALON, M. V. Técnicas y métodos para
mejorar la calidad de la indización y su recuperación
en bases de datos documentales de Ciencias Sociales y Humanidades.
En: V Jornades Catalanes de Documentació, 1995, Barcelona,
p. 223-239.
11. CAHN, P. Testing Database Quality. Database, 1994, vol. 17,
n.° 1, p. 23-30.
12. BRAAM, R. R.; BRUIL, J. Quality of indexing information: authors'
views on indexing of their articles in Chemical Abstracts online
CA-file. Journal qf lnfórmation Science, 1992, vol. 18, n.°
5, p. 399-408.
13. BUSTELO, C. El replanteamiento de los métodos de trabajo
en la aplicación de nuevas herramientas de tratamiento de
la información. En: Sistemas de información: balance
de 12 años de Jornadas y perspectivas de futuro. 5.as
Jornadas Españolas de Documentación Automatizada,
1996, Cáceres, p. 639-644.
|