El Archivo de Babel: cómo encontrar los documentos

En The Chronicle, Jennifer Howard nos informa de un nuevo proyecto, la construcción de un “hub” en línea para los materiales de archivo. Esto dice:

En la muerte, como en la vida, la gente no siempre deja sus papeles en orden. Cartas, manuscritos y otras piezas testimoniales terminan dispersos entre diferentes archivos, haciendo que los investigadores vayan a la búsqueda de esos papeles  intentando conseguir lo que necesitan para su trabajo.

“Puede ser muy frustrante, especialmente cuando uno se traslada  a un archivo y luego descubre que el documento que realmente quería debe estar en otra parte (o, Dios no lo quiera, pudriéndose en un vertedero)”, dice Robert Townsend, director adjunto de la American Historical Association en una entrevista por correo electrónico. Perseguir registros históricos diseminados es tan común que “si un historiador no ha sufrido ese problema es que no ha trabajado duro”, señaló.

Internet ha hecho más fácil la caza, a medida que más archivos oftrecen  ayudas para la búsqueda en sus colecciones en línea. “Los investigadores han conseguido al menos poder buscar en internet estos materiales”, dice Daniel V. Pitti,  director asociado del Institute for Advanced Technology in the Humanities (IATH), de la Universidad de Virginia. Pero lo que él llama “cazar y recoletar” persiste para los buscadores de documentos, que ” a priori, tienen que tener alguna idea, alguna corazonada de a dónde ir, porque los sistemas de acceso son distintos y no están integrados de ninguna manera. ”

Ahora imaginemos un centro de información para esos registros, un nodo (hub) en línea que los investigadores puedan consultar para encontrar los materiales de archivo.

Esta visión impulsa un proyecto de Pitti llamado Social Networks and Archival Context Project (SNAC). Es una colaboración entre investigadores y desarrolladores en el IATH, la School of Information de la Universidad de California en Berkeley y la California Digital Library. El proyecto acaba de terminar su etapa piloto con la ayuda de una beca de la National Endowment for the Humanities. Otra subvención, de la Fundación Andrew W. Mellon, apoyará el proyecto durante otros dos años mientras se  añade varios millones de registros y comienzan las pruebas beta con los investigadores.

Algunas personas ya han visto el prototipo , que está en marcha pero aún no se promociona ampliamente. El sitio permite a los visitantes buscar por nombres de personas entidades corporativas o familias para encontrar “”archival context records”  sobre ellos.

“Así que si estoy interesado en una persona en particular”, indica Pitti,  “puedo encontrar dónde están todos los registros que se requerirían para entenderla”. Por ejemplo, una búsqueda para Robert Oppenheimer se convierte en un enlace a una colección de trabajos del físico en la Biblioteca del Congreso, además de enlaces a otras colecciones en las que se le menciona, una línea de tiempo biográfica y una lista de las ocupaciones y temas relacionados con su vida y su obra.

Un investigador puede explorar el entorno social y cultural de una persona con el gráfico radial, una función que ofrece el SNAC . Se crea una red, que pueden ser manipulada, de las conexiones de un sujeto tal como revelan los documentos de archivo. El gráfico radial de la red de Oppenheimer, por ejemplo, incluye a George Kennan, Linus Pauling, Bertrand Russell y Albert Schweitzer, entre muchos otros nombres representados como nodos en el gráfico.

[Este sería el resultado para el historiador Daniel J. Boorstin]

Todavía no ha sido completamente desarrollado, pero esa característica proporciona uno de los objetivos principales del proyecto: visualizar las redes sociales dentro de las cuales fueron creados los documentos de archivo. “Lo que estamos tratando de hacer es armar el rompecabezas, la trama de la vida de alguien, las personas que le influyeron y las personas en las que influyó”, afirma Pitti. “Se podría ciertamente reconstruir eso mismo en un contexto analógico,  pero tendrían que pasar años y años de trabajo. Lo que estamos demostrando es que podemos salir y reunir toda esa información y presentarla, lo que ahorraría trabajo a los académicos”. Conectar datos de archivo puede revelar patrones de asociación ocultos en colecciones diferentes.

Para que funcione bien, el SNAC requiere buenos datos. Su primera fase se basó en miles de instrumentos de descripción (finding aids) -codificados con un estándar conocido como Encoded Archival Description o EAD- de la Biblioteca del Congreso, el  Northwest Digital Archives, el Online Archive of California y el Virginia Heritage. Un nuevo estándar para la codificación de información de archivo, conocido como EAC-CPF, por Encoded Archival Context-Corporate Bodies, Persons, and Families, se aplicó después a los registros, haciéndolos más fáciles de encontrar y conectar.

Los archivos son idiosincrásicos, y no siempre es fácil saber si un nombre se refiere a un individuo en particular o a diferentes personas con nombres idénticos o similares. Uno de los principales colaboradores de Pitti es Ray R. Larson, profesor en la School of Information de la Universidad de California en Berkeley. Se dedica a lo que   Pitti llama “matching and merging”, algo necesario para aventar los nombres duplicados, buscar variantes del mismo nombre, y así sucesivamente. Para hacerlo, Larson ha probado varios métodos, incluyendo el aprendizaje de la máquina, en la que se programa una computadora para reconocer, por ejemplo, las variaciones comunes en el deletreo.

El trabajo será aún mucho más duro, porque el SNAC va a ser mucho más grande. Como parte de la segunda fase del proyecto, apoyado por la beca Mellon, 13 consorcios archivísticos estatales y regionales y más de 35 universidades  y repositorios nacionales de los Estados Unidos, Gran Bretaña y Francia contribuirán con sus registros. La British Library “me está dando 300.000 nombres relacionados con sus colecciones de manuscritos”, que se remontan a antes de la era cristiana, dice Pitti.

El proyecto también asumirá algo así como dos millones de registros bibliográficos normalizados, en el ampliamente utilizado formato MARC, de la OCLC (Online Computer Library Center), una colaboración en línea en la que las bibliotecas intercambian servicios bibliotecarios computarizados y de investigación. OCLC cuenta con su propia función centralizada de búsqueda de archivos, llamada ArchiveGrid, que Pitti describe como un complemento del SNAC. A diferencia del SNAC, sin embargo, “ArchiveGrid no resalta los datos biográficos e históricos, ni tampoco revela las redes sociales que interrelacionan los recursos de archivo”, dice.

Los investigadores quieren ser capaces de hacer esas conexiones, según Rachael Hu, directora de diseño (user-experience design manager) en la California Digital Library.  Hu es parte del equipo de construcción del prototipo del SNAC, basado en parte en el trabajo bibliotecario realizado en el Online Archive of California. “Una de las cosas que había oído de los usuarios era la necesidad de buscar y encontrar las colecciones relacionadas”, dice  Hu.

Están tratando de hacer eso con el SNAC. Una cosa que el nuevo estándar EAC-CPF  “hace muy bien es proporcionar conexiones a esa gran cantidad de material que hay ahí fuera”, dice ella. Si el SNAC puede demostrar a gran escala que el método funciona bien, la norma podría ser adoptada ampliamente por los archivos.

Un SNAC exitoso también podría convertirse en un pilar básico para una cooperativa nacional dedicada a velar por la autoridad de los documentos de archivo. A finales de mayo, Pitti y sus colaboradores se reunirán en los National Archives and Records Administration en Washington para hablar sobre eso. Se unirán a un grupo de bibliotecarios, académicos, patrocinadores y  representantes de organismos nacionales con competencias en documentos de archivo, incluyendo la Biblioteca del Congreso, la  Smithsonian Institution, el Institute of Museum and Library Services, la National Endowment for the Humanities, la National Science Foundation y el National Park Service. La reunión tratará de lograr un consenso sobre la idea de establecr una cooperativa para una “national archival authorities infrastructure”.

Incluso es posible imaginar que el resultado de este trabajo, dependiendo de la forma que tenga, podría un día ensamblarse con el proyecto de la Digital Public Library of America. Podría ser “algo natural”, dice Larson, de la Universidad de California-Berkeley. En estos días, las bibliotecas y los archivos “están viendo la ventaja de agrupar y compartir información en vez de hacer sus propias pequeñas cosas”.

Una respuesta a “El Archivo de Babel: cómo encontrar los documentos

  1. Entiendo que los historiadores y los investigadores en general conciban los archivos, sobre todo, como un pozo o base de datos donde encontrar la información que se busca. Pero, como archivero, echo de menos la inteligencia de los archivos como conjuntos documentales que, como tales, con su estructura e interrelaciones, también deben ser estudiados, comprendidos e interpretados. Historiadores y archiveros tenemos una asignatura conjunta pendiente. Nos suplantamos más que nos entendemos.

Los comentarios están cerrados.