Experimentando con los datos

Un experimento en la exploración documental

He aquí lo que señalan sus creadores:

El Stanford Dissertation Browser es una interfaz experimental para las colecciones documentales que permite una mayor interacción en las búsquedas. Los resúmenes de las tesis de doctorado de Stanford (1993-2008) se presentan a través de la lente de un modelo de texto que muestra afinidades y  emplea patrones de uso de términos. Cada departamento de Stanford se ve como un círculo, coloreado por departamentos o centros y dimensionado según el número de estudiantes de doctorado graduados en cada uno.

Probar la interfaz

Al hacer clic en un departamento, el navegador lo focaliza, moviendo todos los otros departamentos para mostrar su afinidad en relación con el departamento seleccionado. La afinidad en los resultados se calcula  mediante un modelo de supervisión  mixta basado en la etiqueta LDA: cada disertación se toma como una mezcla ponderada del modelo de lenguaje asociado a cada departamento de Stanford. Esto nos permite inferir que, por ejemplo, la tesis X es en un 60% de ciencias de la computación,  un 20% de física, y así sucesivamente. Estos porcentajes se promedian dentro de un departamento para calcular el nivel del departamento en las estadísticas (muestran las afinidades), y no necesita ser simétrico. Por ejemplo, las tesis de economía en Stanford usan más términos de  Ciencia Política que a la inversa. Esencialmente, la visualización muestra palabras que se superponen entre los departamentos, lo cual se mide según los términos que la tesis de un departamento tomé prestados de otro. ¿Qué departamentos los toman prestados y de dónde? Las estadísticas se calculan anualmente.

Cuando se amplían en dos niveles (al hacer doble clic en un departamento), la tesis individuales se representan con una línea que señala la relación entre el departamento de origen de cada tesis y su departamento inmediatamente superior en puntuación, en proporción a la cantidad de palabras que la tesis usa de cada uno de esos dos departamentos. La posición relativa de dos tesis sólo es significativa cuando están en la misma línea radial. También se muestran, coloreadas, las tesis de otros departamentos que tienen una puntuación más alta para el departamento seleccionado. Por ejemplo, echemos un vistazo a Ciencias de la Computación en 2005. Veremos tres tesis a lo largo de la línea radial que señalan a la lingüística -son los tres estudiantes que se graduaron del grupo de Stanford PNL ese año. Hay un montón de otros lugares donde encontrar cosas similares, y algunos lugares que no. En particular, los departamentos pequeños tienen menos datos y así son más susceptibles al ruido.

Nuestra experiencia en la construcción este navegador subraya las formas en que las buenas visualizaciones interactivas pueden mejorar la modelización de texto, y viceversa. Por ejemplo, la visualización nos permitió experimentar con muchas variaciones del modelo (LDA, tf-idf, etc) para ver lo bien que cada uno se emparejabas con nuestras intuiciones, así como en qué medida los contornos de los modelos eran fieles a nuestras elecciones sobre la presentación. El modelo y la visualización se han perfeccionado, pero ambos dejan mucho margen de mejora.

El navegador está construido usando la Flare Visualization Library de Flash. Si no se ve adecuadamente,  hay que instalar Adobe Flash Player .

Anuncios