Una nueva ciencia: culturomics o culturomía

En el mundo digital, uno de los lingüistas más reputados e interesantes es Geoffrey Nunberg. A finales de 2010 publicó un texto que conviene repasar: “Counting on Google Books“. Penetrante, como siempre, pero demasiado duro para mi gusto, diría que excesivo. Veamos lo que nos dice:

Puede que algún día los humanistas citen como punto de inflexión el texto que publicó el pasado miércoles la revista Science con el título de “Quantitative Analysis of Culture Using Millions of Digitized Books“. Pero aún han de pasar ciertas cosas antes de que podamos apreciarlo.

El artículo describe algunos ejemplos de análisis cuantitativo realizado a partir de lo que es el mayor corpus jamás visto en investigación en humanidades y ciencias sociales. Es decir, Google Libros, que contiene más de cinco millones de libros publicados entre 1800 y 2000 -en una estimación aproximada, un 4 por ciento de todos los libros jamás publicados, de los cuales dos tercios son en inglés y el resto está distribuido entre chino, francés, alemán, hebreo, ruso y español.  Solo el corpus inglés contiene unos 360 billones de palabras, un tamaño que permite un análisis a una escala imposible con colecciones como la del Corpus of Historical American English, de la Universidad Brigham Young, que llega tan sólo a 410 millones de palabras.

No todo el mundo encontrará estimulantes estas estadísticas. Son muchos los estudiosos que tienen reservas en cuanto al estudio de la literatura en bloc, conscientes de la advertencia de Séneca según la cual distrahit animum librorum multitudo, que viene a ser algo así como “andar entre muchos libros disipa el espíritu”. Y de ese modo se muestran escépticos ante la posibilidad de que los estudios literarios se conviertan en un problema de ingeniería.

El propósito del artículo de Science ahondará los reparos. Los autores del texto exponen que los datos cuantitativos recogidos en el corpus son los huesos con los que se pueden montar “el esqueleto de una nueva ciencia”. Llaman al nuevo campo “culturomics”, definiéndolo como “la aplicación de la recopilación de datos y el análisis de alto rendimiento para el estudio de la cultura humana”, que “extiende los límites de la investigación cuantitativa rigurosa a una amplia gama de nuevos fenómenos que abarcan las ciencias sociales y las humanidades”.

Eso es la culturomía con una o larga, con la implicación de que el objeto de estudio es la “culturome”, probablemente la masa de información estructurada que caracteriza a una cultura. El punto de comparación podrían ser los modelos biológicos evolutivos o simplemente la idea de que la cultura, como el genoma, pueden ser “partida” a través de un procesamiento distribuido masivamente (es decir, con “alto rendimiento”) .

La inspiración del texto de Science proviene de dos jóvenes investigadores de Harvard, Jean-Baptiste Michel y Erez Lieberman-Aiden, con experiencia en la genómica y las matemáticas. Y casi todos los restantes 12 autores del trabajo (11 personas además “del equipo de Google Libros”) son matemáticos, científicos o ingenieros, algunos de Google, y el resto de Harvard o del Instituto de Tecnología de Massachusetts. El hecho mismo de que el documento fuera presentado a  Science sugiere que los autores están más interesados en que les escuchen sus colegas científicos que en llegar a los académicos que serán los beneficiarios principales de este nuevo enfoque. Después de haber vislumbrado un nuevo dominio desde lo alto de un monte del Darién, el primer pensamiento de los autores fue llamar a casa.

Es difícil imaginar nada más propenso a aumentar la ira de los humanistas o de los historiadores de la cultura, que no están dispuestos a pensar sus campos en términos del modelo, digamos, de la biología premendeliana. Pero no hay nada en la investigación que oblige a esta interpretación de la “culturomics”. En efecto, una lectura atenta del documento aclara los límites y el potencial de las investigaciones de corpus cuantitativos. Necesitaremos más lectores para saber a dónde vamos.

Humanistas y científicos sociales han estado haciendo investigación sobre corpus cuantitativos durante mucho tiempo, en campos como la lingüística, las ciencias políticas y la historia intelectual. Pero el proyecto de Google iniciará una nueva fase. Por supuesto hay un salto en la escala, no sólo en el tamaño del corpus, sino también en el asombroso poder de procesamiento que los investigadores pueden conseguir.  Y lo ahora exige usar los grandes servidores de Google, cualquiera con un ordenador casero lo podrá hacer mañana. Como ocurre con tantas cosas, un terabyte ya no es lo que solía ser. Uno ya puede encajar todo lo que se ha escrito en la guantera de su Hyundai, dentro de unos años cabrá en la montura de las gafas.

Los estudiosos no se pueden descargar todo el corpus ahora mismo, por impedimentos legales y comerciales más que tecnológicos. (Google podría poner a disposición un corpus de todas las obras publicadas hasta 1922 que son de dominio público y sin incurrir en problemas de derechos de autor, pero ha decidido no hacerlo). Mientras tanto, los investigadores tienen acceso al cuerpo a través de los sitios Web Ngrams.GoogleLabs.com, y culturomics.org. Dicho eso,  se limitan a examinar las “trayectorias” de palabras o cadenas de hasta cinco palabras (“no necesitamos ningún distintivo”), en la forma de un gráfico que muestra la frecuencia relativa de una palabra a través de un cierto período, entre 1800 y 2000, o compara la frecuencia de uso de varias palabras. (Los estudiosos también puede descargarse una herramienta de visualización y el conjunto de trayectorias, pero no los textos de las que se extraen).

Eso deja fuera muchas cosas, en comparación con lo que se puede hacer con otros corpus. Por ejemplo, no se puede pedir una lista de las palabras que siguen al adjetivo “tradicional” para cada década desde 1900 hasta 2000 en orden de frecuencia descendente, o restringir una búsqueda para “bronzino” a los párrafos que contienen “peces” y no contienen “pintura”. Algunas de esas posibilidades probablemente estarán disponibles en breve, aunque los usuarios no serán capaces de reproducir muchos de los ejercicios de cómputo que los investigadores exponen en su texto,  y los lingüistas no serán realmente felices hasta que se puedan descargar todo el corpus y trabajarlo.

Y aunque los investigadores de Harvard han purgado el corpus de investigación de grán número de los metadata errors de los que está plagado Google Libros, todavía hay un buen número de obras mal fechadas, y no hay forma de restringir una búsqueda por género o tema. Uno le puede pedir al sistema que trace la trayectoria de “querido lector” en los libros publicados en Gran Bretaña durante el siglo XIX, pero no se puede limitar esa búsqueda a las novelas.

A la postre, la consecuencia más importante del artículo de Science, y de permitir el acceso del público a los datos, es que pone el término “culturomics” a la orden del día. Sean cuales sean las dudas que puedan tener los académicos acerca de la empresa, la información proporcionará muchos jugos divertidos. Y para algunos -especialmente los estudiantes, imagino- será una especie de droga inicial que conducirá  a una implicación más seria en la investigación cuantitativa.

Mientras los departamentos de humanidades y ciencias sociales no sean reasignados a la escuela de ingeniería, la pregunta es cómo cambiará todo eso nuestras disciplinas.  Los ejercicios que hay en el artículo de Science pretenden sugerir la gama de posibilidades. Un par de ellas encajan perfectamente en las investigaciones en marcha. En un ejercicio, los investigadores calculan la tasa a la que los verbos irregulares ingleses se convirtieron en regulares en los últimos dos siglos. Los patrones resultantes servirán para las teorías de evolución del lenguaje. Pero los métodos cuantitativos ya están ampliamente aceptados en el campo y, en todo caso, el cambio morfológico es un fenómeno “cultural” sólo por cortesía del decano de humanidades. Otro estudio ingenioso utiliza métodos cuantitativos para detectar la supresión de nombres de artistas e intelectuales en los libros publicados en la Alemania nazi, en  la Unión Soviética estalinista y en la China contemporánea. Los resultados podrían ser publicados ya en una revista de historia, pero precisamente porque son consistentes con otros tipos de datos que los historiadores ya están utilizando, pues no cambiarán ninguno de los paradigmas disciplinarios.

Los ejercicios más interesantes son también, en cierto modo, los más problemáticos. En un ejercicio, los autores investigan la evolución de la fama, según la frecuencia relativa de las menciones de nombres de personas. Empezaron con las 740.000 personas con entradas en la Wikipedia y ordenadas por fecha de nacimiento, recogiendo los 50 nombres más mencionados por cada año de nacimiento (de modo que en la cohorte de 1882 figuran Felix Frankfurter, Virginia Woolf  y así sucesivamente). A continuación se traza la frecuencia media de mención en el tiempo para cada cohorte y se buscan las tendencias históricas. Resulta que la gente se vuelve famosa más rápidamente y ahora alcanza el máximo de fama antes que hace 100 años, pero que su fama se extingue con mayor rapidez. Uno puede tomar ese resultado como una demostración cuantitativa de la aparición de lo que Leo Braudy llamaba “fama desechable” en su libro The Frenzy of Renown, que los autores citan. Y la técnica podría ser una poderosa fuente de datos para el floreciente campo de los estudios de la celebridad, como es designado en el título de una nueva revista de Routledge.

Pero el método no sirve para distinguir entre las variedades de fama y eminencia que Braudy y otros han rastreado. Y hay límites obvios a la equiparación de la fama usando la simple frecuencia de la mención. En un momento dado, por ejemplo, los autores observan que ” ‘Galileo’, ‘Darwin’  y ‘Einstein’ pueden ser científicos de renombre, pero Freud está más profundamente arraigado en nuestro inconsciente colectivo”.  Pero es difícil creer que Freud sea mucho más conocido que Darwin entre los autores de los libros de un corpus que procede de las colecciones de bibliotecas de investigación. Simplemente mencionamos a Freud con más frecuencia. Tal vez eso se deba a que nos referimos a Darwin sólo cuando estamos hablando de la evolución, mientras somos propensos a mencionar a Freud cuando estamos hablando de nosotros mismos. O tal vez haya alguna otra explicación. Pero los datos no traen su significación cultural en la manga, necesitan que los historiadores de la cultura hablen por ellos.

Tengo un amigo, un dotado músico aficionado y científico de la computación, que estuvo involucrado en la música electrónica en sus primeros tiempos. Inevitablemente, en pocos años, el campo pasó a manos de los compositores. Esto ocurrió en parte porque las nuevas interfaces hicieron que la tecnología fuera más accesible, pero también porque el dominio de la materia siempre triunfa sobre los conocimientos técnicos simples. Como dijo mi amigo, “es mucho más fácil hacer de un artista un geek que convertir un geek en un artista”.

De la misma manera, sabremos que el programa de investigación del corpus cuantitativo tendrá éxito cuando los ingenieros hayan dado un paso atrás porque las técnicas sean absorbidos por la academia, a veces como método, a veces sólo como telón de fondo de sus supuestos de funcionamiento. Ese fue el destino de la filología del siglo XIX, el estudio de “La Vie des Mots” (La vida de las palabras) según el título de un libro de la época, de Arsène Darmesteter. Los estudios de corpus cuantitativos están destinados a jugar el mismo papel, a pesar de que suponen una comprensión diferente sobre lo trata la vida de las palabras. En realidad ni siquiera es necesario un nombre como “culturomics”, ni cualquier otro nuevo: eso es sólo e-filología (o “la filología más reciente,” ya que el término de “nueva filología” ya está cogido).

Uno de los efectos saludables de ver las trayectorias de las palabras es que disipa algunos de los irreflexivos supuestos filológicos que colorean la manera en la que los humanistas y los científicos sociales tienden a pensar acerca de las palabras. Como la obsesión por los orígenes, en particular el modelo genealógico de cambio de vocabulario que está implícito en la estructura de los diccionarios más importantes. Los estudiosos hablan de nuevas palabras o significados de las palabras que “entran en la lengua” en una fecha específica, con la consecuencia de que traen nuevos conceptos con ellas. Sin embargo, pueden pasar décadas o incluso siglos antes de que una “nueva” palabra consiga ser adquirida en la lengua. “Propaganda” tenía algo de su sentido moderno en tiempos de Carlyle, en el siglo XIX, pero era un ítem recóndito;  sólo con la Primera Guerra Mundial entró “en el vocabulario de los campesinos y los cavadores de zanjas”, como dijo un contemporáneo. Entre 1914 y 1950, su frecuencia en los medios impresos de noticias se multiplicó por diez, sólo para caer de manera significativa hacia el año 2000. No es que la gente haya perdido interés en lo que denota la palabra, como se podría deducir de la frecuencia de caída de la “regla de cálculo” o “Dinah Shore”. Lo que ocurre es que ahora pensamos de forma diferente sobre el discurso político (el descenso de “propaganda” coincide con el auge de “orwelliano”, como es el caso).

Además, comparar las trayectorias de las palabras permite precisar la aparición de nuevos vocablos que son precursores del cambio de régimen cultual -los signos, como dijo Quentin Skinner, de que “la sociedad ha entrado en posesión consciente de un nuevo concepto”. El Oxford English Dictionary documenta la primera aparición de “estilo de vida” (lifestyle) en 1915, pero no fue hasta finales de 1960 que la palabra se convirtió en común (en 1967 apareció en el Chicago Tribune sólo 29 veces, en 1972 la cifra fue de 1.571). Eso coincidió con un fuerte aumento en el uso de “demográfico”, que apareció por primera vez en 1882 pero se convirtió en 50 veces más frecuente a partir de los años 1950 y 1970, una escisión en marcha del sustantivo “demografía” – todo parte de un vocabulario emergente (con la aparición de términos como “de lujo” [upscale] y “de moda” [trendy], y de nuevos sentidos de “cuello azul” [blue collar] y “pijo” [preppie])   que refleja el consumismo de clase. En la época anterior a los corpus, no había manera de echarle mano a ese fenómeno. (Es una apuesta segura decir que el influyente libro que Raymond Williams publicó en 1976, Keywords: A Vocabulary of Culture and Society, tendría un aspecto muy diferente si hubiera podido acceder al corpus de Google Libros y no sólo al Oxford English Dictionary).

La más obvia -aunque no la única- aplicación de estas técnicas es analizar amplios conjuntos de producción cultural y literaria, lo que Franco Moretti, de Stanford, llama “la lectura a distancia” (distant reading), que examina cientos o incluso miles de textos de una sola vez. Pero no hay nada en el texto de Science que amenace la importancia de la lectura próxima al texto (close reading), el anecdotismo del Nuevo historicismo o cualquiera de las otras formas más reflexivas de investigación. Por el contrario, ni siquiera tiene por qué haber una marcada división entre los dos enfoques. Estos nuevos resultados sólo son muy a menudo intrigantse pepitas cuantitativos que exigen una explicación narrativa. A los científicos les gusta decir que “datos” no son el plural de “anécdota”, pero a veces “anécdotas” pueden ser el plural de “dato”. Y, al igual que otras anécdotas, no imponen una única interpretación, e incluso a veces nos devuelven a los textos de los que se obtuvieron.

Consideremos un interesante estudio de los títulos de los libros del siglo XIX por los historiadores Dan Cohen y Fred Gibbs, de la Universidad George Mason, que también trabajan con el corpus de Google Libros. ¿Qué significa que las palabras “esperanza” y “felicidad” fueran  menos frecuentes en los títulos de libros en la segunda mitad de ese siglo? Para Cohen y Gibbs sugiere la existencia de una corriente subyacente de depresión durante ese período. Pero un lector de Schopenhauer puede concluir que todas las anteriores menciones de felicidad eran signos inequívocos de miseria y abyección. Para probar el caso de un modo u otro, uno podría verse llevado a, digamos,  leer algunos de los libros.

Algunas personas temen que el efecto de estos estudios cuantitativos sea trivializar la investigación. En un artículo que apareció en The Chronicle en la primavera pasada sobre la investigación de Moretti, Katie Trumpener, profesora de literatura comparada en la Universidad de Yale, expresó su preocupación por el cambio cuantitativo en los estudios literarios. Todo está muy bien cuando lo hace un pensador original, como Moretti, dijo, pero ¿qué sucede cuando lo hacen sus “zoquetes” descendientes? “Si todo el campo hiciera eso, sería un desastre”, con todo el mundo produciendo cifras insignificantes y “presuntuosas reivindicaciones de lo que significan”.

Es poco probable que “todo el campo” de los estudios literarios -o de cualquier otro campo-  emplee estos métodos, aunque los datos es probable que figuren en la literatura en la forma en que las observaciones sobre los orígenes y la etimología lo hacen ahora. Pero creo que Trumpener tiene razón al predecir que los estudiosos de segunda clase utilizarán el corpus de Google Libros para producir ristras de gigabytes con gráficos escasamente informativos y conclusiones insignificantes. Pero no supone que esos estudiosos estuvieran haciendo un trabajo más valioso si se aproximaran a la literatura desde otro punto de vista.

Esto debería tranquilizar a los humanistas sobre el estatus inmutablemente no científico de sus campos. Las teorías de lo que hace que la ciencia sea ciencia van y vienen, pero una constante es que procede por la suma de incrementos grandes y pequeños, de modo que hasta los zoquetes tienen algo que aportar. Como dijo William Whewell, que acuñó la palabra “científico”,  “nada de lo hecho era inútil o no esencial”. Los humanistas producen resmas de trabajos que son precisamente eso: inútil porque es meramente adecuado. Y las humanidades resisten las estandarizaciones del método que hacen posible la colaboración estructurada de la ciencia, con la inevitable pérdida de la voz individual. Cualesquiera que sean los precedentes que el artículo de Science pueda establecer para las humanidades, el documento de estos doce autores no será uno de ellos.

****

Geoffrey Nunberg es profesor en la School of Information de la  University of California at Berkeley.

Copyright 2011.   The Chronicle of Higher Education. All rights reserved.

Anuncios

Una respuesta a “Una nueva ciencia: culturomics o culturomía

  1. Me sorprendió el artículo acerca del escritor Bunge y la posibilidad de encontrar tanta información disponible.
    Muchas gracias

Los comentarios están cerrados.