Culturomics

Leyendo con números. La ciencia invade las humanidades

Santo Domingo - ene. 04, 2011 | 04:00 a. m.| 5 min de lectura

Cuando Google empezó a escanear libros y a permitir que fuesen buscados en línea en el 2004, los editores se preocupaban de que su tesoro literario pudiera ser saqueado por los piratas en internet. Entretanto los lectores se deleitaban ante la perspectiva de acceso instantáneo a un sinnúmero de publicaciones, algunas que no están disponibles en ningún otro medio. Pero Google Books es también responsable de otra, más callada, revolución: en las humanidades.

Durante siglos, los investigadores interesados en seguir el rastro de las tendencias culturales y lingüísticas estaban resignados al laborioso proceso de escudriñar los volúmenes uno a uno. Una sola persona, e incluso un equipo de personas, solo puede leer un número determinado de libros. El procesamiento de datos numéricos parecía una tarea imposible. Ahora, sin embargo, Jean-Paptiste Michel, de la Universidad de Harvard, y sus colegas utilizan Google Books justamente para ello. Informan sus primeros resultados esta semana en Science.

A la fecha Google ha logrado digitalizar 15 millones de los 130 millones de títulos impresos desde que Johannes Gutenberg perfeccionó la imprenta en el siglo XV. El equipo del Dr. Michel redujo esto a unos 5 millones de volúmenes de los cuales han publicado datos bibliográficos razo- nablemente correctos, especialmente el lugar y fecha de su publicación. Ellos eligieron concentrarse particularmente en textos en inglés entre el 1800 y el 2000, pero también incluyeron algunos textos en francés, español, alemán, ruso, chino y hebreo.

Eso produjo una colección de 500 mil millones 1-grams - como Dr. Michel denomina una hilera de caracteres ininterrumpidos por espacios. Esta incluye palabras, siglas, números y fechas, al igual que errores tipográficos ("poruqe") o faltas de ortografía (aberación). También observó combinaciones de 1-grams, de 2-grams ("The Economist") a 5-grams ("los Estados Unidos de América). Para minimizar el riesgo de incluir concatenación fortuita de palabras, ortografías poco usuales o errores, cualquier palabra o expresión tenía que aparecer en la colección por lo menos 40 veces para merecer ser incluida en el conjunto final organizado en orden cronológico.

En este punto el procesamiento de datos numéricos se podía iniciar de veras. Primero, el Dr. Michel utilizó sus datos para estimar el número total de palabras en el idioma inglés. Para hacer esto, él y su equipo seleccionaron una muestra aleatoria de la colección, verificaron qué proporción era de palabras sin sentido y extrapolaron eso a toda la colección. Él coloca la cifra en una pizca por encima de 1 millón. Según sus cálculos, hasta el más legítimo repositorio léxico, el "Oxford English Dictionary", sub-representa este total por un factor de dos. También, con muy pocos cambios en la primera mitad del siglo XX, el vocabulario inglés se expandió a una tasa de 8,500 palabras por año en la segunda mitad, a la cabeza con un 70% de incremento en su tamaño desde 1950.

Curiosamente, el Dr. Michel encontró que algunas palabras que fueron añadidas al "American Heritage Dictionary" en el 2000, tales como "gypseous" (yesoso) o "amplidyne" (amplidina), eran ampliamente usadas hace un siglo. Lo que es más, para el momento en que fueron incluidas en el diccionario, ya se estaban tornando obsoletas.

No obstante, los investigadores no se limitaron a divertirse con los lexicógrafos. También analizaron una variedad de tendencias culturales, tales como cuánto tiempo le toma a las innovaciones tener impacto en la conciencia popular (lo que está ocurriendo con mayor celeridad), la edad en que las celebridades se hacen famosas (que está disminuyendo, si bien a costa de un menor tiempo en la atención del público), al igual que muchas otras más o menos frívolas tendencias.

Por supuesto, los libros no representan toda la cultura humana. En décadas recientes su importancia relativa ha disminuido. Ni tampoco los libros elegidos por Google son necesariamente el mejor ejemplo de la literatura a través del tiempo. Esto significa que los hallazgos basados en ellos deben ser tratados con precaución.

Aun así, el Dr. Michel y su equipo esperan que su enfoque motive un enfoque más riguroso y cuantitativo del estudio de la cultura humana. De hecho, su estudio es un manifiesto para una nueva disciplina. Lo han llamado "cultoromics", lo que los hace el primer grupo de culturomistas. Es seguro que otros les seguirán - ya sea o no que sobreviva este neologismo.

© 2010 The Economist Newspaper Limited. All rights reserved. De The Economist, traducido por Diario Libre y publicado bajo licencia. El artículo original en inglés puede ser encontrado en www.economist.com

Culturomics

Efemérides

Cumpleaños

Crucigramas

Horóscopo

Resultados deportivos

Herramientas

Inicia sesión

Inicia con Redes

Registrarme

Inicia con Redes

Necesitas completar tus datos para continuar.

Recuperar cuenta