domingo, 3 de abril de 2011

Google Ngrams, analizando las palabras a lo largo de la historia

¿Cuantas veces a lo largo de la historia se ha dicho la palabra Amor? ¿y Tiempo? ¿y Dinero? Podría seguir días enteros enumerando palabras que tienen un importancia determinada: Salud, Paz, Trabajo, Muerte, etc., etc. Es difícil, por no decir imposible, saberlo; aunque se pueden hacer algunas aproximaciones interesantes. Eso es lo que descubrí cuando leí el artículo "Palabras, palabras, palabras", de Ariel Torres. Allí me enteré de la existencia de Books Ngram Viewer, una especie de contador de palabras que desarrolló Google, y que se aplica a la base de datos de libros escaneados que tiene la empresa (unos quince millones, aparentemente). Su funcionamiento es de lo más simple: se ingresa la palabra de interés, se selecciona el idioma en el cual se hace la búsqueda y listo. El resultado es una gráfica en función del tiempo que indica cuanto se ha utilizado esa palabra en el idioma seleccionado. Es una herramienta que puede ayudar a estudiar la vigencia u obsolescencia de algunos temas, o los ciclos históricos a los que se ven sometidos. A modo de ejemplo, hice una búsqueda de dos palabras que el hombre ha utilizado desde que empezó a hablar: Vida y Muerte.

Vida y Muerte (español)

Es alentador ver que "vida" siempre ha superado a "muerte", aunque hay un período antes del 1700 donde el uso de ambas palabras se empareja demasiado. Es cierto que esta búsqueda tiene cierta parcialidad, porque solo involucra los libros escaneados e indexados por Google, pero insisto en que es una métrica interesante como para entender o apreciar ciclos históricos.

Como curiosidad, busqué la distribución histórica del nombre de este blog, "Bahía Sin Fondo", y los resultados fueron estos:


Bahía Sin Fondo (español)

Parece ser que tuvo su pico allá a mediados de la década de 1870, y que luego ha tenido sus vaivenes.

Se pueden buscar diferentes palabras o idiomas para hacer comparaciones. Para cerrar, les dejo un par de gráficas más. Como ayer se recordó la recuperación de las Islas Malvinas, sentí curiosidad en ver como ha sido tratado el tema a lo largo de la historia en los dos idiomas que zanjan el conflicto: español e inglés. Por ello busqué las palabras "Malvinas" y "Falklands" en ambos idiomas, para ver como ha sido tratado el tema en ambas lenguas. En idioma inglés, la palabra "Falklands" tiene su máximo en (vaya casualidad) la década de 1830, y luego decae suavemente. La palabra "Malvinas" tiene una existencia casi nula en todo el período 1800-2000, y recién aparece a partir de la guerra de 1982. El estudio en español da lugar a un gráfico con una escala cuatro veces mayor (vean la relación de porcentajes en ambas gráficas), donde la palabra "Falklands" tiene un promedio bajo y constante, mientras que "Malvinas" tiene una tendencia creciente que llega a su máximo en 1982.
Malvinas y Falklands (inglés)
Malvinas y Falklands (español)

Bueno, hasta aquí llego por hoy. Nos vemos en la próxima entrada.

2 comentarios:

  1. Curioso e interesante! Me ha encantado. Tu blog, un gran descubrimiento.

    ResponderEliminar
  2. Gracias por tus palabras Una, ojala pueda mantenerlo igual o más interesante con el tiempo. Saludos

    ResponderEliminar