Acerca de este proyecto

Los autores

Eduardo Cepeda, Ph.D. Consultor en análisis cuantitativo y ciencia de datos. Especializado en bibliometría, modelado estadístico multivariado y análisis de redes aplicados al sector turístico.

Yheni Farfán Responsable de la extracción, depuración y construcción de la base de datos. Realizó la búsqueda sistemática en Web of Science, la selección de los 331 artículos y la limpieza y estructuración del corpus utilizado en este análisis.


El proyecto

Este sitio presenta los resultados de un análisis bibliométrico de 331 artículos indexados en Web of Science (WoS) que aplican técnicas estadísticas multivariadas a la investigación turística.

Pregunta de investigación

¿Cómo se estructura el uso de técnicas estadísticas multivariadas en la investigación turística, y cómo ha evolucionado esa estructura?

Corpus

  • Fuente: Web of Science (Core Collection)
  • Criterio de selección: Artículos que aplican al menos una técnica estadística multivariada en contexto turístico.
  • Período cubierto: 2000-2023 (aproximadamente)
  • N artículos: 331
  • Disponibilidad: Los datos fuente no se distribuyen públicamente por restricciones de licencia de Web of Science. Están disponibles bajo petición al autor.

Metodología

Principio general: co-ocurrencia

La co-ocurrencia mide la frecuencia con la que dos palabras clave aparecen juntas en un mismo artículo. Si dos keywords co-ocurren repetidamente en múltiples artículos, se infiere una proximidad temática o metodológica entre ellas.

Formalmente, para dos keywords \(a\) y \(b\), el peso de co-ocurrencia es:

\[w(a, b) = |\{ d \in A \mid a \in d \text{ y } b \in d \}|\]

donde \(A\) es el conjunto de los 331 artículos del corpus. Con estos pesos se construye un grafo donde cada keyword es un nodo y cada arista tiene un peso proporcional al número de co-apariciones.

Pipeline analítico

El análisis sigue seis etapas:

1. Carga y limpieza

Lectura del archivo WoS (.xlsx, 331 filas, 72 columnas). Se normalizan nombres de columnas y se seleccionan los campos relevantes: Author Keywords, Keywords Plus, Authors, Cited References, Publication Year y Abstracts.

2. Preprocesamiento de keywords

Esta etapa es crítica para la calidad del resultado. Incluye:

  • Parseo de campos multi-valor — Las keywords vienen separadas por ; en WoS.
  • Normalización con diccionario de sinónimos — “SEM”, “structural equation modeling” y “structural equation modelling” son el mismo concepto y deben fusionarse en un solo nodo. El diccionario cubre todas las variantes de la taxonomía de técnicas multivariadas.
  • Complemento con Keywords Plus — Muchos artículos no tienen Author Keywords. Se complementan con Keywords Plus (generadas automáticamente por WoS) solo para artículos sin keywords de autor, aumentando la cobertura sin introducir duplicación.
  • Filtrado de ruido — Se eliminan keywords geográficas (“ap vojvodina”, “mekong delta”) y términos excesivamente genéricos que distorsionan la estructura del grafo.

3. Construcción del grafo de co-ocurrencia

Dos keywords se conectan si aparecen en el mismo artículo. El peso de la arista es el número de co-apariciones. Se aplican dos filtros calibrados empíricamente:

  • min_frequency=2: cada keyword debe aparecer en al menos 2 artículos del corpus. Esto elimina keywords únicas (ruido) sin perder conexiones válidas.
  • min_weight=1: se permiten co-ocurrencias de peso 1, que en un corpus de 331 artículos representan conexiones legítimas.

Esta combinación produce un grafo de 124 nodos y 365 aristas, un equilibrio entre cobertura y precisión. La alternativa clásica (min_weight=2 sin filtro de frecuencia, como VOSviewer con umbral 5) producía solo 39 nodos — demasiado restrictivo para un corpus de este tamaño.

4. Detección de comunidades

Se aplica el algoritmo de Louvain (Blondel et al., 2008), que maximiza la modularidad:

\[Q = \frac{1}{2m} \sum_{ij} \left[ w_{ij} - \frac{k_i k_j}{2m} \right] \delta(c_i, c_j)\]

donde \(m\) es el peso total del grafo, \(k_i\) el grado ponderado del nodo \(i\), y \(\delta\) la función delta de Kronecker. El resultado son 8 comunidades que corresponden a subcampos reconocibles: SEM/satisfacción, DEA/eficiencia, series temporales/demanda, cluster analysis/segmentación, entre otros.

Cada comunidad se etiqueta automáticamente con sus keywords de mayor grado ponderado interno, más un conteo de nodos restantes (ej. “SEM / satisfaction / segmentation (+16 más)”).

Note

Louvain puede producir comunidades residuales — pequeños grupos de keywords periféricas sin relación temática real, agrupadas por descarte. Estas se reportan honestamente como “temas con baja representación” sin forzar una interpretación temática.

5. Centralidades

Se calculan múltiples métricas de centralidad para cuantificar la importancia estructural de cada keyword:

Métrica Qué mide Interpretación bibliométrica
Grado ponderado Intensidad total de co-ocurrencias Keywords más conectadas (ej. “tourism”)
Betweenness Posición de puente entre subcampos Keywords que conectan tradiciones distintas
Eigenvector Conexión a nodos influyentes Keywords en el núcleo del campo
PageRank Influencia con amortiguamiento Similar a eigenvector, más robusta ante cliques
Restricción de Burt Posición de broker (agujeros estructurales) Keywords nexo interdisciplinario

El betweenness es la métrica más informativa: identifica keywords que conectan subcampos que de otra manera no se tocarían. Por ejemplo, “satisfaction” puede actuar como puente entre la comunidad SEM y la de cluster analysis.

6. Reducción dimensional

Las matrices de co-ocurrencia son de alta dimensión. Se proyectan en 2D con tres técnicas complementarias:

  • MDS (Escalamiento Multidimensional) — Preserva distancias globales. Stress < 0.1 indica buen ajuste.
  • t-SNE — Preserva estructura local (vecindades próximas). Útil para identificar clusters compactos, pero los ejes no tienen interpretación directa.
  • UMAP — Preserva estructura local y global. Más rápido y reproducible que t-SNE. Método preferido para corpus de este tamaño.

Las tres operan sobre la matriz de distancias derivada del Association Strength:

\[AS(a, b) = \frac{w(a, b)}{f(a) \cdot f(b)}\]

Además se aplica Análisis de Correspondencias (CA) sobre la tabla de contingencia keywords × revistas. El biplot resultante superpone keywords y revistas en un mismo espacio factorial, revelando qué revistas publican qué tipo de investigación.

Important

El CA reveló un hallazgo central: el biplot separa claramente la investigación causal/estructural (SEM, satisfacción, lealtad → revistas de management y hospitalidad) de la investigación predictiva/temporal (series temporales, VAR, demanda turística → Annals of Tourism Research, Tourism Economics). Las dos grandes tradiciones metodológicas del turismo cuantitativo publican en circuitos de revistas distintos.

Normalización de pesos de aristas

Los pesos crudos están influidos por la frecuencia marginal de las keywords. Se aplican cuatro medidas de asociación normalizadas según el uso:

Método Fórmula Uso
Association Strength \(w(a,b) / (f(a) \cdot f(b))\) Layout de grafos, matrices de distancia
Jaccard \(w(a,b) / (f(a) + f(b) - w(a,b))\) Detección de comunidades
Coseno de Salton \(w(a,b) / \sqrt{f(a) \cdot f(b)}\) Similitud temática
Inclusion Index \(w(a,b) / \min(f(a), f(b))\) Relaciones jerárquicas

Nota sobre el corpus

Con 331 artículos, este es un corpus de tamaño modesto. Algunas técnicas emergentes (deep learning, text mining, fsQCA) aparecen con frecuencias muy bajas — apenas 1-2 artículos. Esto no es un error del pipeline sino un reflejo de la realidad del campo: la adopción de machine learning en la investigación turística va por detrás de otros dominios. Este desfase es en sí mismo un hallazgo relevante.


Herramientas utilizadas

Herramienta Versión Uso
Python 3.13 Lenguaje principal
networkx >=3.0 Construcción y análisis de grafos
python-louvain >=0.16 Detección de comunidades Louvain
plotly >=5.0 Visualización interactiva
pyvis >=0.3 Grafos interactivos arrastrables
scikit-learn >=1.3 MDS, t-SNE
umap-learn >=0.5 UMAP
prince >=0.13 Análisis de Correspondencias
Quarto >=1.4 Publicación web
itables >=2.0 Tablas interactivas

El paquete co_occurrence fue desarrollado específicamente para este proyecto como librería Python instalable (pip install -e ".[all]").


Exploración con Obsidian

Además de este sitio web, el proyecto genera un vault de Obsidian que permite explorar la red bibliométrica de forma personal e interactiva. El vault contiene:

  • Notas por keyword — cada keyword del grafo es una nota con metadatos en YAML frontmatter (frecuencia, grado, betweenness, comunidad) y wikilinks [[keyword]] hacia las keywords co-ocurrentes.
  • Notas por comunidad — resumen temático de cada comunidad con la lista completa de sus miembros y métricas agregadas.
  • Notas por autor y revista — conexiones entre investigadores, publicaciones y los temas que trabajan.
  • Graph view nativo — al abrir el vault en Obsidian, el graph view muestra la red de co-ocurrencia completa, navegable por arrastre y zoom.
  • Queries Dataview — el INDEX incluye consultas dinámicas para filtrar keywords por comunidad, frecuencia mínima o centralidad.

El vault generado por el autor está disponible directamente en:

vault_bibliometria en GitHub

Para usarlo, basta clonar el repositorio y abrir la carpeta vault_bibliometria/ como vault en Obsidian:

git clone https://github.com/educep/bibliometria-turismo-multivariado.git
# Abrir Obsidian → Open folder as vault → vault_bibliometria/

Para regenerar el vault con parámetros personalizados:

python -m co_occurrence obsidian

Código fuente

El código fuente completo del análisis está disponible en:

github.com/educep/bibliometria-turismo-multivariado


Reproducibilidad

Para reproducir el análisis completo:

# Instalar el paquete
pip install -e ".[all]"

# Ejecutar el pipeline completo
python -m co_occurrence pipeline

# Renderizar el sitio
quarto render

Alcance y limitaciones

Este estudio se centra en la co-ocurrencia de palabras clave (keywords) como unidad de análisis. Las redes presentadas en este sitio mapean la estructura temática y metodológica del campo a partir de las keywords que los autores asignan a sus artículos. Es importante señalar lo que este enfoque sí cubre y lo que queda fuera:

Lo que este estudio analiza

  • Estructura temático-metodológica — qué técnicas multivariadas se usan para qué problemas turísticos, y cómo se agrupan en comunidades.
  • Evolución temporal — qué técnicas ganan o pierden protagonismo a lo largo del tiempo.
  • Correspondencia keyword-revista — qué circuitos de publicación se asocian a qué tradiciones metodológicas (biplot CA).
  • Keywords puente — qué conceptos conectan subcampos que de otra manera no se tocarían.

Lo que este estudio no cubre

  • Análisis geográfico — ¿qué países publican más utilizando técnicas multivariadas en turismo? ¿Hay diferencias regionales en la elección de métodos? El código del proyecto incluye la capacidad de construir redes bipartitas país-keyword, pero este análisis no se presenta aquí.
  • Redes de co-autoría — la colaboración entre investigadores no se analiza. El código permite construir redes de co-autoría, pero el foco se mantuvo en la dimensión temática.
  • Análisis de co-citación — la base intelectual compartida (qué referencias se citan juntas) queda fuera del alcance actual.
  • Análisis institucional — la distribución por universidades o centros de investigación no se explora.
  • Cobertura de bases de datos — el corpus proviene exclusivamente de Web of Science (Core Collection). Scopus, Google Scholar u otras bases podrían arrojar un panorama distinto, especialmente para regiones con menor cobertura en WoS.
  • Tamaño del corpus — con 331 artículos, las técnicas menos frecuentes (deep learning, fsQCA, text mining) aparecen con frecuencias muy bajas, lo que limita la robustez del análisis para esos subcampos emergentes.

Extensiones posibles

El paquete co_occurrence ya implementa las funciones necesarias para abordar varias de estas dimensiones (redes bipartitas país-keyword, co-autoría, co-citación). Además, se contempla incorporar:

  • Topic modeling sobre abstracts — El análisis actual se basa en keywords (3-5 palabras declarativas por artículo). Los abstracts contienen ~200 palabras que describen el problema, la metodología y los resultados. Técnicas como LDA o BERTopic podrían descubrir temas latentes que las keywords no capturan, y las discrepancias entre topics y comunidades de co-ocurrencia serían en sí mismas un hallazgo: temas que se practican pero no se nombran, o comunidades de keywords que no reflejan un tema real.

Estas extensiones podrían incorporarse en versiones futuras de este sitio.


Cita

Si utilizas este trabajo en tu investigación, por favor cita:

Cepeda, E. y Farfán, Y. (2026). Análisis bibliométrico de técnicas multivariadas en turismo: co-ocurrencia, comunidades y evolución temporal. [URL del sitio]


Generado con Quarto, Python y herramientas de código abierto.