Análisis del foro de discusión mediante scraping

Facebooktwitterpinterestlinkedinmail

El viernes pasado tuvimos una nueva reunión en Orbea donde presentamos el proyecto de investigación a diversas áreas de la empresa: gerencia, desarrollo de producto, marketing, comunicación y asistencia técnica. Mostramos algunas conclusiones muy iniciales aún del análisis del foro de discusión en Internet que vamos a tomar como ejemplo de conversación entre usuarios.

Excavar

Más adelante llegarán entrevistas tanto a determinados usuarios como a personas de Orbea, pero en el momento actual estamos analizando lo que ha dado de sí ese foro durante un tiempo en concreto. Para ello utilizamos la técnica del web scraping:

El web scraping está muy relacionado con la indexación de la web, la cual indexa la información de la web utilizando un robot y es una técnica universal adoptada por la mayoría de los motores de búsqueda. Sin embargo, el web scraping se enfoca más en la transformación de datos sin estructura en la web (como el formato HTML) en datos estructurados que pueden ser almacenados y analizados en una base de datos central, en una hoja de cálculo o en alguna otra fuente de almacenamiento. El término web scraping también está relacionado con la automatización de tareas en la Web, la cual simula la navegación de un humano utilizando un software de computadora. Alguno de los usos del web scraping son la comparación de precios en tiendas, la monitorización de datos relacionados con el clima de cierta región, la detección de cambios en sitios webs y la integración de datos en sitios webs.

Es decir, esta técnica nos permite, en el caso de un foro de discusión, analizar estadísticamente lo que está ocurriendo allí: qué volumen de mensajes se envía, quiénes lo hacen, con qué nivel de respuesta y de likes, cómo evolucionan en el tiempo y cosas así. El hecho de poder trabajar con los datos estructurados en una hoja de cálculo confiere capacidad de análisis a una información que, de otra forma, es muy compleja de seguir. Una cosa es tener datos, otra tener información.

Para llevar a cabo este análisis tengo que citar sí o sí a Gorka Julio Teketen, quien me puso sobre la pista de una extensión de Chrome, Web Scraper. Esta ha sido la elegida para extraer la información. En primer lugar hay que seleccionar los campos que queremos extraer y la paginación que debe seguir (al tratarse de un sitio web con múltiples páginas que agrupan la conversación en bloques de veinte mensajes). Con ello se elabora el sitemap que lanzaremos para realizar el scrape.

El resultado de ese trabajo es la obtención de un fichero en formato csv que permitirá el tratamiento estadístico. De esta forma hemos comenzado ya a analizar cerca de 16.000 mensajes, que son los que conforman la base de nuestra investigación.

twitterlinkedinrssyoutubeinstagramflickr

6 Comentarios

  1. Nick

    Oye, ¿y ya te has dirigido al admin de foro para preguntarle si te cedería la tabla de ese subforo?
    La investigación académica abre muchas puertas y no necesitas datos personales…

    Responder
    1. Julen Iturbe-Ormaetxe (Autor del artículo)

      De hecho es una conversación que tengo en mi lista de tareas a corto/medio plazo, pero quería aprender a hacerlo por mi cuenta. He consultado artículos de literatura académica respecto a la ética a la hora de trabajar con datos y he visto que se suele distinguir entre foros de contenido sensible (aunque sean públicos) donde parece lógico primero hacer una gestión previa con quien administra el foro, de otros que tiene que ver con contenidos más «comerciales» (por llamarlo de alguna manera). Cada cual, no obstante, debe decidir qué entiende por «sensible» aunque en este caso entiendo que no procede, pero esa consideración me parece importante.

      En cualquier caso, la pregunta es, desde luego, muy pertinente porque sí o sí creo que hay que pasar por hablar con quienes gestionan el foro.

      Gracias por darte una vuelta por aquí 🙂

      Responder
  2. Isabel

    Tomando nota 😉

    Responder
    1. Julen Iturbe-Ormaetxe (Autor del artículo)

      Todo un descubrimiento esto de poder bajarte a una hoja de cálculo los datos que provienen de un foro de discusión. Ahora toca jugar con la estadística 🙂

      Responder
  3. Nick

    Le he dado un repaso a la herramienta y al foro.

    800 páginas x 20 post = 16.000 post

    En un análisis rápido, al menos la mitad de los post no aportan conocimiento (aclaraciones, precios, ebay, china, humor, quejas, etc., etc., etc.)

    hay que categorizar 8.000 post. Esonosná:
    · mejoras: mecánicas, ergonómicas, de rendimiento, estéticas, …
    · mecánica: montaje, herramientas, reparaciones, …
    · componentes: estructurales, dinámicos, …
    · mantenimiento: habitual, profesional, …

    etc., etc., etc., etc. No te queda nada 😉

    Oye, hay una serie de puntos donde se podrían hacer entrevistas directas a los interesados justo cuando tienen los problemas en la cabeza: los lavaderos de las gasolineras próximos a la ciudad están llenos de ciclistas de montaña los sábados y domingos justo antes de comer.

    Ahí, mientras quitas el barro de la jornada, no dejas de pensar en ese cambio que falla del piñón 4 al 5, en esa maneta de freno que se atasca o en la jodida cubierta que tiene menos tracción que un patinete.

    Venga, un saludo

    Responder
    1. Julen Iturbe-Ormaetxe (Autor del artículo)

      ¿16.000 mensajes? ¿Qué es eso para un tipo aburrido y sin nada que hacer? Jajajajaja. ¡Me encanta tu visión optimista! Las entrevistas que quiero hacer serán con ciertos usuarios de ese foro y con profesionales de Orbea (quizá añada algunos de otros sectores con ejemplos parecidos de participación de usuarios en Internet). En este caso estoy ahora mirando distintas herramientas de software para hacer lo que tú ya has hecho al echar un vistazo al foro: categorizar de qué se habla.
      En cualquier todo esto es solo un medio para un fin: el de definir una metodología de intervención de la marca en este tipo de «saraos».
      Tú sigue comentando por aquí y pasas a la lista de personas a entrevistar enseguida :-))))
      Lo dicho, mil gracias por las aportaciones.

      Responder

Responder a Julen Iturbe-Ormaetxe Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *