Power BIVandal-Lab

Análisis de Series o Películas con Power BI

¡Feliz Día del Orgullo Friki! Para celebrar este día tan especial hemos querido analizar con Power BI algo que estuviese muy ligado a esta forma de vida tan especial que es el frikismo: las series y películas.

¿Cómo se analiza una serie o película?

Ya hemos hecho en el pasado análisis de alguna serie, como en nuestro post sobre las muertes de Juego de Tronos, pero estaba basado en la revisión manual de un fan de los libros de la saga.

La mejor manera de hacerlo es a través de sus diálogos, es decir, del guión o del script de la película o serie. ¿Y de donde puedo sacar los scripts? Pues hay muchas fuentes en Internet, os dejo algunos ejemplos:

El problema es que estas webs tienen el script en formato original, en un documento de texto, casi como si fuera una novela con diálogos:

Ejemplo Script Thor: Ragnarok
Ejemplo Script Thor: Ragnarok

Por suerte, hay gente en este mundo que ya ha hecho un trabajo previo y que comparte con nosotros los scripts en formato de ficheros planos con columnas. Una fuente de datos habitual de este blog es Kaggle Dataset.

Si no encontráis la serie o película que queréis analizar en estas fuentes, otra opción es descargar un fichero de subtítulos en formato .srt y convertirlo en formato .csv con herramientas online gratuitas como transcribefiles.net.

Ejemplo subtitulo srt Thor: Ragnarok en formato csv
Ejemplo subtitulo srt Thor: Ragnarok en formato csv

El problema es que sólo dispondréis de las frases y el momento de la película en la que aparecen, pero normalmente no indica el personaje que habla. Podéis encontrar ficheros srt en muchas webs como Subscene.

Análisis de The Big Bang Theory

Para este post, usaremos un dataset de Kaggle con los scripts de los capítulos de las 10 primeras temporadas de la gran serie “The Big Bang Theory” que podéis encontrar en este link.

Formato del fichero con los diálogos de la serie
Formato del fichero con los diálogos de la serie

En este fichero plano .csv encontraremos 6 columnas:

  • Id de fila: identificador de número de fila.
  • Location: localización en la que se desarrolla la escena.
  • Scene: breve explicación de la escena.
  • Text: texto del diálogo.
  • Speaker: personaje que habla.
  • Season: Temporada a la que pertenece el capítulo.

Como podréis observar en el análisis, este dataset no es el diálogo completo de cada capítulo, sino que se centra en las intervenciones de los personajes principales de la serie.

Con estos pocos datos vamos a intentar sacar algo de información sobre la serie y obtener algunas conclusiones.

1. ¿Cuántas veces que aparece la palabra “Bazinga”?

Las series cómicas o sitcoms estadounidenses suelen tener alguna frase mítica que se repite a lo largo de la serie y que es representativa de la misma.

En el caso de Big Bang Theory podríamos escoger “Toc, Toc, Penny!” o “Bazinga” (“Zasca! en toda la boca” en su doblaje al castellano) como frases míticas. Hemos escogido la segunda, ya que la primera no es tanto una frase de guión como una situación (Sheldon Cooper llamando a la puerta de su vecina Penny con insistencia).

Para buscar esta palabra entre todas las frases de guión hemos creado una columna adicional con la siguiente formulación DAX:

Bazingas = IF(SEARCH("Bazinga";big_bang_theory_dataset[Texto];1;0)=0;0;1)

Usamos la función SEARCH para buscar el texto “Bazinga” dentro de la columna “Texto” y que nos devuelva un 1 si lo encuentra o un 0 si no. Si alguno está pensando en la función FIND, que tenga en cuenta que es “case-sensitive”, es decir, distingue entre mayúsculas y minúsculas y eso os puede acarrear problemas.

Del análisis realizado podemos ver que, como era de esperar, Sheldon es el que más usa la palabra, pero en la temporada 9, Penny la menciona 1 vez también:

Análisis de los "Bazingas" de la serie
Análisis de los “Bazingas” de la serie

2. ¿Donde se desarrolla la acción?

Otras de las preguntas que nos podemos hacer es acerca de las localizaciones. La verdad es que es una serie con pocos escenarios, pero sería interesante analizar el ranking de los más usados.

Con la información de la que disponemos, sólo se me ocurrió midiendo el número de intervenciones por cada localización:

Análisis de las localizaciones más habituales de la serie
Análisis de las localizaciones más habituales de la serie

Era obvio que el apartamento de Sheldon y Leonard era el centro de la serie, pero seguramente si me lo hubiesen preguntado antes del análisis yo habría puesto las escaleras por encima del apartamento de Penny, o el lobby del edificio y la sala de lavandería por encima del Cheesecake Factory donde trabaja Penny.

3. Intervenciones por personaje

Otro análisis que podemos realizar es el número de intervenciones (registros de nuestro dataset) que tiene cada personaje y ver su evolución desde la temporada 1 a la 10.

Análisis de intervenciones por personaje y temporada
Análisis de intervenciones por personaje y temporada

A la vista de los datos, parece que Leonard ha ido cediendo parte de su presencia en los diálogos a Raj y Howard.

4. ¿Quién tiene más protagonismo en la serie?

Ya,ya,….ya se que Sheldon es el centro de The Big Bang Theory, pero quiero analizar la importancia de los personajes principales de la serie y su evolución a lo largo de las temporadas.

Aquí llega uno de los retos de este panel. ¿Cómo puedo analizar el número de frases de cada personaje? Tengo el script, pero puede que en una intervención, el personaje tenga varias frases.

Después de darle vueltas y analizar el formato de los datos me he decantado por usar como identificador de frases algo que todas tenían en común: la puntuación.

Por ello he copiado la columna “Texto” en otra columna llamada “Texto2” y a esta segunda columna le he extraído los signos de puntuación “.”, “?” y “!”. Restando la longitud del campo “Texto” y del campo “Texto2” tendré los signos de puntuación de cada intervención y, por lo tanto, el número de frases. Este dato lo guardo en una columna adicional llamada “Frases”:

Evolución del número de frases de los personajes principales a lo largo de la serie
Evolución del número de frases de los personajes principales a lo largo de la serie

Este es uno de los gráficos más interesantes:

  • El declive de Leonard: claramente se ve como Leonard ha pasado de ser un personaje principal, a la altura de Sheldon, a un personaje secundario.
  • El paralelismo de Howard y Raj: no, no sigáis mirando, no falta la gráfica de Howard. Es que ambos tienen exactamente el mismo número de frases por temporada y por eso se superponen las líneas. Sí, he flipado. No sé si será un error del dataset, pero siendo el número de frases un cálculo propio del informe, es curioso. ¿Será una condición contractual?

El panel de Power BI

Como es habitual, os dejo el panel de Power BI para que podáis revisarlo online.

Recordad que si os suscribís a nuestra newsletter podréis descargar los ficheros pbix originales de los paneles para analizar en detalle como los hemos desarrollado:

¡SUSCRÍBETE YA!
Doy mi consentimiento para almacenar mis datos para envío de newsletters.
Si te suscribes a la newsletter tendrás acceso a los <b><u>ficheros Power BI originales</u></b> de nuestros tutoriales y post. <br><br>Además tendrás derecho a participar en sorteos periódicos que realizaremos en el blog.
We hate spam. Your email address will not be sold or shared with anyone else.
Mostrar más

Iván Arribas

Llevamos siglos generando, relacionando, modificando y almacenando datos....es hora de que les echemos un vistazo. Espero que este blog sirva de ayuda a los que quieran introducirse en este mundo de la Analítica de Datos, igual que me está sirviendo a mi.

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos Ver más

  • Responsable: Iván Arribas Delgado.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a Bluehost que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Botón volver arriba
Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver
Privacidad