Frecuencias vocálicas en diferentes idiomas

El Proyecto Gutenberg es una iniciativa desarrollada por Michael Hart con el fin de ofrecer gratuitamente libros electrónicos. En este script se descargan cuatro libros: uno en español, otro en inglés, otro en francés y el último en alemán y se estudia la frecuencia de las cinco vocales en cada uno de los textos.

#INICIO -------------------------
rm(list=ls(all=TRUE))

#Cargamos el paquete tidytext para conseguir que los datos de texto estén adecuadamente organizados
library(tidytext)

#Cargamos el paquete magrittr para poder usar la función %>%
library(magrittr)

#Cargamos el paquete dplyr para poder usar la función anti_join
library(dplyr)

#Cargamos el paquete gutenbergr para poder acceder a libros
library(gutenbergr)

#Creamos una pantalla dividida en 4 gráficos (2x2)
split.screen(c(2,2))

##########
#Descargamos un libro de Pío Baroja en español: "Mala hierba" (nº de ebook 43017)
pbar<-gutenberg_download(43017)

#Organizamos el texto del libro y obtenemos las frecuencias absolutas y relativas de las cinco vocales
tidy_pbar <- pbar %>%
unnest_tokens(word, text) %>%
anti_join(stop_words)
ggg<-paste(tidy_pbar$word,collapse=" ")
y <- tolower(strsplit(ggg, "")[[1]])
y <- y[y %in% letters]
z<-table(y)
z<-as.data.frame(z)
u<-z[z$y=="a"|z$y=="e"|z$y=="i"|z$y=="o"|z$y=="u",]

vocal<-u$y;fabs<-u$Freq;frel<-round(fabs/sum(fabs),3)
VOCALES_español<-data.frame(vocal,fabs,frel)

screen(1)
barplot(frel,names=c("a","e","i","o","u"),col='yellow',main='Español')

##########
#Descargamos un libro de Charles Dickens en inglés: "A Tale of Two Cities" (nº de ebook 98)
cdic<-gutenberg_download(98)

tidy_cdic <- cdic %>%
unnest_tokens(word, text) %>%
anti_join(stop_words)
ggg<-paste(tidy_cdic$word,collapse=" ")
y <- tolower(strsplit(ggg, "")[[1]])
y <- y[y %in% letters]
z<-table(y)
z<-as.data.frame(z)
u<-z[z$y=="a"|z$y=="e"|z$y=="i"|z$y=="o"|z$y=="u",]

vocal<-u$y;fabs<-u$Freq;frel<-round(fabs/sum(fabs),3)
VOCALES_inglés<-data.frame(vocal,fabs,frel)

screen(2)
barplot(frel,names=c("a","e","i","o","u"),col='blue',main='Inglés')

##########
#Descargamos un libro de Honoré de Balzac en francés: "Contes Bruns" (nº de ebook 11766)
hbal<-gutenberg_download(11766)

tidy_hbal <- hbal %>%
unnest_tokens(word, text) %>%
anti_join(stop_words)
ggg<-paste(tidy_hbal$word,collapse=" ")
y <- tolower(strsplit(ggg, "")[[1]])
y <- y[y %in% letters]
z<-table(y)
z<-as.data.frame(z)
u<-z[z$y=="a"|z$y=="e"|z$y=="i"|z$y=="o"|z$y=="u",]

vocal<-u$y;fabs<-u$Freq;frel<-round(fabs/sum(fabs),3)
VOCALES_francés<-data.frame(vocal,fabs,frel)

screen(3)
barplot(frel,names=c("a","e","i","o","u"),col='red',main='Francés')

##########
#Descargamos un libro de Franz Grillparzer en alemán: "Die Argonauten" (nº de ebook 7943)
fgri<-gutenberg_download(7943)

tidy_fgri <- fgri %>%
unnest_tokens(word, text) %>%
anti_join(stop_words)
ggg<-paste(tidy_fgri$word,collapse=" ")
y <- tolower(strsplit(ggg, "")[[1]])
y <- y[y %in% letters]
z<-table(y)
z<-as.data.frame(z)
u<-z[z$y=="a"|z$y=="e"|z$y=="i"|z$y=="o"|z$y=="u",]

vocal<-u$y;fabs<-u$Freq;frel<-round(fabs/sum(fabs),3)
VOCALES_alemán<-data.frame(vocal,fabs,frel)

screen(4)
barplot(frel,names=c("a","e","i","o","u"),col='grey',main='Alemán')

VOCALES_español
VOCALES_inglés
VOCALES_francés
VOCALES_alemán
#FIN -------------------------

No hay comentarios:

Publicar un comentario