Estatísticas da duração do capítulo de Harry Potter

2

Estou procurando algumas estatísticas sobre o típico número de palavras do capítulo de Harry Potter.

Uma distribuição bem representada seria boa, mas aceitarei uma resposta que tenha algo equivalente à média, desvio padrão e quartis.

    
por ibid 21.01.2019 / 13:22

2 respostas

Para calcular essa resposta, usei o texto dos ePubs oficiais do Pottermore (cada capítulo é salvo como um arquivo html separado). Eu executei o htmls através de utilitário que eu encontrei para convertê-los em txt, e então usei o comando unix wc -w para gerar uma lista de contagens de palavras de capítulo . (Fique à vontade para brincar com os dados por conta própria).

Eu pluguei isso no excel e fiz alguns cálculos.

Nota: Todos os dados abaixo usam o texto do Reino Unido. O texto americano tende a ser um pouco mais curto.

  • O capítulo mais longo é o Livro 5, Capítulo 13 - "Detenção com Dolores" em 9.001 palavras.
  • Sem contar o epílogo, o capítulo mais curto é o Livro 3, Capítulo 20 - "O Beijo dos Dementadores", com 2.018 palavras.
  • A duração média dos capítulos é de 5,547 palavras.
  • O desvio padrão é de 1.525 palavras.
  • 50% dos capítulos estão entre 4.464 e 6.613 palavras. (ou seja, o primeiro e terceiro quartil)

Veja como a distribuição se parece com uma largura de caixa de 500 palavras.

No entanto, vale a pena notar que alguns fatores têm um efeito significativo na duração do capítulo, como a duração do livro e a posição no livro.

    
23.01.2019 / 07:50

Para a série como um todo, podemos tabular o número de capítulos e a extensão dos livros e encontrar a média ponderada da duração de um capítulo (leia this para ver o que é uma média ponderada e porque você não pode simplesmente tirar uma" média de médias " ).

Uma planilha do Excel criada por mim. O número em negrito e em azul é a média ponderada calculada.

Assim, o comprimento médio ponderado do capítulo em toda a série é de 5542 palavras (arredondado para a palavra inteira mais próxima). Se eu tivesse uma fonte para determinar o comprimento da palavra por capítulo de cada livro, poderíamos encontrar uma média ponderada por livro e então tirar uma média ponderada disso, mas eu não imagino que muito longe do 5542 calculado aqui.

O desvio padrão é um pouco mais complicado, pois, com todos os diferentes livros, considerar um desvio padrão ponderado seria mais apropriado. Depois de muito trabalho no Excel com a equação, finalmente consegui um resultado de 747 (arredondado para a palavra inteira mais próxima, 746.5898815 exatamente).

Com esses valores, podemos obter uma distribuição normal adorável.

Usando a média ponderada e o desvio padrão ponderado, o comprimento do capítulo pode ser distribuído normalmente (veja o link na parte inferior para fazer isso sozinho). Nesta imagem, podemos ver que a probabilidade de um capítulo ter mais de 6000 palavras é de cerca de 27%.

Não tenho certeza de quão útil eles serão para você, mas de qualquer forma os quartis são os seguintes (palavra inteira mais próxima):
Q 1 = 5038
Q 2 = 5542
Q 3 = 6045

Fontes de resposta:
Comprimento da palavra dos capítulos: este site
Número de capítulos por livro: este outro site
Distribuidor Normal (insira os valores você mesmo): este site bacana

    
22.01.2019 / 01:05