Isso me lembra uma história Ouvi em estatísticas envolvendo uma alegação de uma mulher que ela poderia dizer a diferença entre a diferença entre adicionar leite ao chá e adicionar chá ao leite. Uma estatística ouviu esse impulso e decidiu projetar um experimento para determinar se sua afirmação era exata. Se você usar apenas duas xícaras, uma com leite adicionado e outra com chá adicionado, bem, até eu tenho uma chance de 50% de escolher corretamente apenas escolhendo uma aleatoriamente. Realmente não nos diz nada se ela escolher aquela com leite adicionado.
É possível usar estatísticas para estimar a probabilidade de que os resultados observados possam ser explicados por alguém que escolhe aleatoriamente xícaras de chá. Se essa probabilidade for baixa *, há uma chance estatisticamente significativa de que haja mais alguma coisa para explicar os resultados (ou seja, que o testador possa provar pode dizer a diferença). Idealmente, o cientista projetará experimentos antes da mão para que eles saibam qual nível de significância eles podem esperar na conclusão do experimento. O uso de xícaras de chá 2 nos fornece uma probabilidade de 50% de que o acaso aleatório explica a solução, por isso não é muito significativo. Acontece que um experimento de copo 8, 4 com leite adicionado e 4 com chá adicionado, torna muito mais difícil identificar corretamente os copos 4 com leite adicionado se você os selecionar aleatoriamente. De fato, há apenas um% de 1.4 que alguém selecionará corretamente os copos do 4. Se a mulher for bem-sucedida, há uma alta probabilidade de que ela possa discernir a diferença. No entanto, se ela errar uma, essa afirmação não seria estatisticamente correta (há quase uma chance de 1 no 4 de acertar três de quatro xícaras se você as selecionar aleatoriamente - não é impressionante).
Sua pergunta sobre massas é quase exatamente a mesma que envolve o chá: uma pessoa pode dizer a diferença entre a comida A e a comida B. Somente em vez de adicionar chá ao leite ou adicionar leite ao chá, você examina as massas americanas e as italianas . O experimento do chá exigiu que o bebedor escolhesse corretamente quais tinham leite adicionado. Se você estiver interessado apenas em saber se os seus convidados sabem a diferença, mas não necessariamente se eles conseguem identificar corretamente quem é EUA e qual é italiano, um experimento semelhante alcançaria apenas um nível de significância 2 * 1.4% = 2.8%. Ainda é muito bom.
Obviamente, preparar pratos 8 por hóspede pode ser um pouco trabalhoso. Se você faz pratos 6, com o 3 americano e o italiano 3, você está certo com a importância de 5% se um hóspede escolher corretamente as massas. O uso de pratos 4 forneceria um significado de 1 / 6 (16.7%) e pratos de 3 forneceriam apenas um significado de 1 / 3 (33.3%). Depende de você determinar quanta confiança você deseja e quanto trabalho deseja colocar nela;).
Observe que esses números são para um único indivíduo testando a louça. Presumindo que você tenha vários convidados, a análise fica mais complicada, pois você está adicionando uma variável adicional (cada indivíduo é diferente). Geralmente, ter mais convidados ajudaria você a ter certeza de que há uma diferença nas massas ... se todas elas passarem no teste que você configurou. Se apenas um punhado é, é muito mais difícil tirar conclusões.
* A escolha da probabilidade alvo de que o acaso possa explicar as observações (a hipótese nula) é arbitrária. Uma probabilidade mais baixa significa que você tem mais confiança em suas observações, mas requer mais trabalho. Em muitos campos científicos, um nível de 5% é considerado "estatisticamente significativo", mas há um retrocesso no sentido de que um nível muito menor deve ser usado, como aludido por @doneal24 nos comentários.