Que tipos de preconceito os dados podem ter?
Muitos tipos, na verdade. Talvez os tipos mais comuns de viés acidental sejam:
Dados "raspados", que não são muito simétricos, mas um pouco mais largos ou mais estreitos em um eixo do que em outros. Um d6 raspado com, digamos, o eixo 1-6 mais longo que os outros rolará esses lados com menos frequência, tornando-o "menos oscilante" do que um d6 normal (mas deixando o rolo médio inalterado). O nome vem de trapaceiros, na verdade raspando ou lixando dados para achatá-los, mas dados baratos podem ter esse tipo de viés simplesmente por serem mal feitos. Outros vieses semelhantes devido à forma assimétrica também são possíveis, especialmente em dados com muitos lados.
Faces desiguais (côncavas / convexas) podem ter maior ou menor probabilidade de "grudar" na mesa, favorecendo ou desfavorecendo o lado oposto. O efeito preciso pode depender do material da mesa e de como os dados são rolados. Mais uma vez, os estojos de dados de plástico baratos apresentam facilmente esse tipo de viés, por exemplo, devido ao encolhimento do plástico de maneira desigual à medida que esfria após a moldagem. Desigual bordas também pode criar viés, principalmente se a aresta for assimétrica (ou seja, mais nítida de um lado).
Dados "carregados" reais, isto é, dados com um centro de gravidade deslocado do centro geométrico, podem ocorrer acidentalmente devido a bolhas presas no interior do plástico ou, mais comumente, simplesmente devido aos números em relevo nas laterais da matriz que afetam a balança. . De fato, quase todos Os dados, com exceção dos dados de cassino de alta qualidade, deliberadamente equilibrados para evitar esse tipo de preconceito, provavelmente o terão em certa medida.
Como descobrir se um dado é justo?
Obviamente, você precisa enrole. De preferência, você deve fazer isso da mesma maneira, no mesmo tipo de mesa, como usaria em um jogo; enquanto dados verdadeiramente justos devem ser justos em qualquer superfície, alguns tipos de viés podem aparecer apenas em algumas superfícies.
Continue rolando o mesmo dado várias vezes e conte quantas vezes cada lado aparece. Se você tem um amigo para ajudá-lo, pode fazer com que eles contabilizem os rolos conforme você os chama, para que você não precise alternar entre rolar e marcar os resultados o tempo todo. Quando seu braço estiver cansado de rolar dados, troque de papéis.
Quantas vezes você precisa rolar?
Para o tipo de teste estatístico descrito abaixo (Teste de \ $ \ chi ^ 2 \ $ de Pearson), uma regra prática comum é ter pelo menos cinco vezes mais rola como existem lados no dado. Assim, para um d20, você precisa finalmente O 100 rola para que o teste seja válido. (Tem outros testes estatísticos isso pode ser usado com menos rolagens, mas elas exigem matemática um pouco mais complicada.) Obviamente, mais rolagens não serão prejudicadas se você tiver paciência e, quanto mais rolagens você contar, melhor o teste detectará tendências sutis.
(Nota: se você comprou, por exemplo, um grande número de d6s baratos para rolar grandes conjuntos de dados, pode Não há problema em apenas juntá-los e somar o número de vezes que cada rosto aparece. Claro, dessa forma, você não detectará se um dos dados tem, digamos, um pouco mais chances de rolar um 6, enquanto outro é um pouco menos provavelmente rolá-lo, mas você ainda detectará qualquer sistemático preconceitos devido a, digamos, todos os dados serem assimétricos da mesma maneira.)
OK, eu rolei o dado vezes 100. O que agora?
Agora é hora de fazer algumas contas.
Primeiro, verifique a contagem de quantas vezes cada lado surgiu. Abaixo, chamarei o número de vezes que o lado 1 apareceu \ $ n_1 \ $, o número de vezes que o lado 2 apareceu \ $ n_2 \ $ e assim por diante até \ $ n_ {20} \ $ para um d20 . Também usarei \ $ N \ $ para indicar o número total de rolagens, ou seja, \ $ N = n_1 + n_2 + \ dots + n_ {20} \ $.
Em seguida, calcule o esperado o número de vezes que cada lado deve ter dado um dado justo, ou seja, o número total de jogadas dividido pelo número de lados.1 (Não há problema em ser um número fracionário.) Ligue para este número \ $ n _ {\ exp} \ $. Por exemplo, para \ $ N = 100 \ $ rolos de um d20, \ $ n _ {\ exp} = \ frac {N} {20} = 5 \ $.
-
Agora, para cada lado k (de 1 para 20, para um d20), calcule o diferença entre a contagem real e a esperada de vezes em que o lado surgiu, coloque-a ao quadrado (ou seja, multiplique-a por si mesma) e divida-a pela contagem esperada. Ou seja, calcule:
$$ \ chi ^ 2_k = \ frac {\ left (n_k - n _ {\ exp} \ right) ^ 2} {n _ {\ exp}} $$
para cada número possível \ $ k \ $ do seu dado (ou seja, de \ $ k = 1 \ $ a \ $ k = 20 \ $, para um d20).2
Por fim, adicione todos os resultados da etapa anterior para obter a estatística do teste $$ \ chi ^ 2 = \ chi ^ 2_1 + \ chi ^ 2_2 + \ dots + \ chi ^ 2_ {20} = \ sum_ {k = 1 } ^ {20} \ frac {\ left (n_k - n _ {\ exp} \ right) ^ 2} {n _ {\ exp}}. $$
OK, eu tenho essa figura \ $ \ chi ^ 2 \ $. O que eu faço com isso?
O valor \ $ \ chi ^ 2 \ $ que você calculou é uma medida de quão tendencioso o dado parece ser, com base nos números que você rolou com ele. Mas o que conta como um valor razoável de \ $ \ chi ^ 2 \ $ e onde está o limite em que você deve começar a suspeitar?
Para isso, você precisa faça um pouco mais de matemáticaou, mais facilmente, apenas procure em uma mesa.
Para usar a tabela, primeiro você precisa saber quantos "graus de liberdade" nosso teste possui. Isso é mais simples do que parece: para um dado de \ $ d \ $, o teste tem \ $ \ nu = d - 1 \ $ graus de liberdade (ou seja, \ $ \ nu = 19 \ $ para um d20).3 Isso informará qual linha da tabela deve ser visualizada.
Na tabela acima, a linha 19 fica assim:
Probabilidade menor que o valor crítico ν 0.90 0.95 0.975 0.99 0.999 -------------------------------------- -------------------- 19 27.204 30.144 32.852 36.191 43.820
O que isto significa? Bem, isso significa que, if o dado é realmente justo, então \ $ \ chi ^ 2 \ $ será menor que 27.204 em 90% de todos os testes, menor que 30.144 em 95% de todos os testes e assim por diante. Somente uma vez em mil testes um d20 justo realmente produzirá um valor \ $ \ chi ^ 2 \ $ maior que o 43.820.
Portanto, comparando \ $ \ chi ^ 2 \ $ com os valores críticos da tabela, é possível estimar a probabilidade de polarização.4 Se \ $ \ chi ^ 2 \ le 27 \ $, o dado provavelmente não tem viés, ou pelo menos você não contou testes suficientes para detectá-lo; em torno de \ $ \ chi ^ 2 \ ge 30 \ $ mais ou menos, você poder quer se preocupar e talvez reserve o dado para testes adicionais; se \ $ \ chi ^ 2 \ ge 40 \ $, você pode declarar o dado tendencioso com uma confiança bastante alta.
Observe que o teste do qui-quadrado não não diga qualquer coisa sobre como o dado é tendencioso: um dado que, digamos, rola o 10 com mais freqüência e o 11 com menos frequência do que deveria, tem a mesma probabilidade de falhar no teste do que aquele que rola o 20 com mais freqüência e o 1 com menos frequência. É claro que, se o teste do qui-quadrado detectar viés, você pode apenas olhar para as contagens para ver quais ocorrem com mais frequência do que o esperado.
Ps. Por conveniência, aqui estão as linhas da tabela para alguns outros tipos de dados comumente usados:5
Valores críticos da cauda superior da distribuição do χ² com ν graus de liberdade (fonte: NIST) Probabilidade menor que o valor crítico ν 0.90 0.95 0.975 0.99 0.999 -------------------- -------------------------------------- 1 (d2) 2.706 3.841 5.024 6.635 10.828 2 (d3 ) 4.605 5.991 7.378 9.210 (d13.816) 3 4 6.251 7.815 9.348 11.345 (d16.266) 5 6 9.236 11.070 12.833 (d15.086) 20.515 7 8 12.017 (d14.067) 16.013 18.475 24.322 (d9) 10 14.684 (d16.919) 19.023 21.666 27.877 11 12
Notas de rodapé:
1) Para um dado justo comum, o número esperado de vezes que cada lado aparece é obviamente o mesmo, mas nós poderia use o teste do qui-quadrado também para dados que nós não espere rolar cada número com a mesma frequência (como, digamos, dados em que o mesmo número aparece várias vezes). Nesse caso, teríamos apenas \ $ n _ {\ exp} \ $ diferentes para cada rolagem possível do dado.
2) Não conheço um símbolo convencional para esses valores intermediários, mas \ $ \ chi ^ 2_k \ $ parece uma escolha razoável, pois ambos somam a estatística de teste \ $ \ chi ^ 2 \ $, e que cada um deles é o quadrado de uma variável aleatória (aproximadamente) normalmente distribuída e, portanto, é ela mesma \ $ \ chi ^ 2 \ $ - distribuído. Seu texto de estatísticas favorito, se incomoda dar a eles um símbolo, pode usar outra coisa.
3) O número de graus de liberdade é essencialmente o número de valores em nossas medições que podem variar independentemente. Aqui, estamos medindo os valores 20, \ $ n_1 \ $ a \ $ n_ {20} \ $, mas eles não são totalmente independentes: sabemos que \ $ n_1 + n_2 + \ dots + n_ {20} = N \ $, assim que conhecermos o 19 dos valores, podemos calcular o último com base no outro 19. Daí, graus de liberdade 19.
4) Observe que os números no cabeçalho da tabela dão a probabilidade de que um dado perfeitamente justo produza um valor \ $ \ chi ^ 2 \ $ maior que o valor crítico nessa coluna. Isto é não o mesmo que a probabilidade de que um dado com \ $ \ chi ^ 2 \ $ menor que o valor crítico seja justo ou que um dado com \ $ \ chi ^ 2 \ $ maior que o valor crítico seja enviesado; para calcular essas probabilidades, primeiro você precisa conhecer o a priori frequência de viés entre seus dados. De fato, em certo sentido, essas perguntas nem sequer são significativas para perguntar: verdadeiramente dados justos existem apenas no domínio platônico das idéias, e todo real morrer quase certamente tem alguns viés, se você o medir com cuidado o suficiente. Assim, em certo sentido, qualquer alegar que um dado dado é justo é falso; tudo o que realmente podemos dizer é que é perto o suficiente justo que não podemos dizer a diferença.
5) Um "d2" é, obviamente, uma moeda. Use a coluna "d3" (\ $ \ nu = 2 \ $), por exemplo, para dados do Fudge.
Termo aditivo: Então, quantos rolos precisamos realmente detectar dados tendenciosos? Bem, eu fiz alguns testes rápidos de simulação, usando um extremamente d20 virtual tendencioso que Nunca rola um 1 e rola o 20 duas vezes com a frequência que deveria. Usando os diferentes limites de \ $ \ chi ^ 2 \ $ dados na tabela acima e vários números de testes de teste, do mínimo de 100 até 400, eis a fração de execuções nas quais os \ $ \ chi ^ 2 \ $ valor excedeu o limite:
Probabilidade de passar um dado justo | Rolos 0.90 0.95 0.975 0.99 0.999 + ------------------------------------------- ---- | Probabilidade de detectar o viés 100 | 0.50 0.37 0.26 0.17 0.054 200 | 0.89 0.80 0.69 0.55 0.28 300 | 0.9932 0.972 0.938 0.87 0.62 400 | 0.9999 0.9992 0.9961 0.985 0.88
Em cada caso, a probabilidade de detectar falsamente um viés em um dado justo é essencialmente independente do número de jogadas - esse é um recurso deliberado do teste \ $ \ chi ^ 2 \ $. A probabilidade de corretamente detectar o dado inclinado, no entanto, aumenta significativamente com mais rolos.
Na tabela acima, podemos ver que os rolos 100 (o número mínimo para o teste \ $ \ chi ^ 2 \ $ é válido) é muito pouco para detectar até mesmo um viés tão flagrante: mesmo se definirmos \ \ chi ^ 2 \ $ limiar tão baixo que acabamos rejeitando 10% de todos os dados justos, ainda capturamos apenas cerca de 50% dos dados tendenciosos, e isso só piora à medida que aumentamos o limiar.
Por outro lado, com as rolagens 400, as coisas parecem muito melhores: definindo o limite em \ $ \ chi ^ 2 \ le 36.191 \ $, 99% de todos os dados justos passará neste teste, enquanto cerca de 98.5% de todos os dados tendenciosos dados neste teste irá falhar. (Claro, ainda estamos falando sobre muito dados fortemente tendenciosos aqui; um viés mais sutil será mais difícil de detectar.)
OK, mas certamente um dado que Nunca rolos 1 deve ser fácil detectar? Afinal, com um d20 razoável, a probabilidade de rolar vezes 100 e nunca ver um 1 é apenas \ $ \ left (\ frac {19} {20} \ right) ^ {100} \ approx 0.006 \ $. Isso não deveria ser abundância de razão para considerar o dado tendencioso? O que da?
Bem, uma razão pela qual o teste \ $ \ chi ^ 2 \ $ parece tão ineficaz aqui é que ele está procurando qualquer tipo de viés. Certamente, se rodarmos um d20 centenas de vezes e nunca vimos um 1, poderemos suspeitar justificadamente. Mas e se nunca vimos um 7, um 15 ou qualquer outro dos rolos possíveis? Aqueles tb Por que chamar o dado de tendencioso?
Bem, acontece que, mesmo que a probabilidade de nunca rolar um 1 no 100 role em um d20 seja apenas cerca de 0.6%, a probabilidade de nunca rolar alguns número é cerca de 20 vezes isso ou cerca de 12%. Portanto, se rejeitarmos todos os dados do lado 20 que nunca rolaram algum número nos lançamentos 100, acabaríamos rejeitando cerca de 12% de todos os dados justos também. E, claro, também existem muitos de outros tipos de possíveis vieses que o teste \ $ \ chi ^ 2 \ $ também detectará; portanto, com apenas rolos 100, é bem provável que ele detecte alguns viés mesmo em um d20 perfeitamente justo e, portanto, precisamos definir o valor limite bastante alto para compensar.
Se nós fossemos apenas interessados em influenciar os testes mais extremos (1 e 20), poderíamos modificar o teste \ $ \ chi ^ 2 \ $ para, por exemplo, agrupar todos os testes entre 2 e 19 em uma única categoria, com \ $ n _ {\ exp} = \ frac {18 \ times N} {20} \ $ e use o limite \ $ \ chi ^ 2 \ $ para dois graus de liberdade (já que agora temos apenas três resultados possíveis: 1, 20 ou outra coisa) . Esse teste \ $ \ chi ^ 2 \ $ modificado é um lote melhor na detecção dessa forma específica de viés, com mais da metade dos dados tendenciosos falhando no teste na taxa de falso-positivo 1%, mesmo com apenas jogadas 100, e mais de 99.99% delas falhando com jogadas 200.
Obviamente, o preço que pagamos por esse poder discriminatório extra é que esse teste modificado será completamente alheio para a maioria de outros tipos de preconceito - por exemplo, passará feliz por um dado que nunca rola um 2e que rola 19 duas vezes mais que deveria.