Isso é chamado de intervalo dinâmico . Nos termos mais simples, imagine que você tenha uma escala numérica fixa de 1 a 100, que diz o quão alto é algo, e deseja que todos os sons em sua gravação sejam razoavelmente representativos dos sons reais dentro do contexto de todos os outros sons. a gravação.
Então, para um filme de ação, você quer que as explosões sejam 100 e "silêncio ambiente" sejam 1. Tudo o mais precisa estar no meio em algum lugar e ainda ser crível: você quer tiros a ponto de ser mais alto do que casual conversa.
Se você ajustar o volume para ouvir a caixa de diálogo, agora as outras coisas estão crescendo. Mas se o engenheiro de áudio definir o diálogo aos 80, agora os tiros soam como pipoca. Uma espécie de catch-22.
Quanto a como atenuar isso, algumas TVs ou receptores têm configurações de "faixa dinâmica baixa" ou "modo silencioso" etc. nas preferências de áudio. A maioria dos diálogos está no canal central, então você pode tentar diminuir o volume dos outros canais. Descobri que escolher "estéreo" em vez de 5.1 pode melhorar o nível de volume da caixa de diálogo.
Alguns dos métodos para "consertar" isso em tempo real envolvem métodos de look-ahead que podem introduzir atraso de tempo entre vídeo e áudio. Não é grande coisa para dispositivos que permitem o ajuste (minha TV tem uma configuração de latência).
Mais google / leitura: "loudness war" "áudio de alcance dinâmico"