Sim, você também pode fazer com que perguntas não respondidas falem! Mas do que estamos falando aqui?
Entre os indicadores de qualidade de resposta, a taxa de conclusão indica a proporção de respostas completas em todo o banco de dados. Quando está baixo, isso pode causar sérias dificuldades, principalmente no contexto de análises bivariadas ou, ainda mais, multivariadas, como regressões múltiplas ou análises de cluster.
Diante dessa falta de informação que
afeta a confiabilidade e o enriquecimento dos dados, diversas estratégias podem ser adotadas. Neste artigo, explicamos os métodos para lidar com valores ausentes para obter os resultados mais consistentes possíveis.
Se o volume de não respostas permanecer em um nível aceitável ou se, para certas perguntas específicas, essas não respostas refletirem uma opinião ou comportamento interessante de analisar, é possível manter a base de respostas intacta. De fato, esta opção permite que os dados iniciais não sejam alterados e, assim, preserva a integridade das respostas coletadas.
Neste caso, é essencial indicar claramente, nas tabelas resumo de resultados, o número de não respostas e/ou a taxa de resposta para cada questão. Isso nos permite contextualizar as análises e evitar qualquer interpretação tendenciosa. Além disso, as porcentagens podem ser calculadas de duas maneiras distintas:
Essa abordagem é particularmente útil para estudos exploratórios ou descritivos, nos quais se deseja apresentar uma imagem fiel dos dados coletados sem tentar preencher artificialmente as lacunas.
Uma das soluções mais simples para lidar com valores ausentes é substituí-los por indicadores estatísticos como:
De fato, esse método se baseia na hipótese de que os não respondentes têm comportamentos ou opiniões próximas aos da maioria dos respondentes. É fácil de implementar e permite manter todos os dados nas análises.
Entretanto, essa abordagem tem limitações significativas. De fato, ao substituir os valores ausentes pela média ou moda, você reduzirá artificialmente a variabilidade interindividual, o que tende a enviesar os resultados ao homogeneizar a amostra. Além disso, não é adequado para situações em que as não respostas revelam uma característica específica ou singularidade dos indivíduos.
Essa abordagem é particularmente útil quando os valores ausentes dizem respeito a determinados itens da mesma escala de medição. Por exemplo, isso pode ser aplicado no contexto da avaliação de um construto psicológico, como o estresse ocupacional (demand control), medida pelo modelo KARASEK, frequentemente utilizado em estudos sobre riscos psicossociais (PSR) em empresas.
Outra estratégia mais completa e lógica é substituir um valor ausente pelo de um indivíduo com características semelhantes. Isto é o que chamamos de método do “vizinho mais próximo”. Baseia-se na ideia de que um não respondente provavelmente compartilha comportamentos ou opiniões próximas às de um indivíduo com perfil semelhante.
Assim, uma vez identificado esse “vizinho mais próximo”, é apropriado atribuir logicamente às respostas ausentes as desse “sósia”.
Vamos imaginar uma pesquisa com turistas, na qual um indivíduo, o número 122, não respondeu a uma pergunta sobre seu tipo de acomodação (pergunta 1 na tabela abaixo). Para preencher essa lacuna, identificamos, entre os 536 indivíduos que responderam a pesquisa, aquele cujas respostas às outras perguntas são mais próximas daquelas do indivíduo nº 122.
Usando um cálculo de distância, o “vizinho mais próximo” do indivíduo #122 é o indivíduo #51.
De fato, observamos na tabela abaixo que as duas pessoas têm em comum seis respostas das 13 possíveis, além de respostas muito semelhantes para as demais questões. Portanto, atribuímos ao não respondente n.º 122 a resposta do seu vizinho mais próximo, n.º 51, para o modo de acomodação. Por dedução, aqui está ele no hotel!
A proximidade entre dois indivíduos é avaliada usando um indicador de distância, que mede a diferença entre suas respostas. Quanto mais próxima a distância for de 0, mais semelhantes os indivíduos serão. Por outro lado, quanto maior, mais diferentes são os entrevistados.
Para realizar esse cálculo, levamos em consideração todas as perguntas que os dois indivíduos responderam. No entanto, também é possível limitar essa análise a algumas perguntas específicas que provavelmente preverão melhor o valor ausente, como gênero, idade ou ocupação.
Este método tem várias vantagens:
Por outro lado, requer um banco de dados suficientemente rico para permitir comparações relevantes.
Para substituir valores ausentes em um questionário, um método final é usar a resposta mais frequente dada por um indivíduo a outras perguntas na mesma dimensão. Essa abordagem é particularmente útil quando você precisa calcular uma pontuação, porque cada participante deve ter respondido a todas as perguntas para que a pontuação seja válida.
Este método é baseado no princípio da coerência intraindividual. É semelhante à técnica do vizinho mais próximo, mas se aplica apenas a um determinado indivíduo. A ideia é que, como perguntas na mesma dimensão medem o mesmo conceito, é possível inferir uma resposta provável para uma pergunta com base nas respostas já dadas para outras perguntas.
Por exemplo, se um participante responder “concordo totalmente” a duas perguntas sobre a cordialidade de um recepcionista – como “Ele ou ela é amigável?” e “Ele lhe proporcionou uma recepção calorosa?" – podemos supor que ele daria uma resposta semelhante a uma terceira pergunta da mesma natureza, como “Ele tem um bom relacionamento com você?".
Em última análise, manter as não respostas ou substituí-las depende dos objetivos do estudo e da natureza dos dados.
Texto traduzido e adaptado de:
https://www.lesphinx-developpement.fr/blog/comment-traiter-non-reponses-questionnaire/