Discovery/Lidando com pontos de interrogação em pesquisas

This page is a translated version of the page Discovery/Handling question marks in search queries and the translation is 100% complete.

Um problema com a pesquisa

A equipe Search da Wikimedia recentemente concluiu uma análise estatística dos recursos da pesquisa, bem como o número de resultados. Dois recursos de pesquisa que mostraram ter mais probabilidade de retornar zero resultados são sobre aspas (ex: "xyz") e pontos de interrogação finais (ex: xyz?). Aqui, exploraremos o problema destas pesquisas terminantes em ?.

Atualmente, o ponto de interrogação é usado como um curinga, correspondendo a qualquer outra letra. Por exemplo, pesquisar por est?do exibirá resultados para estado e estudo. No entanto, muitos usuários não sabem sobre isso, e usam pontos de interrogação para um propósito mais comum: perguntar.

Outro exemplo: quando um usuário pesquisa quantos anos tem Eduardo Cunha? na Wikipédia, o último termo (Cunha?) pode retornar cunhal, cunhar, cunham, mas não Cunha. Esse tipo de pesquisa pode retornar resultados inesperados e geralmente ruins.

Como encontramos o problema

Analisamos pesquisas terminantes em pontos de interrogação em dez Wikipédias: inglesa, alemã, espanhola, russa, francesa, lusófona, japonesa, italiana, polonesa e chinesa. Refizemos as pesquisas com e sem o ponto de interrogação final. Ao removê-lo, percebemos que o número de pesquisas com zero resultados diminuiu, assim como a quantidade de pesquisas que retornaram menos de três resultados.

Uma inspeção manual das pesquisas terminantes em ? em seis dos dez idiomas (inglês, alemão, espanhol, francês, português e italiano) mostrou que a grande maioria das pesquisas são realmente questões. Isso leva-nos a acreditar que os usuários geralmente não estão usando curingas intencionalmente, e sim para fazer questões.

Vale notar

  • Se um artigo termina com um ponto de interrogação (ex: Quem Tem Medo de Virgínia Woolf?), os resultados das pesquisas também incluem o artigo.
  • Há algumas pesquisas feitas apenas com pontuações, como as de interrogação (ex: ??? ???-?? ou ?…?.,??).
  • Algumas pesquisas na Wikipédia espanhola também usaram pontos de interrogação invertidos no início (¿), e concluiu-se que eles não fazem parte do problema.
  • Outras pesquisas na Wikipédia espanhola usaram pontos de interrogação normais no início ao invés dos invertidos (ex: ?cuantos años tiene Eduardo Cunha?), e mostraram que isso causa problemas na obtenção dos resultados da pesquisa.
  • Algumas pesquisa têm pontos de interrogação múltiplos (ex: quantos anos tem Eduardo Cunha??). Ao tratar ? como curinga, a pesquisa procurará por duas letras adicionais para completar a palavra. Por exemplo: Cunha?? retornaria cunhado, mas não Cunha.

Em algumas pesquisas, os pontos de interrogação finais são separados por espaço (ex: quantos anos tem Eduardo Cunha ??).

  • Muitas pesquisas com pontos de interrogação múltiplos são para perguntas múltiplas (ex: como? por que?).
  • Às vezes, perguntas múltiplas numa pesquisa não têm espaço entre elas.
  • Um pequeno número de pesquisas com pontos de interrogação significam o curinga, porém a maioria dessas incluem um ponto de interrogação no início e, mesmo assim, não retornam resultados.

Uma análise detalhada está disponível (em inglês) para leitura adicional.

Possíveis soluções eficazes

No momento, há quatro opções em desenvolvimento para lidarmos com pontos de interrogação nas perguntas:

  • no: fazer nada e deixar as pesquisas como estão.
  • final: remover todos os pontos de interrogação e espaços do final de uma pesquisa e usar esta adaptação.
  • break: remover todos os pontos de interrogação seguidos por um limite de palavra (em particular um caractere Unicode não-letra).
  • all: remover todos os pontos de interrogação e substitui-los por espaços (tratando-os como limites de palavra).

Se for decidido alterar a maneira com que a pesquisa lida pontos de interrogação, essas opções serão configuráveis para que cada wiki possa usar. É recomendado que a segunda opção (final) seja a padrão.

Recursos e notas adicionais

  • Devido ao uso de expressões regulares por pesquisas insource, as que incluíam insource: não eram modificadas.
  • Pesquisas feitas inteiramente de pontuações (ex: .,:;?¿!*-) e espaços não seriam afetadas.
  • Pontos de interrogação precedidos de uma barra invertida (ex: \?) não seriam removidos, mas não seriam contados, para que pudessem funcionar como curingas.

Mais coisas a se considerar

  • As soluções propostas acima não são eficazes contra o uso de um ? no início ao invés de um ¿ na língua espanhola, que causa problemas ainda piores.
    • Uma opção para remover o ? inicial poderia ser adicionada como função separada.
  • Se as pesquisas forem modificadas, poderemos fornecer uma ligação para uma pesquisa com todos os pontos de interrogação interpretados como curingas.
    • Isso seria semelhante à maneira com a qual pesquisas sem erros ortográficos são tratadas.

Ver também

  • mw:Help:CirrusSearch - artigo documentando as capacidades atuais da pesquisa.
  • T133711 - tarefa relacionada sobre pontos de interrogação.