Wikcionário Discussão:Estatísticas/por idioma

O conteúdo da página não é suportado noutras línguas.
Origem: Wikcionário, o dicionário livre.

Bem! Salles Neto Roraima @ 15:42, 28 Setembro 2006 (UTC)

Faltando[editar]

Tá faltando os Artigos! — Łυαη fala! 20:07, 12 Outubro 2006 (UTC)

Que artigos? Desculpa, não entendi direito. Eu escrevi um script que monta automaticamente a tabela a partir das informações em Especial:Mostlinkedcategories, então qualquer coisa que apareça lá eu posso adicionar na tabela. --Schoenfeld 21:20, 12 Outubro 2006 (UTC)
É, os artigos (o, a, os, as, um, uma, uns, umas), eles não estão lá. — Łυαη fala! 21:42, 12 Outubro 2006 (UTC)
Feito. É surpreendente que quase não temos verbetes de artigos. --Schoenfeld 23:40, 12 Outubro 2006 (UTC)
É que eles estavam em Categoria:Artigo, mas já transferi pra Categoria:Artigo (Português). — Łυαη fala! 00:08, 13 Outubro 2006 (UTC)

Script[editar]

Pessoal, coloquei aqui o script que uso para atualizar as estatísticas . É o primeiro programa que escrevo em perl, por isso ainda é meio primitivo. Sintam-se à vontade para usá-lo e melhorá-lo. --Schoenfeld 14:16, 18 Outubro 2006 (UTC)

Proposta de moção[editar]

Olá pessoal!
O que acham de mover Wikcionário:Estatísticas/por idioma para Wikcionário:Arquivo/WC/Estatísticas/por idioma? Afinal essa estatística faz parte das estatísticas gerais, devendo ser, portanto, uma subpágina. — Łυαη fala! 22:39, 19 Novembro 2006 (UTC)

Concordo com a movimentação.
Voz da Verdade 20:03, 20 Novembro 2006 (UTC)
Também concordo!
--Valdir Jorge fala! Canadá 01:10, 23 Novembro 2006 (UTC)
Feito! — Łυαη fala! 15:47, 23 Novembro 2006 (UTC)

"Só idioma"?[editar]

O que significa essa coluna? São os artigos caracterizados sem a classe gramatical ou aqueles que apresentam acepções em só um idioma? Lipediga! Paraná 14h20min de 11 de dezembro de 2007 (UTC)[responder]

Os que foram categorizados sem classe gramatical. Teoricamente a categorização deveria ser corrigida. -Diego UFCG 14h28min de 11 de dezembro de 2007 (UTC)[responder]

Então há algum problema no algoritmo de contagem do Schoenfeld... pois (após várias atualizações) a contagem de verbetes na coluna de "só idioma" do norueguês continua a ser 75... mas, na verdade, não há verbetes sem classificação de classe gramatical (ver categoria:Norueguês). Aparentemente, as sub-categorias são contadas como verbetes... Lipediga! Paraná 15h28min de 13 de dezembro de 2007 (UTC)[responder]

Sim, as subcategorias são contadas como verbetes, e eu achava que todo mundo soubesse desta imprecisão. A maneira mais confiável de obter as estatísticas seria extrair as informações do dump xml do wikcionário, mas isso seria mais complexo, seria preciso um escrever parserzinho para navegar lá dentro (pensando agora, talvez um algoritmo que apenas conte as ocorrências de strings do tipo '[[Categoria:classe gramatical (idioma)]]' também funcione, e parece trivial de fazer), além disso o dump às vezes demorava mais de um mês para sair (não sei como está agora). Então o que eu fiz foi apenas um hack rápido para extrair as informações de Especial:Mostlinkedcategories, sujeito portanto às imprecisões que estão lá, o que quer dizer que todas as páginas listadas numa categoria são contadas, independentemente do namespace. Eu nunca automatizei a atualização da tabela porque o método que uso para pegar as informações (screen-scraping) é pouco confiável. Na verdade eu comecei a reescrever o algoritmo para aproveitar os recursos da API do mediawiki (na época a API não tinha muitas funções úteis), de modo que a nova versão seria robusta o suficiente para ficar a cargo de um robô e contaria como verbetes apenas as páginas do namespace principal, mas estou sem tempo para levar o projeto adiante, só depois de janeiro eu devo ter tempo para voltar a brincar com essas coisas. Enfim, se alguém tiver soluções alternativas, não se acanhe. --Schoenfeld 16h23min de 13 de dezembro de 2007 (UTC)[responder]

Bem, não sei programar em Python Perl, e não entendo nada sobre a API do mediawiki, mas pelo que "interpretei" do seu código, ele vai de página em página do Mostlinkedcategories e verifica a contagem de verbetes de cada categoria... o que se poderia fazer é entrar de categoria em categoria (e, dentro das categorias, de página em página), contando apenas os verbetes válidos (em cada página, há um "Existem # artigos nesta categoria."). Não deixa de ser uma solução, mas lenta e trabalhosa... acho que vale mais à pena deixar como está. Lipediga! Paraná 17h05min de 13 de dezembro de 2007 (UTC)[responder]

É isso mesmo que o algoritmo faz. A API é bem simplezinha (a menos que tenham mudado), dê uma olhada em http://pt.wiktionary.org/w/api.php
Eu pretendia fazer algo semelhante ao que propuseste, eu pegava aqui a lista de todos os membros de uma categoria que não estão no namespace principal e diminuía do total fornecido em Especial:Mostlinkedcategories. Claro, nas categorias grandes o erro é pequeno (apenas 14 dos 13959 membros da Categoria:Substantivo (Português) são falsos verbetes), mas nas categorias pequenas o erro pode ser considerável. Enquanto isso, talvez seja bom colocar um aviso dizendo que os dados da tabela são apenas aproximados. --Schoenfeld 18h11min de 13 de dezembro de 2007 (UTC)[responder]


Não resisti e fiz como eu disse acima. Pego o total de membros da categoria nas Especial:Mostlinkedcategories e subtraio do número de membros que não estão no namespace principal. O problema é que agora ficou muito mais difícil saber se o script está contando direito. Qualquer erro, avisem. --Schoenfeld 19h57min de 15 de dezembro de 2007 (UTC)[responder]

Tradução de "mostlinkedcategories"[editar]

Notei que "most-linked categories" foi traduzido como "categorias mais populosas". Acho que ligação não significa "população". Não seria melhor a tradução "Categorias com um maior número de ligações"? Waltter Manoel da Silva 18h32min de 11 de dezembro de 2007 (UTC)[responder]

Atualização[editar]

Como esta página já não é mudada há muito tempo e entretanto o tamanho do wikcionário aumentou muito, eu gostaria de atualizar a página. Contudo ela agora está em arquivo e por isso não sei se a mudança seria bem recebida. Além disso acho que não vale a pena pôr as palavras separadas por classe gramatical, mas apenas dar o número de palavras para cada língua. Fico à espera das vossas opiniões. Cumprimentos.Transtagano (Discussão) 15h20min de 4 de julho de 2014 (UTC)[responder]

Eu até tentei traduzir de:Modul:Sprachenübersicht, mas sem sucesso. Não sei de programação. E não dá para listar todos os idiomas que sobrecarrega. Լսɑɴ fala! 03h50min de 25 de outubro de 2015 (UTC)[responder]

Refiz a tabela de estatísticas e agora apresenta as 50 com mais entradas seguindo o sistema de predefinição para o cabeçalho de idioma {{-xx-}}. A atualização dos números está automática. Լսɑɴ fala! 21h55min de 3 de novembro de 2015 (UTC)[responder]