GitHub dos EUA lança conjunto de dados de repositórios multilíngues, abrangendo mais de 40 milhões de repositórios
2026-06-16 09:37
Favoritos

De acordo com pt.wedoany.com-O GitHub lançou o Conjunto de Dados de Repositórios Multilíngues do GitHub (GitHub Multilingual Repositories Dataset), um conjunto de metadados em nível de repositório projetado para ajudar pesquisadores e desenvolvedores a descobrir repositórios públicos do GitHub que contêm conteúdo em linguagem natural não inglesa. Na construção deste conjunto de dados, a distribuição de diferentes idiomas em READMEs, issues e pull requests varia: o coreano é o idioma não inglês mais comum em textos de issues, mas ocupa apenas o quinto lugar em READMEs; o português lidera entre os READMEs não ingleses, abrangendo mais de 3 milhões de repositórios. À medida que a IA desempenha um papel cada vez mais importante na construção de software pelos desenvolvedores, o conteúdo multilíngue para desenvolvedores é mais crucial do que nunca. O conjunto de dados agora está disponível no GitHub sob a licença CC0-1.0, cumprindo o compromisso assumido pelo GitHub em 2025 como parte dos Compromissos Digitais Europeus da Microsoft (Microsoft's European Digital Commitments) de tornar os dados multilíngues mais acessíveis, inclusive para desenvolvedores de IA de código aberto.

Este conjunto de dados não é um despejo do conteúdo dos repositórios, mas um conjunto de metadados que abrange mais de 80 milhões de registros classificados, envolvendo mais de 40 milhões de repositórios. Para cada repositório público, são fornecidos: a classificação de idioma do README, da issue com mais comentários e do pull request com mais comentários, utilizando os primeiros 150 caracteres de cada como amostra de entrada, excluindo textos com menos de 20 caracteres; os resultados da classificação de cada fonte de texto vêm de fastText, gcld3 e lingua-py, cada um acompanhado de uma pontuação de confiança, e o conjunto de dados inclui apenas classificações com confiança maior que 0,5; os metadados do repositório incluem carimbo de data/hora de criação, uso de disco, número de estrelas, número de forks, linguagem de programação principal, licença SPDX, contagens de issues e pull requests, e data do instantâneo. O GitHub intencionalmente não combina os três classificadores em um único rótulo, pois diferentes classificadores variam em cobertura e calibração de confiança, especialmente para idiomas com menos recursos. Ao disponibilizar todos os três resultados de classificação, os usuários podem decidir o nível de rigor por conta própria.

Este conjunto de dados pode ser usado para descobrir repositórios que podem conter documentação ou colaboração de desenvolvedores em idiomas específicos, estudar como comunidades de desenvolvedores não ingleses usam issues, pull requests e READMEs, construir conjuntos de avaliação para ferramentas de codificação de IA, geradores de documentação ou assistentes de revisão (que precisam ter bom desempenho em vários idiomas), incentivar formuladores de políticas a usar argumentos baseados em dados sobre a diversidade multilíngue de desenvolvedores para expandir a cobertura de idiomas, e medir o desempenho de idiomas sub-representados na Europa e em outras regiões no código aberto. A identificação de idiomas é difícil em repositórios de software, pois os textos geralmente são muito curtos, podendo conter emblemas, modelos, comandos de instalação, trechos de código, nomes de usuário ou conteúdo multilíngue misturado, e amostras de 150 caracteres podem não representar todo o repositório. Portanto, este conjunto de dados não deve ser considerado uma referência de verdade absoluta para identificação de idiomas, mas sim uma ferramenta de descoberta transparente. O conjunto de dados também não deve ser usado para inferir atributos sensíveis dos proprietários, contribuidores ou comunidades do repositório, pois esses sinais são metadados em nível de repositório, não atributos em nível pessoal.

Muitos idiomas europeus ainda estão sub-representados em textos online usados para construir e avaliar sistemas de IA, o que pode fazer com que as ferramentas de IA tenham bom desempenho para alguns desenvolvedores, idiomas e comunidades, enquanto deixam outros para trás. Dados abertos ajudam a reduzir essa lacuna. Este conjunto de dados foi construído porque o conteúdo de desenvolvedores difere de textos web genéricos; READMEs, issues e pull requests contêm a linguagem da colaboração em software, como instruções de instalação, relatórios de bugs, solicitações de funcionalidades, comentários de revisão e normas da comunidade. Esses contextos ajudam a construir sistemas de IA que entendem melhor como os desenvolvedores realmente trabalham. Ao tornar os sinais de conteúdo multilíngue de desenvolvedores mais fáceis de descobrir e analisar, este conjunto de dados fornece a pesquisadores, desenvolvedores de código aberto e construtores de modelos ferramentas para estudar a representação de idiomas no desenvolvimento de software, ajudando a identificar lacunas, apoiar melhores avaliações e criar ferramentas de IA mais inclusivas para desenvolvedores na Europa e em outras regiões.

O GitHub discutirá este conjunto de dados e a importância mais ampla dos dados abertos para a IA multilíngue em 16 de junho, no Centro de Diálogo de Inovação Aberta (Open Innovation Dialogue Hub), em Estrasburgo. O evento, coorganizado pelo Centro de Inovação Aberta da Microsoft (Microsoft Open Innovation Center), pelo Conselho da Europa (Council of Europe) e pelo GitHub, reunirá formuladores de políticas, pesquisadores, instituições culturais e líderes de inovação aberta para explorar IA, diversidade linguística, patrimônio cultural e dados abertos.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com