Harvard vai liberar uso de livros de domínio público para treinar IA
Tudo sobre Inteligência Artificial
A Universidade de Harvard anunciou o lançamento de um vasto conjunto de dados com quase 1 milhão de livros de domínio público, disponíveis para treinar modelos de linguagem e outras ferramentas de IA. As informações são do WIRED.
O projeto, desenvolvido pela Institutional Data Initiative de Harvard com apoio da Microsoft e OpenAI, inclui livros digitalizados no âmbito do projeto Google Books, abrangendo uma ampla gama de gêneros e idiomas.
Esse banco de dados é cinco vezes maior que o famoso Books3 e visa democratizar o acesso a conteúdo de qualidade, normalmente restrito a grandes empresas de tecnologia. Greg Leppert, diretor da iniciativa, destacou que o projeto visa “nivelar o campo de jogo”, permitindo que pequenas empresas e pesquisadores tenham acesso a dados valiosos.
Leia mais:
Treino de IA e os direitos autorais
- A Microsoft e a OpenAI apoiam a iniciativa como parte de sua crença em criar “pools de dados acessíveis” para o desenvolvimento de IA.
- O lançamento ocorre em meio a uma crescente discussão legal sobre o uso de dados protegidos por direitos autorais para treinar IA, com ações judiciais que podem mudar a forma como os modelos são treinados no futuro.
- Harvard, por sua vez, também está trabalhando em colaboração com a Biblioteca Pública de Boston para digitalizar artigos de jornais de domínio público e está aberta a futuras parcerias.
Além desse projeto, outras iniciativas de dados de domínio público estão surgindo, como o Common Corpus da startup francesa Pleias e o Source.Plus da Spawning, que visam fornecer conjuntos de dados de alta qualidade para treinar IA sem questões de direitos autorais.
Esses esforços destacam que é possível criar modelos de IA de alto desempenho utilizando apenas materiais de domínio público ou licenciado, sem a necessidade de usar dados protegidos por direitos autorais.