Harvard vai liberar uso de livros de domínio público para treinar IA

Harvard vai liberar uso de livros de domínio público para treinar IA
Publicado em 14/12/2024 às 6:35

A Universidade de Harvard anunciou o lançamento de um vasto conjunto de dados com quase 1 milhão de livros de domínio público, disponíveis para treinar modelos de linguagem e outras ferramentas de IA. As informações são do WIRED.

O projeto, desenvolvido pela Institutional Data Initiative de Harvard com apoio da Microsoft e OpenAI, inclui livros digitalizados no âmbito do projeto Google Books, abrangendo uma ampla gama de gêneros e idiomas.

Esse banco de dados é cinco vezes maior que o famoso Books3 e visa democratizar o acesso a conteúdo de qualidade, normalmente restrito a grandes empresas de tecnologia. Greg Leppert, diretor da iniciativa, destacou que o projeto visa “nivelar o campo de jogo”, permitindo que pequenas empresas e pesquisadores tenham acesso a dados valiosos.

Leia mais:

livros
Banco de dados disponibilizado por Harvard possui vasto conteúdo de livros de domínio público – Imagem: Jure Divich/Shutterstock

Treino de IA e os direitos autorais

  • A Microsoft e a OpenAI apoiam a iniciativa como parte de sua crença em criar “pools de dados acessíveis” para o desenvolvimento de IA.
  • O lançamento ocorre em meio a uma crescente discussão legal sobre o uso de dados protegidos por direitos autorais para treinar IA, com ações judiciais que podem mudar a forma como os modelos são treinados no futuro.
  • Harvard, por sua vez, também está trabalhando em colaboração com a Biblioteca Pública de Boston para digitalizar artigos de jornais de domínio público e está aberta a futuras parcerias.

Além desse projeto, outras iniciativas de dados de domínio público estão surgindo, como o Common Corpus da startup francesa Pleias e o Source.Plus da Spawning, que visam fornecer conjuntos de dados de alta qualidade para treinar IA sem questões de direitos autorais.

Esses esforços destacam que é possível criar modelos de IA de alto desempenho utilizando apenas materiais de domínio público ou licenciado, sem a necessidade de usar dados protegidos por direitos autorais.

inteligencia artificial
Iniciativas para aprimorar modelos de IA sem ferir direitos autorais vão se disseminando – Imagem: Anggalih Prasetya/Shutterstock