Harvard vai liberar uso de livros de domínio público para treinar IA

Publicado em 14/12/2024 às 6:35

Tudo sobre Inteligência Artificial

A Universidade de Harvard anunciou o lançamento de um vasto conjunto de dados com quase 1 milhão de livros de domínio público, disponíveis para treinar modelos de linguagem e outras ferramentas de IA. As informações são do WIRED.

O projeto, desenvolvido pela Institutional Data Initiative de Harvard com apoio da Microsoft e OpenAI, inclui livros digitalizados no âmbito do projeto Google Books, abrangendo uma ampla gama de gêneros e idiomas.

Esse banco de dados é cinco vezes maior que o famoso Books3 e visa democratizar o acesso a conteúdo de qualidade, normalmente restrito a grandes empresas de tecnologia. Greg Leppert, diretor da iniciativa, destacou que o projeto visa “nivelar o campo de jogo”, permitindo que pequenas empresas e pesquisadores tenham acesso a dados valiosos.

Leia mais:

Banco de dados disponibilizado por Harvard possui vasto conteúdo de livros de domínio público – Imagem: Jure Divich/Shutterstock

Treino de IA e os direitos autorais

A Microsoft e a OpenAI apoiam a iniciativa como parte de sua crença em criar “pools de dados acessíveis” para o desenvolvimento de IA.
O lançamento ocorre em meio a uma crescente discussão legal sobre o uso de dados protegidos por direitos autorais para treinar IA, com ações judiciais que podem mudar a forma como os modelos são treinados no futuro.
Harvard, por sua vez, também está trabalhando em colaboração com a Biblioteca Pública de Boston para digitalizar artigos de jornais de domínio público e está aberta a futuras parcerias.

Além desse projeto, outras iniciativas de dados de domínio público estão surgindo, como o Common Corpus da startup francesa Pleias e o Source.Plus da Spawning, que visam fornecer conjuntos de dados de alta qualidade para treinar IA sem questões de direitos autorais.

Esses esforços destacam que é possível criar modelos de IA de alto desempenho utilizando apenas materiais de domínio público ou licenciado, sem a necessidade de usar dados protegidos por direitos autorais.

inteligencia artificial — Iniciativas para aprimorar modelos de IA sem ferir direitos autorais vão se disseminando – Imagem: Anggalih Prasetya/Shutterstock

Harvard vai liberar uso de livros de domínio público para treinar IA

Treino de IA e os direitos autorais

Notícias relacionadas

6 dicas para turbinar seus treinos de natação

Por que feridas tem difícil cicatrização em pessoas com diabetes?

Como encontrar vídeos com legendas no YouTube: passo a passo

Sofre com ansiedade? Veja como os ansiolíticos agem no corpo e trazem alívio

Vulnerabilidade no ChatGPT pode levar a manipulação em buscas online

Avião da Embraer cai no Cazaquistão