Documentação

O Carolina está integralmente disponível para download gratuido. A versão atual é oferecida sem programas de suporte, que estão planejados para lançamentos futuros. Ao fazer o download do corpus, você concorda com os Termos de uso.

Termos de uso

O Carolina é composto por textos reunidos em diversos repositórios digitais, cujas licenças são múltiplas e, portanto, devem ser estritamente observadas ao fazer uso do corpus. As licenças específicas de cada documento incluído no Corpus estão detalhadas em seus metadados. Há desde licenças amplas de domínio público até licenças de compartilhamento parcial com restrições quanto ao uso comercial. Nenhum documento sem licença de compartilhamento foi incluído no Corpus.

O cabeçalho do Corpus está sob a licença de compartilhamento Creative Commons Atribuição-NãoComercial-CompartilhaIgual 4.0 Internacional (CC BY-NC-SA 4.0), detalhada em https://creativecommons.org/licenses/by-nc-sa/4.0 .

Créditos

"O Carolina foi construído por uma equipe de linguistas e cientistas da computação, membros do Laboratório Virtual de Humanidades Digitais – LaViHD e do Centro de Inteligência Artificial da Universidade de São Paulo – C4AI. "

Como citar a versão atual do Carolina:

Crespo, Maria Clara Ramos Morales; Rocha, Maria Lina de Souza Jeannine; Sturzeneker, Mariana Lourenço; Serras, Felipe Ribas; Mello, Guilherme Lamartine de; Costa, Aline Silva; Palma, Mayara Feliciano; Mesquita, Renata Morais; Guets, Raquel de Paula; Silva, Mariana Marques da; Finger, Marcelo; Paixão de Sousa, Maria Clara; Namiuti, Cristiane; Monte, Vanessa Martins do. 2023. Carolina: a General Corpus of Contemporary Brazilian Portuguese with Provenance, Typology and Versioning Information. arXiv preprint arXiv:2303.16098. Disponível em: https://arxiv.org/abs/2303.16098.

Procedência

Todos os documentos que fazem parte do Corpus estão anotados com cabeçalhos detalhados, que incluem as informações completas de procedência, autoria e licenças de compartilhamento.

Estrutura (tags e schema)

A estrutura dos dados no Carolina segue as diretrizes do protocolo TEI (Text Encoding Initiative), que define um esquema especifico de XML. Especificamente para o Carolina, foram desenvolvidas tags para atender a metodologia WaC-wiPT.

Versão atual 1.2 Ada

Versão atual: 1.2 Ada
Data de lançamento: 8 de março de 2022
Tamanho: ~ 11GB
Download - HuggingFace | 08.03.2023

Acesse a busca interativa, procedência e schema da versão 1.2 Ada para ver metadados, origem dos textos e estrutura do dados respectivamente:

Busca 1.2 Ada Procedência 1.2 Ada Tags e Schema 1.2 Ada

Versões anteriores

1.1 Ada - 08/04/2022
1.0 Ada
>