Carolina

Corpus Carolina

Carolina é um corpus com um volume robusto de textos em Português Brasileiro contemporâneo (1970-2021), com informações de procedência e tipologia. O corpus está disponível em acesso aberto, para download gratuito, desde 8 de março de 2022. A versão atual, Ada 1.2 (8 de março de 2022), tem 823 milhões de tokens, mais de dois milhões de textos e mais de 11 GBs.

Busque na coleção de textos do Carolina

Fundamentos

O Carolina foi concebido com uma metodologia original que denominamos WaC-wiPT: Web as Corpus com informações de Proveniência e Tipologia. Consideramos a proveniência um aspecto crucial a se aspirar em corpora baseados na web, combinada à tipologia e ao gerenciamento de equilíbrio. Além de facilitar o cumprimento dos direitos autorais e a rotulagem tipológica, ela permite responder a perguntas sobre a origem dos textos e aumenta o escopo de uso do corpus.

Conheça a origem dos textos da coleção do Carolina

Projeto Carolina

O projeto Carolina faz parte do grande projeto da área de Processamento de Linguagem Natural (NLP2) do Centro de Inteligência Artificial da Universidade de São Paulo (C4AI). Ele é desenvolvido por uma equipe multidisciplinar de linguistas e cientistas da computação, membros do C4IA e do Laboratório Virtual de Humanidades Digitais (LaViHD).

Conheça mais sobre o projeto Carolina

"Carolina"

Carolina Michaelis de Vasconcelos em foto de 1876.

O corpus Carolina recebeu esse nome em homenagem a Carolina Michaelis de Vasconcelos (1851-1925), filóloga e linguista alemã radicada em Portugal, autora de A Saudade Portuguesa, e primeira mulher a atuar como docente na Faculdade de Letras da Universidade de Lisboa, em 1911.

Essa homenagem simboliza o desejo que move a equipe computacional do Lavihd: caminhar para a ponta do conhecimento valorizando a língua portuguesa e sua história, na trilha de uma ciência feita por mulheres.