Corpus Carolina
Carolina é um corpus com um volume robusto de textos em Português Brasileiro contemporâneo (1970-2021), com informações de procedência e tipologia. O corpus está disponível em acesso aberto, para download gratuito, desde 8 de março de 2022. A versão atual, Ada 1.2 (8 de março de 2022), tem 823 milhões de tokens, mais de dois milhões de textos e mais de 11 GBs.
Fundamentos
O Carolina foi concebido com uma metodologia original que denominamos WaC-wiPT: Web as Corpus com informações de Proveniência e Tipologia. Consideramos a proveniência um aspecto crucial a se aspirar em corpora baseados na web, combinada à tipologia e ao gerenciamento de equilíbrio. Além de facilitar o cumprimento dos direitos autorais e a rotulagem tipológica, ela permite responder a perguntas sobre a origem dos textos e aumenta o escopo de uso do corpus.
Projeto Carolina
O projeto Carolina faz parte do grande projeto da área de Processamento de Linguagem Natural (NLP2) do Centro de Inteligência Artificial da Universidade de São Paulo (C4AI). Ele é desenvolvido por uma equipe multidisciplinar de linguistas e cientistas da computação, membros do C4IA e do Laboratório Virtual de Humanidades Digitais (LaViHD).
"Carolina"
Carolina Michaelis de Vasconcelos em foto de 1876.
O corpus Carolina recebeu esse nome em homenagem a Carolina Michaelis de Vasconcelos (1851-1925), filóloga e linguista alemã radicada em Portugal, autora de A Saudade Portuguesa, e primeira mulher a atuar como docente na Faculdade de Letras da Universidade de Lisboa, em 1911.
Essa homenagem simboliza o desejo que move a equipe computacional do Lavihd: caminhar para a ponta do conhecimento valorizando a língua portuguesa e sua história, na trilha de uma ciência feita por mulheres.
