O secretario xeral de Política Lingüística, Valentín García, presentou onte a nova versión ampliada do Corpus Documental do Galego Actual (Corga 3.0), unha ferramenta lingüística en liña desenvolvida polo Centro Ramón Piñeiro para a Investigación en Humanidades (Crpih), e representativa do uso lingüístico do galego actual, que incorpora 36,8 millóns de palabras, das que 570.000 son son formas diferentes. Presenta, entre as novidades máis destacadas a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90 con transcricións nas que se aliña o texto coa voz e a etiquetaxe automática a través do Etiquetador/Lematizador do Galego Actual (Xiada).

En palabras de García Gómez "o Corga 3.0 da un novo paso para poñer a disposición da comunidade científica e dos falantes posibilidades para o estudo e a investigación lingüística, nomeadamente para a obtención de datos referidos aos aspectos morfolóxicos, sintácticos e léxicos" e "faino, de acordo coas directrices do Plan xeral de normalización lingüística, da man das tecnoloxías da información e da comunicación e do impulso aos recursos tecnolóxicos da lingua propia de Galicia", destacou.

O Corga é un corpus documental desenvolvido no Centro Ramón Piñeiro, por medio dun convenio de colaboración coa Universidade de Santiago (USC), e integrado por distintos tipos de textos -xornais, semanarios, revistas, ensaios e textos de ficción- que abrangue desde o ano 1975 ata a actualidade e que está codificado no estándar XML (eXtensible Markup Language). A amplitude de documentos que o configuran e os criterios empregados na súa selección, permiten considerar este corpus representativo do uso lingüístico do galego actual.

A nova versión 3.0 ampliada dispoñible na rede no enderezo http://corpus.cirp.es/corga consta de case 36,8 millóns de palabras, das que máis de 570.000 son formas distintas. Nela, unifícanse os dous sistemas de consulta en liña (o Corga e o Corgaetq) nun único sistema que dá cabida ás aproximacións de busca e preséntase un motor de busca potente que sitúa o galego na vangarda dos corpus lingüísticos.

Entre as novidades que achega destacan a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90, en cuxas transcricións se aliña o texto coa voz, de xeito que no sistema de recuperación de información o usuario ten, a maiores, a posibilidade de escoitar o fragmento de audio que corresponde ao contexto dos resultados obtidos. A característica máis sobresaliente desta versión do corpus é a etiquetaxe automática da totalidade dos documentos que o conforman empregando o Etiquetador/Lematizador do Galego Actual (Xiana)

O Centro Ramón Piñeiro para a Investigación en Humanidades é un organismo dependente da Consellería de Cultura e Educación, por medio da Secretaría Xeral de Política Lingüística, que se ocupa de levar adiante e de difundir proxectos de investigación lingüística, literaria, histórica e antropolóxica centrados en Galicia. Actualmente, as súas liñas de traballo xiran arredor da lingüística aplicada, a literatura medieval, a recuperación de publicacións literarias ou a identidade colectiva desde un punto de vista antropolóxico.