O Corpus de Referencia do Galego Actual renova contidos e inclúe guións audiovisuais

A nova versión 3.0 ampliada desta ferramenta lingüística en liña incorpora preto de 37 millóns de palabras, das que case 600.000 son formas diferentes

04.11.2017 | 01:13
Valentín García (segundo pola esquerda) con representantes do Centro Ramón Piñeiro, o Corga e a USC.

O secretario xeral de Política Lingüística, Valentín García, presentou onte a nova versión ampliada do Corpus Documental do Galego Actual (Corga 3.0), unha ferramenta lingüística en liña desenvolvida polo Centro Ramón Piñeiro para a Investigación en Humanidades (Crpih), e representativa do uso lingüístico do galego actual, que incorpora 36,8 millóns de palabras, das que 570.000 son son formas diferentes. Presenta, entre as novidades máis destacadas a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90 con transcricións nas que se aliña o texto coa voz e a etiquetaxe automática a través do Etiquetador/Lematizador do Galego Actual (Xiada).

En palabras de García Gómez "o Corga 3.0 da un novo paso para poñer a disposición da comunidade científica e dos falantes posibilidades para o estudo e a investigación lingüística, nomeadamente para a obtención de datos referidos aos aspectos morfolóxicos, sintácticos e léxicos" e "faino, de acordo coas directrices do Plan xeral de normalización lingüística, da man das tecnoloxías da información e da comunicación e do impulso aos recursos tecnolóxicos da lingua propia de Galicia", destacou.

O Corga é un corpus documental desenvolvido no Centro Ramón Piñeiro, por medio dun convenio de colaboración coa Universidade de Santiago (USC), e integrado por distintos tipos de textos -xornais, semanarios, revistas, ensaios e textos de ficción- que abrangue desde o ano 1975 ata a actualidade e que está codificado no estándar XML (eXtensible Markup Language). A amplitude de documentos que o configuran e os criterios empregados na súa selección, permiten considerar este corpus representativo do uso lingüístico do galego actual.

A nova versión 3.0 ampliada dispoñible na rede no enderezo http://corpus.cirp.es/corga consta de case 36,8 millóns de palabras, das que máis de 570.000 son formas distintas. Nela, unifícanse os dous sistemas de consulta en liña (o Corga e o Corgaetq) nun único sistema que dá cabida ás aproximacións de busca e preséntase un motor de busca potente que sitúa o galego na vangarda dos corpus lingüísticos.

Entre as novidades que achega destacan a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90, en cuxas transcricións se aliña o texto coa voz, de xeito que no sistema de recuperación de información o usuario ten, a maiores, a posibilidade de escoitar o fragmento de audio que corresponde ao contexto dos resultados obtidos. A característica máis sobresaliente desta versión do corpus é a etiquetaxe automática da totalidade dos documentos que o conforman empregando o Etiquetador/Lematizador do Galego Actual (Xiana)

O Centro Ramón Piñeiro para a Investigación en Humanidades é un organismo dependente da Consellería de Cultura e Educación, por medio da Secretaría Xeral de Política Lingüística, que se ocupa de levar adiante e de difundir proxectos de investigación lingüística, literaria, histórica e antropolóxica centrados en Galicia. Actualmente, as súas liñas de traballo xiran arredor da lingüística aplicada, a literatura medieval, a recuperación de publicacións literarias ou a identidade colectiva desde un punto de vista antropolóxico.

Compartir en Twitter
Compartir en Facebook

Lotería del Niño 2017

Comprobar Lotería del Niño

Toda la información de la Lotería del Niño. Comprueba los números premiados con nuestro widget de la Lotería del Niño.

 
Widget Lotería del Niño

Llévate a tu web, a tu escritorio o a tu iGoogle los resultados de lotería de Navidad y de la lotería del niño. Descárgatelo

 
Enlaces recomendados: Premios Cine