04 de noviembre de 2017
04.11.2017

O Corpus de Referencia do Galego Actual renova contidos e inclúe guións audiovisuais

A nova versión 3.0 ampliada desta ferramenta lingüística en liña incorpora preto de 37 millóns de palabras, das que case 600.000 son formas diferentes

04.11.2017 | 01:13
Valentín García (segundo pola esquerda) con representantes do Centro Ramón Piñeiro, o Corga e a USC.

O secretario xeral de Política Lingüística, Valentín García, presentou onte a nova versión ampliada do Corpus Documental do Galego Actual (Corga 3.0), unha ferramenta lingüística en liña desenvolvida polo Centro Ramón Piñeiro para a Investigación en Humanidades (Crpih), e representativa do uso lingüístico do galego actual, que incorpora 36,8 millóns de palabras, das que 570.000 son son formas diferentes. Presenta, entre as novidades máis destacadas a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90 con transcricións nas que se aliña o texto coa voz e a etiquetaxe automática a través do Etiquetador/Lematizador do Galego Actual (Xiada).

En palabras de García Gómez "o Corga 3.0 da un novo paso para poñer a disposición da comunidade científica e dos falantes posibilidades para o estudo e a investigación lingüística, nomeadamente para a obtención de datos referidos aos aspectos morfolóxicos, sintácticos e léxicos" e "faino, de acordo coas directrices do Plan xeral de normalización lingüística, da man das tecnoloxías da información e da comunicación e do impulso aos recursos tecnolóxicos da lingua propia de Galicia", destacou.

O Corga é un corpus documental desenvolvido no Centro Ramón Piñeiro, por medio dun convenio de colaboración coa Universidade de Santiago (USC), e integrado por distintos tipos de textos -xornais, semanarios, revistas, ensaios e textos de ficción- que abrangue desde o ano 1975 ata a actualidade e que está codificado no estándar XML (eXtensible Markup Language). A amplitude de documentos que o configuran e os criterios empregados na súa selección, permiten considerar este corpus representativo do uso lingüístico do galego actual.

A nova versión 3.0 ampliada dispoñible na rede no enderezo http://corpus.cirp.es/corga consta de case 36,8 millóns de palabras, das que máis de 570.000 son formas distintas. Nela, unifícanse os dous sistemas de consulta en liña (o Corga e o Corgaetq) nun único sistema que dá cabida ás aproximacións de busca e preséntase un motor de busca potente que sitúa o galego na vangarda dos corpus lingüísticos.

Entre as novidades que achega destacan a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90, en cuxas transcricións se aliña o texto coa voz, de xeito que no sistema de recuperación de información o usuario ten, a maiores, a posibilidade de escoitar o fragmento de audio que corresponde ao contexto dos resultados obtidos. A característica máis sobresaliente desta versión do corpus é a etiquetaxe automática da totalidade dos documentos que o conforman empregando o Etiquetador/Lematizador do Galego Actual (Xiana)

O Centro Ramón Piñeiro para a Investigación en Humanidades é un organismo dependente da Consellería de Cultura e Educación, por medio da Secretaría Xeral de Política Lingüística, que se ocupa de levar adiante e de difundir proxectos de investigación lingüística, literaria, histórica e antropolóxica centrados en Galicia. Actualmente, as súas liñas de traballo xiran arredor da lingüística aplicada, a literatura medieval, a recuperación de publicacións literarias ou a identidade colectiva desde un punto de vista antropolóxico.

Compartir en Twitter
Compartir en Facebook

Neomotor

Toda la información sobre el mundo del motor

Conoce las últimas tendencias y las novedades en coches, motos y la industria automovilística.

 

GALICIA EN VINOS

Galicia en Vinos

Todos los vinos de Galicia

Consulta aquí todos los vinos de las cinco denominaciones de origen de Galicia
 


ESPECIAL

PREMIOS OPINIÓN MÚSICA RAÍZ

Premios Opinión da Música de Raíz

Consulta aquí a información dos premios de música do noso diario