FormaciónFacultades e universidades

Que é Lingüística de Corpus?

Só algunhas décadas atrás para automatizar a investigación lingüística, os científicos só podían soñar. O traballo foi feito a man, que atrae un gran número de estudantes, hai unha probabilidade substancial de erros "descoidados", e máis importante - todo isto levou un longo, longo tempo.

Co desenvolvemento da tecnoloxía informática tornouse posíbel realizar investigacións sobre a orde de magnitude máis rápido, é hoxe unha das direccións máis prometedoras no estudo da linguaxe é un corpus lingüística. A súa principal característica é o uso de grandes cantidades de información de texto, información nunha única base de datos, dun xeito especial e chamou o corpo marcado.

Ata o momento, hai moitos edificios creados con finalidades distintas, con base en varios materiais lingüística abranguendo de millóns a decenas de millóns de unidades léxicas. Esta dirección é recoñecido como un esperanzador e demostra avances significativos para efectos de aplicación e de investigación. Expertos, dun xeito ou outra xestionar a linguaxe natural, recoméndase a familiarizarse co corpo de textos, polo menos a un nivel básico.

Historia da lingüística de corpus

A formación desta tendencia é debido á creación dos Estados Unidos para o corpo Brown a principios dos anos 60-s do século pasado. A colección inclúe os textos de todo 1 millón de formas de palabras, e hoxe o corpo deste tamaño estaría totalmente non competitivo. Isto é principalmente debido ao ritmo de desenvolvemento da tecnoloxía informática, así como a crecente demanda de novos recursos de investigación.

Na década de 90 lingüística de corpus xurdiron nunha disciplina completa e independente, unha colección de textos foron elaborados e marcados para decenas de idiomas. Neste período foi creado, por exemplo, os British National Corpus 100 millóns de mostras.

Co desenvolvemento desta área da lingüística, volumes de texto están facendo máis e máis (e chegar a millóns de unidades de dicionario), eo esquema é cada vez máis diversificada. Ata a data, o espazo Internet pódense atopar canais escrita e lingua falada, multilingüe e literatura artística ou académica orientada á aprendizaxe, así como moitas outras especies.

Que son a vivenda

tipo de corpo en lingüística do corpo poden ser proporcionados por varias razóns. Intuitivamente, a base para a clasificación pode ser unha linguaxe de texto (ruso, alemán), o modo de acceso (de código aberto, pechou, comercial), o xénero do material de orixe (ficción, documental, académica, xornalismo).

forma interesante xera materiais de linguaxe falada. Dende a gravación deliberada de tal discurso para crear un ambiente artificial para os respondentes, eo material resultante non pode ser chamado de "espontánea", modernos lingüística de corpus ha ir por outro camiño. Un voluntario equipado cun micrófono, e durante o día produciuse un rexistro de todas as conversas, en que participa. A xente arredor, por suposto, non pode saber que, no curso de conversa diaria contribúe ao desenvolvemento da ciencia.

Posteriormente recibiu rexistro almacenada na base de datos e son acompañados por impresa tipo de texto transcrito. Así, tórnase posíbel a reserva necesaria para crear un invólucro discurso oral diaria.

aplicación

Sempre que sexa posible o uso da linguaxe, e quizais o uso de edificios textos. Métodos para aplicar o casco en lingüística poden ser:

  • Creación dun programa que determina a clave, é amplamente utilizado na política e de negocios para manter o control de respostas positivas e negativas de electores e clientes, respectivamente.
  • sistema de información de conexión para dicionarios e tradutores para mellorar o seu rendemento.
  • Unha variedade de tarefas de investigación que contribúan á comprensión da unidade de linguaxe, a historia do seu desenvolvemento e previsión de cambios no futuro próximo.
  • Desenvolvemento de sistemas de recuperación de información con base nas características morfolóxicas, sintácticas, semánticas e outros.
  • Optimización dos diferentes sistemas lingüísticos e outros.

Utilización de edificios

interface de recurso semellante cun buscador normal, e solicita que o usuario introduza unha palabra ou combinación de palabras para buscar a base de información. Ademais formar a consulta exacta pode utilizar a versión mellorada, que permite atopar información textuais en practicamente todos os criterios lingüísticos.

base de investigación poden ser:

  • pertenza a un grupo particular de partes de fala;
  • características gramaticais;
  • semántica;
  • cor estilística e emocional.

Tamén pode combinar criterios de busca para unha secuencia de palabras, por exemplo, para localizar todas as aparicións do verbo no presente de indicativo primeira persoa, singular, que vén despois a preposición "en" eo substantivo no caso acusativo. A solución a unha tarefa tan simple leva o usuario uns segundos e require só algúns click do rato no campo especificados.

O proceso de creación

A procura en si pode ser realizado en todas as subcorpus e escollido especialmente en función das necesidades para acadar un obxectivo particular:

  1. O primeiro paso é a definir os textos forman a base para o caso. Para fins prácticos, é frecuentemente usado xornalísticos, noticias, comentarios en liña. O proxecto de investigación é o uso dunha ampla variedade de tipos de paquetes, pero o texto debe ser seleccionado de acordo con algúns puntos en común.
  2. A colección resultante de textos sometidos a tratamento previo, non hai corrección de erros, se hai, preparado pola descrición bibliográfica e extra-lingüística do texto.
  3. É eliminado todas as informacións non textuais: Limpa os gráficos, imaxes, táboas.
  4. É unha distribución de mostras, que son tipicamente discurso, para procesamento posterior.
  5. Finalmente, procedeuse pluralidade morfolóxica, sintáctica e outras reservas obtido de elementos.

O resultado de todas as transaccións realizadas por unha estrutura sintáctica con el dispersado dunha pluralidade de elementos, cada un dos cales é identificado parte do discurso, gramatical e, nalgúns casos, os atributos semánticos.

Dificultades na creación de edificios

É importante entender que non é suficiente para montar un conxunto de palabras ou frases para o corpo. Por unha banda, unha colección de textos debe ser equilibrada, é dicir, representan diferentes tipos de textos en determinadas proporcións. Por outra banda - o contido do invólucro deben espazos dun xeito especial.

O primeiro problema está resolto por un acordo: por exemplo, na colección inclúe 60% de textos literarios, o 20% dos documentais, unha certa porcentaxe é dada unha representación escrita da lingua falada, lexislación, traballos científicos, etc. perfecto receita corpo equilibrado hoxe non existe ...

A segunda cuestión relativa ao deseño de contidos, resolver un desafío. Existen programas especiais e algoritmos utilizados para a reserva automática de textos, pero eles non dan un resultado perfecto, pode causar interrupcións e esixen retraballados manual. Oportunidades e retos en tratar con este problema son descritos en detalle nun artigo V. P. Zaharova de lingüística de corpus.

reserva de texto é aplicado en varios niveis, que listados abaixo.

Replanteo morfológica

Da escola, lembramos que na lingua rusa, hai diferentes partes do discurso, e cada un deles ten as súas propias características. Por exemplo, o verbo ten categorías de inclinación eo tempo en que non substantivo. un falante nativo sen dúbida declina substantivos e verbos conxugados, pero para marcar o corpo de 100 millóns. fichas de traballo manual non vai funcionar. Todas as operacións necesarias pode realizar o ordenador, con todo, para iso, ten que ser ensinado.

Replanteo morfológica, o ordenador debe "entender" cada palabra como unha determinada parte do discurso ter certas características gramaticais. Desde o ruso (e calquera outra lingua) opera unha serie de regras habituais, é posible construír un procedemento automático para a análise morfolóxica, investindo no coche para unha serie de algoritmos. Con todo, hai excepcións á regra, así como varios factores complicadores. Como resultado, a análise de ordenador líquido de hoxe está lonxe do ideal, e mesmo 4 erro% produce un valor de 4 mi. Palabras sobre o corpo de 100 millóns. Units, esixindo retraballados manual.

libro detallado describe o problema Zaharova V. P. "Corpus Linguistics".

anotación sintáctica

Análise ou análise - un procedemento que determina a relación de palabras nunha frase. Usando un conxunto de algoritmos é posíbel determinar o texto do suxeito, predicado, adicións, múltiples voltas de discurso. Descubra cales palabras da secuencia principal, e que - dependente, que pode efectivamente extraer información de texto e para ensinar a máquina a emitir en resposta a unha petición de procura só a información nos interesantes.

By the way, moderno buscadores usar isto para dar números específicos, no canto de longos textos en resposta ás consultas pertinentes, tales como "cantas calorías nunha mazá" ou "a distancia de Moscova a San Petersburgo." Con todo, para entender ata as nocións básicas do proceso descrito pola necesidade de consultar a "Introdución á Lingüística de Corpus" ou outro tutorial básico.

Replanteo semántica

A semántica da palabra - é, en termos simples, o significado. visión amplamente aplicable á análise semántica dunha asignación palabra etiquetas, que era a súa pertenza a un conxunto de categorías semánticas e subcategorías. Tal información é valiosa para optimizar algoritmos analizar ton texto, sumarização automática e outras tarefas métodos de lingüística de corpus.

Hai unha serie de "raíz" da árbore, o que representa unha palabra abstracta cunha gran semántica. Como un ramo dos nós da árbore son formadas, contendo cada vez máis específicos elementos léxicos. Por exemplo, a palabra "criatura" pode estar asociada a conceptos como "humano" e "animal". A primeira palabra seguirá ramifican-se en diferentes profesións, termos de parentesco, nacionalidade, eo segundo - en clases e tipos de animais.

A utilización de sistemas de recuperación de información

Áreas de utilización da lingüística de corpus cobren diversas áreas de actividade. Caixas son utilizados para a elaboración e corrección de dicionarios, crear sistemas de tradución automática, anotación recuperar feitos, determinando o ton e outros procesamentos de texto.

Ademais, estes recursos son usados activamente no estudo de linguas e os mecanismos de funcionamento da linguaxe en xeral mundo. Acceso a grandes volumes de información pre-preparados facilita estudo rápida e ampla das tendencias de linguaxes de desenvolvemento e cambio neoloxismos formación estables velocidade discurso valora unidades léxicas e outros.

Desde o traballo con tales grandes cantidades de datos require automatización, hoxe hai unha estreita interacción entre o ordenador e corpus lingüística.

Corpus Nacional Rusa

Neste caso (abreviado NKRYA) inclúe unha serie de subcorpus, permitindo o uso dun recurso para unha gran variedade de tarefas.

Os materiais na base de datos divídense NKRYA:

  • a publicacións en 90 e 2000 dos medios, tanto nacionais como estranxeiros;
  • a gravación de voz;
  • aktsentologicheski marcado textos (isto é, as marcas de tensión);
  • discurso dialecto;
  • poesía;
  • Materiais con marcas sintácticas e outros.

O sistema de información inclúe subcorpus con traducións paralelas de obras do ruso ao inglés, alemán, francés e moitas outras linguas (e viceversa).

Tamén na base de datos, hai unha sección de textos históricos, representando o discurso escrito en ruso en diferentes períodos do seu desenvolvemento. Hai tamén un organismo de formación, que pode ser útil para os cidadáns estranxeiros en dominar o idioma ruso.

Russian Corpus Nacional comprende 400 millóns de unidades léxicas, e de moitas maneiras á cabeza dunha parte significativa das linguas dos corpos Europa.

perspectivas

Feito, en favor do recoñecemento desta tendencia é a dispoñibilidade de prometendo lingüística de corpus de laboratorio en universidades rusas, así como estranxeira. Co uso de e de investigación no ámbito desta información e busca recursos implica o desenvolvemento de determinadas áreas no ámbito das altas tecnoloxías, sistemas de responder á pregunta, pero é discutido anterior.

Desenvolvemento da lingüística de corpus está previsto en todos os niveis, que varían de técnico e en termos de posta en marcha de novos algoritmos que optimizan os procesos de investigación e procesamento de información, capacitando ordenadores, máis memoria RAM, e para o consumidor, xa que os usuarios están máis e máis formas de usar este tipo de recurso no seu diario vida e obra.

en conclusión

No medio do século pasado, en 2017 parecía futuro distante, onde as naves espaciais viaxan a través do universo e robots fan todo o traballo para a xente. De feito, a ciencia está chea de "manchas brancas" e facer intentos desesperadas para responder ás preguntas da humanidade durante séculos perturbador. Preguntas funcionamento da linguaxe aquí ocupar un lugar de honra, e da Oficina e computacionais lingüística pode axudarnos a respondelas.

Procesamento de grandes conxuntos de datos pode detectar patróns, anteriormente inaccesibles, prever o desenvolvemento de recursos de linguaxe específicos para controlar a formación de palabras en tempo case real.

Nun nivel práctico, os recintos globais se pode ver, por exemplo, como un potencial instrumento para avaliar o estado de ánimo do público - A Internet é un constantemente actualizados base varios textos diarios creados por usuarios reais: este observacións e comentarios, e artigos, e moitas outras formas de intervención.

Ademais, traballar cos órganos contribúe ao desenvolvemento do mesmo hardware, que están implicados na recuperación da información, estamos familiarizados co servizo "Google" ou "Yandex", tradución automática, dicionarios electrónicos.

Podemos confia afirmar que a lingüística de corpus fai só os primeiros pasos, e no futuro próximo, ha florecer.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 gl.birmiss.com. Theme powered by WordPress.