Brigham young university corpus

COCA Bites: Visión general del corpus (1)

Este corpus ha sido creado por Mark Davies (profesor de Lingüística de Corpus en el Departamento de Lingüística y Lengua Inglesa de la Universidad de Brigham Young y, entre 1992 y 2003, fue profesor de Lingüística Española en la Universidad Estatal de Illinois).

Este sitio web nos permitirá buscar entre más de 100 millones de palabras de más de 20.000 textos en español de los siglos XIII al XX de forma rápida y sencilla.La interfaz permite buscar de diferentes formas: palabras o frases exactas, comodines, etiquetas, lemas, categoría gramatical o cualquier otra combinación no escrita anteriormente.

A la hora de buscar una palabra, es muy fácil. Sólo tenemos que escribir la palabra en el hueco y en cuestión de segundos aparecerán todas las cosas relacionadas y que contengan esa palabra. Aquí tenemos el ejemplo con la palabra mujer:

Además, cabe destacar que también podemos realizar fácilmente consultas basadas en la semántica del corpus. Por ejemplo, podemos comparar y contrastar los collocates de dos palabras relacionadas, para determinar la diferencia de significado entre estas palabras.    Podemos encontrar la frecuencia y la distribución de los sinónimos de casi 30.000 palabras y también comparar su frecuencia en diferentes registros y períodos históricos, y utilizar estas listas de palabras como parte de otras consultas.

Haciendo con el arabiCorpus: Cómo superar el corpus inglés

El acceso a todos los corpus descargables enumerados a continuación está restringido. Para obtener una descripción que incluya la licencia, consulte los metadatos. Para obtener el acceso, envíe una solicitud a través del Banco de Derechos Lingüísticos.

Nota: En caso de que sólo desee utilizar los corpus descargables del Banco de Lenguas de Finlandia, no es necesario que complete el procedimiento de licencia académica de BYU que se indica a continuación. Tenga en cuenta que las versiones descargables de los corpus seguirán estando disponibles para su descarga en el Banco de Lenguas después de que expire la licencia académica para utilizar el servicio en línea.

La arquitectura del corpus y la interfaz web de la BYU (y muchos de los corpus que están disponibles allí) fueron creados por Mark Davies y/o otras partes. Puede encontrar más detalles sobre cómo citar los corpus individuales ubicados en el servicio de BYU, su licencia, características técnicas, etc. en https://www.english-corpora.org/faq.asp#cite

¿Cómo puedo evitar cantar

COCA y COHA son dos corpus de inglés de libre acceso, disponibles a través de corpus.byu.edu Fue desarrollado por Mark Davies, profesor de lingüística de la Universidad Brigham Young. El Corpus de la BYU es el corpus en línea más utilizado, por más de 130.000 investigadores, profesores y estudiantes distintos cada mes.

El Corpus of Contemporary American English (COCA) es el mayor corpus de inglés de libre acceso. El corpus contiene más de 560 millones de palabras de texto (20 millones de palabras cada año de 1990 a 2017) y se divide por igual entre textos orales, de ficción, revistas populares, periódicos y textos académicos.

El Corpus of Historical American English (COHA) es el mayor corpus estructurado de inglés histórico. El COHA contiene más de 400 millones de palabras de texto de los años 1810-2000 y el corpus está equilibrado por géneros década a década.

El nuevo corpus de COCA 2020

El Brown es el primer corpus clásico en el que se basan muchos de los que le siguieron. Americano, de finales de los años 70, desarrollado por Kucera y Francis en la Universidad de Brown (NJ), este corpus comprendía 500 textos escritos de 2.000 palabras cada uno en tres divisiones principales (prensa, periodismo y académico) y varias subdivisiones.

Tras la compilación del British National Corpus de 100 millones de palabras, Oxford University Press publicó el logro en dos corpus BNC Sampler de aproximadamente 1 millón de palabras cada uno en CD-Rom, uno de inglés hablado y otro de inglés escrito, que se modificaron para trabajar en Lextutor eliminando sus etiquetas, y que han servido en clases de lingüística aplicada para explorar las diferencias entre el inglés escrito y el hablado (por ejemplo, en http://www.lextutor.ca/range/.)

Estos corpus se describen más arriba. El propósito de unir el Brown y el Written Sampler en un solo corpus era triple: formar un corpus lo suficientemente grande como para dar al menos 10 ejemplos de la mayoría de los elementos de frecuencia media; crear un corpus lo suficientemente pequeño como para funcionar en la web en una línea telefónica; combinar características lingüísticas británicas y americanas.