Saltar navegación Este enlace salta al contenido informativo de la página
Ir a página principal de um.es Ir a la web del Campus Mare Nostrum

Proyectos / Research Projects

PROYECTOS de Investigación más relevantes / Outstanding Research Projects

  1. Corpus Cumbre (español)
  2. Corpus Lacell (English)
  3. SACODEYL
  4. Extracción y búsqueda inteligente de patrones léxico-semánticos de textos oncológicos en inglés (EBIPAL)
  5. Lenguaje turístico, léxico, estructuras sintagmáticas, fraseología, contrastivo inglés-español
  6. Análisis, tipificación y formalización de las acepciones de términos léxicos polivalentes a partir del contexto, en inglés y en español, y desarrollo de un prototipo de desambiguación automática.
  7. ESTUDIO LONGITUDINAL Y COMPARATIVO DE LA PRODUCCIÓN ORAL (ORALIDAD) DE APRENDICES DE INGLÉS COMO LENGUA EXTRANJERA A PARTIR DEL ANÁLISIS DE UN CORPUS LINGÜÍSTICO ORAL RECOPILADO Y MEDIANTE PROCEDIMIENTOS DE ANÁLISIS MULTIDIMENSIONAL.

1.Corpus Cumbre

El corpus Cumbre ha sido un proyecto financiado por la editorial SGEL s.a. El objetivo fue la elaboración de un corpus del español contemporáneo, de 20 millones de palabras, representativo del español oral y escrito de todos los países de habla hispana.

Cumbre ha sido utilizado para la elaboración del primer diccionario de español basado en un corpus.
Más información en: http://www.um.es/lacell/proyectos/diccionario/

►Dos millones de palabras de Cumbre han sido etiquetadas morfológicamente y utilizadas para distintos cálculos estadísticos, así como para la elaboración de una gramática de español:
Sánchez, A. y R. Sarmiento, 2005. Gramática práctica del español actual. Madrid: SGEL s.a.

► Este minicorpus etiquetado ha sido adquirido también por Microsoft.

Más información
Editorial: www.sgel.es
Libro disponible en la Web, sobre diseño, recopilación y estructura del corpus Cumbre: www.um.es/lacell/miembros/asp/cumbre.doc

2. Corpus Lacell

El corpus Lacell es un corpus del inglés, recopilado por el Grupo de Investigación LACELL, de la Universidad de Murcia.
El corpus Lacell consta de 20 millones de palabras, del inglés escrito y oral de Inglaterra, Estados Unidos, Canadá, Australia y Nueva Zelanda.
El corpus Lacell tiene la misma estructura que Cumbre, hecho que permite llevar a cabo estudios comparativos razonablemente representativos del inglés y del español.

Más información:
asanchez@um.es
moisesal@um.es
pcantos@um.es

3. SACODEYL

SACODEYL is a web based system for the assisted compilation and open distribution of European teen talk in the context of language education.
The project includes the collection and distribution of English, French, German, Italian, Lithuanian, Romanian, and Spanish teen talk.
SACODEYL sees itself as a pedagogical mediator in the language learning process of young Europeans, exploiting web multimedia resources to deliver learning experiences based on data driven, constructivist approaches to language acquisition.

More information:
Pascual Pérez-Paredes (pascualf@um.es)
http://www.um.es/sacodeyl/

4. Extracción y búsqueda inteligente de patrones léxico-semánticos de textos oncológicos en inglés (EBIPAL)

Resumen:
La lengua objeto de la investigación es el inglés y el ámbito de comunicación o dominio lingüístico el inglés médico-oncológico. La investigación se orienta hacia un objetivo terminal que permita la transferencia de los resultados obtenidos al campo de la aplicación útil para la extracción y búsqueda inteligente de documentes, páginas y sitios WEB de interés para los profesionales e investigadores en el ámbito médico de la oncología que realizan sus actividades en la Región de Murcia.
Tal objetivo general se concentrará, en un estadio final, en (1) una base de conocimiento oncológico (en inglés) exhaustiva y actualizada, a la vez que suficientemente contrastada y representativa, de los patrones léxico-semánticos del inglés médicooncológico, para (2) su integración posterior en un metabuscador WEB específico para dicho dominio lingüístico. El volumen de información y de estudios oncológicos que se publican a diario en la WEB es ingente. Ello hace que el acceso a dicha información, en crecimiento geométrico, y la consulta selectiva de la misma resulte cada vez más difícil, al no disponer estos profesionales e investigadores de herramientas de extracción y búsqueda de información inteligentes. Con el presente proyecto queremos, precisamente, aliviar este problema de acceso selectivo a la información, poniendo las últimas investigaciones y tendencias en (1) lexicografía computacional (modelo de constelación léxica) y (2) arquitecturas computacionales del conocimiento al servicio de otras áreas de la comunidad científica, en concreto, de uno de los ámbitos de investigación de máximo impacto social: la oncología. El modelo de constelación léxica, a diferencia de los métodos y procedimientos léxico-estadísticos utilizados hasta ahora para la identificación de datos colocacionales (patrones lexico-semáticos), permite no solamente identificar y delimitar datos colocacionales, sino también determinar estructuras léxico-semánticas superiores, más complejas y jerarquizadas: en modelos tesáuricos. La contrastada fiabilidad y validez del modelo y su computabilidad permiten la extracción automática de datos colocacionales y patrones léxico-semánticos válidos y relevantes.

5. Lenguaje turístico, léxico, estructuras sintagmáticas, fraseología, contrastivo inglés-español

Resumen:
El proyecto para el que se solicita la presente ayuda se encuadra dentro de la investigación lingüístico-computacional y del tratamiento y gestión automáticos de patrones léxico-semánticos y fraseológicos.
Las lenguas objeto de la investigación son la española e inglesa; el ámbito de comunicación o dominio lingüístico es el lenguaje turístico, dado el interés socioeconómico que el sector turístico significa para el desarrollo y bienestar de la Región de Murcia. La investigación se orienta hacia un objetivo que permita la transferencia de los resultados obtenidos al campo de la aplicación útil tanto para la administración pública como para los profesionales del sector turístico y la formación de profesionales en dicho sector, mediante la herramientas que permitan (i) la elaboración automática de sinopsis de textos (resúmenes), (ii) la extracción inteligente de términos y compuestos fraseológicos en documentos, páginas y sitios WEB de interés para los profesionales e investigadores en el ámbito del turismo y del lenguaje turístico, (iii) la traducción de dichos términos y compuestos fraseológicos a cualquiera de las lenguas objeto (español-inglés), y (iv) la búsqueda inteligente y multilingüe de dichos términos y compuestos fraseológicos en documentos, páginas y sitios WEB con contenidos turísticos en español e inglés.
Tales objetivos se concentrarán, en un estadio final, en (i) una base de conocimiento terminológica y fraseológica bilingüe, del ámbito turístico y actualizada, a la vez que suficientemente contrastada y representativa, de los patrones léxico-semánticos del lenguaje turístico en español e inglés, para (ii) su integración posterior en un analizador textual (terminológico/fraseológico) y un metabuscador WEB específico para dicho dominio lingüístico.

6.Análisis, tipificación y formalización de las acepciones de términos léxicos polivalentes a partir del contexto, en inglés y en español, y desarrollo de un prototipo de desambiguación automática. /Analysis and categorization of the meanings of polysemous words on the basis of their context, in English and Spanish, and implementation of a prototypal automatic lexical disambiguator.

El proyecto se desarrolló a lo largo del trienio 2005-2007.

Information on the research aims, procedure and results:
1. http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/s/S=aacute=nchez:Aquilino.html

  1. ACTAS del XXVI Congreso Internacional de AESLA, Almería 2008: ‘Desambiguación automática de significados mediante el contexto en términos polivalentes: prototipo aplicado al inglés y al español’ (en prensa).
  2. Cantos, P., A. Sánchez & M. Almela. (2009). An Attempt to Formalize Word Sense Disambiguation: Maximizing Efficiency by Minimizing Computational Costs. RESLA (en prensa)

Resumen del proyecto:
El uso de las nuevas tecnologías, y especialmente Internet, han puesto en evidencia la urgente necesidad de disponer de herramientas automáticas tanto para la identificación exacta del sentido que cada palabra tiene en un contexto determinado, como para la posterior traducción del texto en su conjunto a otros idiomas. El segundo objetivo no se logrará si previamente no se ha solucionado adecuadamente el primero. En la persecución del objetivo final se han hecho ya varias propuestas de trabajo y se está investigando desde perspectivas diferentes. En nuestra opinión, el logro del ideal al que se aspira pasa necesariamente por el desarrollo de etapas escalonadas y sucesivas que nos permitirán acercarnos paulatinamente a la meta final. Nuestra contribución en este proceso se centra en el análisis e investigación sobre los colocados, los co-colocados y las constelaciones léxicas en que estos se insertan, partiendo de la hipótesis de que estos elementos co-textuales, debidamente depurados, tienen un gran poder de fijación léxica y, por ende, de desambiguación, respecto a los términos con sentidos plurivalentes en torno a los cuales co-ocurren. Dos grandes bases léxicas representativas de cada lengua estudiada (inglés y español, a partir de sendos corpus equivalentes, de 20 millones de palabras cada uno) constituirán la base de análisis e investigación para fijar los co-textos léxicos depurados en cada uno de los sentidos de las palabras estudiadas –y en cada una de las lenguas aquí investigadas-, relativas al campo léxico de las ‘prendas de vestir’. Realizado este trabajo y elaborada una base de datos para cada uno de los sentidos investigados en cada lengua, se emprenderá la formalización computacional del proceso, creando un prototipo de desambiguación automática de términos léxicos polivalentes en inglés y en español’, capaz de leer un texto y asignar a cada palabra el sentido que le corresponde en su contexto. La comparación de los resultados que se obtengan en cada idioma permitirán (i) comprobar la validez del prototipo en ambos idiomas, (ii) diseñar las posibles adaptaciones que deban aplicarse al prototipo en cada idioma (inglés o español), (iii) valorar la utilidad del prototipo en los programas de traducción automática y (iv) decidir sobre la conveniencia de expandir el estudio y método de trabajo a otros campos léxicos en cada idioma, sucesivamente, hasta cubrir un área que garantice, en un primer estadio, la extracción depurada y fiable, mediante ordenador, de los sentidos que corresponden a las palabras que integran un texto de lenguaje natural.

Analysis and categorization of the meanings of polysemous words on the basis of their context, in English and Spanish, and implementation of a prototypal automatic lexical disambiguator.

SUMMARY:

The ever-increasing number of publications on the Internet urgently demands new tools for the identification and categorization of both the sense of words and the translation of texts into other target languages. However no accurate translation can be achieved without any prior automatic identification and categorization of the appropriate meaning of the words. Our contribution to these goals –identification of senses for text translation- is to analyze and research on how words interrelate with collocates, co-collocates and lexical constellations, based on the hypothesis that all those co-textual elements determine word senses and therefore word sense disambiguation. We shall base our analysis and research on two representative linguistic corpora –two 20 million word databases; one for each target language: Spanish and English. These corpora will allow us to determine the necessary lexical co-texts to analyze the words under investigation in Spanish and English, which will be restricted to a specific semantic field: garments. Once the lexical co-textual data have been extracted for each of the word senses in each target language, we shall try to re-use this data and implement a computational prototype capable of disambiguating words related to garments within a running text. A thorough analysis of the results for each word and target language might allow us: (i) to validate the prototype, (ii) to make possible adjustments for specific words and/or target languages (Spanish and/or English), (iii) to consider the usefulness of the prototype for machine translation software, and (iv) to decide whether or not to apply our research and working method to other language domains, in order to get a primer word sense disambiguator for general language with a reasonable degree of accuracy and precision.

7. ESTUDIO LONGITUDINAL Y COMPARATIVO DE LA PRODUCCIÓN ORAL (ORALIDAD) DE APRENDICES DE INGLÉS COMO LENGUA EXTRANJERA A PARTIR DEL ANÁLISIS DE UN CORPUS LINGÜÍSTICO ORAL RECOPILADO Y MEDIANTE PROCEDIMIENTOS DE ANÁLISIS MULTIDIMENSIONAL.

Contrastive Analysis of Orality in Spoken English (CAOS-E)

Estudio longitudinal y comparativo de la producción oral (oralidad) de aprendices de inglés como lengua extranjera a partir del análisis de un corpus lingüístico oral recopilado y mediante procedimientos de análisis multidimensional

Funded by SENECA Research Agency, our research project, Contrastive Analysis of Orality in Spoken English (CAOS-E) has three main goals: (i) to characterise oral language in learner language at different points in time through MA and evaluate its progress; (ii) to compare foreign language learners’ oral production against native speakers’ to establish a MA data-driven comparison, and (iii) to suggest learning applications geared towards empowering learners with analytical tools in a context of awareness-raising language learning