[ Russian ] [ English ]

Квантитативная семантика в проектировании систем обработки больших текстовых данных

Козеренко Елена Борисовна
ФИЦ ИУ РАН
kozerenko@mail.ru

Термин «квантитативная семантика» в нашем случае употребляется в значении количественного подхода к исследованию семантики естественного языка и семантическому моделированию для построения информационных систем различных классов. Квантитативная семантика - это актуальное направление прикладной и компьютерной лингвистики, вызванное к жизни настоятельной потребностью автоматизации семантической обработки очень больших объемов неструктурированных данных, представленных в текстах на различных естественных языках. В отличие от методов представления смысла в виде качественных описаний плана содержания языковых объектов, традиционно используемых в системах искусственного интеллекта (symbolic methods), количественные методы позволяют определять и сопоставлять значения слов и языковых структур по «численным образам» их контекстных окружений. В докладе приводится обзор используемых методов, моделей и технологий в отечественных разработках и в мировой практике.

В докладе будут рассмотрены способы построения семантических представлений на основе векторных моделей (Vector Space Model - VSM), матриц; будут обсуждаться вопросы соотношений частотных характеристик языковых объектов и их значений, будет рассматриваться понятие «вынесения значения» («exteriorization of meaning»).

Особое внимание в докладе уделяется решениям на основе гибридного использования логико-лингвистических и статистических подходов: дистрибутивной семантики, частотных словарей, размеченных и неразмеченных текстовых корпусов.

Слайды доклада.

Литература:

  1. Elena Kozerenko. Parallel texts alignment strategies. Inform. Primen., 2013, Volume 7, Issue 1, Pages 82–89 (Mi ia247)
    http://www.mathnet.ru/links/ceabc3c7ec0dbdb3c299f68b18d35495/ia247.pdf
  2. Yu. I. Morozova, E. B. Kozerenko, M. M. Sharnin, Method for extracting single-word translation correspondences from parallel texts using distributional semantics models, Sistemy i Sredstva Inform., 2014, Volume 24, Issue 2, 131–142 http://www.mathnet.ru/links/6da76492c120c647bd1b758611e7d918/ssi349.pdf
  3. Elena Kozerenko, Alexander Khoroshilov, Alexei A. Khoroshilov Syntactic Parameters in the Phrasal Machine Translation. Proceeding of the International Conference on Artificial Intelligence (ICAI’13) 2013 World Congress on Computer Science Research, Educarion and Advanced Technologies, CSREA, 2013, Las Vegas, USA http://worldcomp-proceedings.com/proc/p2013/ICA2118.pdf
  4. Koehn P. Statistical machine translation. — Cambridge: University Press, 2009.
  5. Schutze, H. 1998. Automatic word sense discrimination. Computational Linguistics 24(1):97–123.
  6. Bos, J. 2005. Towards wide-coverage semantic interpretation. In Proceedings of the Sixth International Workshop on Computational Semantics (IWCS-6), 42–53.
  7. Clark, S., and Curran, J. R. 2004. Parsing the WSJ using CCG and loglinear models. In Proceedings of the 42nd Meeting of the ACL, 104–111.
  8. Fodor, J., and Lepore, E. 1999. All at sea in semantic space: Churchland on meaning similarity. Journal of Philosophy 96(8):381–403.
  9. Grefenstette, G. 1992. Use of syntactic context to produce term association lists for text retrieval. In Proceedings of the 15th annual international ACM SIGIR conference on Research and development in information retrieval, 89–97.
  10. Sparck Jones, K., and Willett, P., eds. 1997. Readings in Information Retrieval. San Franscisco, CA: Morgan Kaufmann.
  11. Widdows, D. 2004. Geometry and Meaning. Stanford University: CSLI Publications.
Supported by Synthesis Group