Створення та тестування спеціалізованих словників для аналізу тексту
DOI:
https://doi.org/10.29038/eejpl.2019.6.1.rtaКлючові слова:
аналіз тексту, машинне навчання, LIWC, наївний баєсів класифікатор.Анотація
Робота фахівців-практиків у багатьох галузях, наприклад, клінічних психологів, викладачів коледжів, дослідників передбачає збір письмових відповідей їхніх клієнтів чи студентів. Добре розроблений метод, який застосовується сьогодні до текстів такого типу, - це комп'ютерний додаток Linguistic Inquiry and Word Count (LIWC). Програма LIWC трактує слова в текстах як індикатори ментальних процесів людини, її емоційних станів, намірів і мотивів. У статті використано аналітичні принципи LIWC, розроблено та протестовано альтернативний метод аналізу тексту з використанням методів наївного баєсового класифікатора. Автори демонструють, які результати аналізу за наївним баєсовим класифікатором можуть бути використані для аналізу студентської роботи з метою надання негайного, конструктивного зворотнього зв'язку і студентам і викладачам.
Література
References
- Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research 3, 993-1022.
- Boot, P., Zijlstra, H., & Geenen, R. (2017). The Dutch translation of the Linguistic Inquiry and Word Count (LIWC) 2007 dictionary. Dutch Journal of Applied Linguistics, 6(1), 65-76.
- Chung, C. K., & Pennebaker, J. W. (2008). Revealing dimensions of thinking in open-ended self-descriptions: An automated meaning extraction method for natural language. Journal of research in personality, 42(1), 96-132.
- Hsieh, H-F., & Shannon, S. E. (2005).Three approaches to qualitative content analysis. Qualitative health research, 15(9), 277-1288.
- Kintsch, W. (1998). Comprehension: A paradigm for cognition. New York: Cambridge University Press.
- Landauer, T. K., Foltz, P. W., & Laham, D. (1998). An introduction to latent semantic analysis. Discourse processes, 25(2-3), 259-284.
- Lund, K., & Burgess, C. (1996). Producing high-dimensional semantic spaces from lexical co-occurrence. Behavior Research Methods, Instruments, & Computers, 28(2), 203-208.
- Massó, G., Lambert, P., Penagos, C. R., & Saurí, R. (2013, December). Generating New LIWC Dictionaries by Triangulation. In Asia Information Retrieval Symposium (pp. 263-271). Springer, Berlin, Heidelberg.
- Newman, M., Groom, C.J., Handelman, L.D., & Pennebaker, J.W. (2008). Gender differences in language use: An analysis of 14,000 text samples. Discourse Processes, 45(3), 211-236.
- Pennebaker, J.W., Boyd, R.L., Jordan, K., & Blackburn, K. (2015). The development and psychometric properties of LIWC 2015. Austin, TX: University of Texas at Austin.
- Tausczik, Y. R., & Pennebaker, J. W. (2010). The psychological meaning of words: LIWC and computerized text analysis methods. Journal of language and social psychology, 29(1), 24-54.
- Van Wissen, L., & Boot, P. (2017, September). An Electronic Translation of the LIWC Dictionary into Dutch. In: Electronic lexicography in the 21st century: Proceedings of eLex 2017 Conference. (pp. 703-715). Lexical Computing.