corpus /ˈkɔːrpəs/:语料库;文集;(某一领域的)文本/资料总集。常用于语言学、文学研究与数据分析中,指一组被系统收集的文本或材料。(也可指“人体/器官的主体部分”等其他义项,但此处以最常见用法为主。)
/ˈkɔːrpəs/
A corpus of news articles was used to train the model.
一个由新闻文章组成的语料库被用来训练该模型。
By comparing two large corpora across decades, researchers found that certain idioms gradually disappeared from everyday writing.
通过对比跨越数十年的两个大型语料库,研究者发现某些习语逐渐从日常写作中消失了。
来自拉丁语 corpus,意为“身体、整体”。后来引申为“一个完整集合”,再进一步用于学术语境中表示“收集成体系的文本或资料集合”,尤其在语言学里指“语料库”。