马克斯普朗克人类历史科学研究所发布最新版本的跨语言共词化数据库CLICS - {$web_name} 探究人员可以洞悉广泛的难题




马克斯普朗克人类历史科学探究所亮相新近版次的跨语言共词化资料库CLICS(CREDIT:J.-M. List, T. Tresoldi / S. J. Greenhill)
(神秘的地球uux.cn报导)据EurekAlert!:由马克斯普朗克人类历史科学探究所的学者领导的一组科学家亮相了新近版次的跨语言共词化资料库(Database of Cross-Linguistic Colexifications CLICS),涵盖了超过3100种语言的关联词汇。新版次的资料库过去所未有的规模提供了词汇资料,并为资料聚合提供了详尽、可复制的岗位流,使全球各地的本周电影资讯汇总学者都可以为资料库的前方版次做出贡献。
在每种语言中,都有两个或两个以上的概念用同一词强调的状况,例如英语单词fly,既指飞行的行为,又指苍蝇。语言学家将这种模式称为共词化(colexification)。经由较为各异语言中的共词化现象,探究人员可以洞悉广泛的难题,含有人类的网友中端机观察感知,语言的演变和语言的接触。 CLICS资料库的第三若干显著增多了早期版次中可用的语言、概念和资料源的数量,从而使探究人员能够过去所未有的详情和深度在全球范围内探究共词化现象。
借助详尽的计算机辅助岗位流程,CLICS合作了语言资料集的规范化,并为语言探究中的详细肖战热点许多持续考验提供知晓决计划。 Tiago Tresoldi强调:“过去资料汇总通常是经由暂时确定的步骤达成,但我们的新岗位流程和最佳实践指南是确保语言探究可重复性的重大一步。”探究使用证明CLICS的有效性 最近在《科学》杂志上发表的一项探究中已然说明了CLICS提供新证据以解决心理学和认知方面的前沿难题的能力,该探究集中在情感概念在全球语言中的各异表达。
这项探究较以便来自全球语言样本中的用于情感概念的共词化联网,并察觉情感的含义在各异的语言家族中差异很大。“在这项探究中025演员阵容榜单使用CLICS来探究全球各地语言在情感词汇方面的差异,但是资料库的潜力并不局限于情感概念。”Johann-Mattis List说,“我们前方还会解决更多有趣的难题。”新规范和岗位流程为收集可复制的全球词汇资料提供或许性。
基于2018年首次提出的跨语言探究中规范化资料格式的新指南(guidelines for standardized data formats in cross-linguistic research,DOI:10.1038 / sdata.2018.205),CLICS团队把资料库从300种语言和1200种概念增多到了3156种语言和2906种概念。新版次还保证了资料聚合(data aggregation)过程的可重复性,符合探究资料治理中的最佳实践原则。“由于我们开发了新的规范和岗位流程,我们的资料不只是公开、公平的(可查找、可访问、可互操控和可再现),并且将语言资料从其原始形式提升到我们的跨语言规范的过程也更为高效。”Robert Forkel说。
为CLICS开发的岗位流的有效性已然在关乎众多学者和学子的各类测试评测中得到评测和证实。两项各异的学子任务为此展开,兴办了新的资料集并逐步改进了现有资料。这两项任务请求学子达成探究中刻画的资料集,并兴办的各异步骤,例如资料提取,资料映射(到参考目录)和源确认。“让核心团队以外的人使用和评测你的工具是必不可少的,这对微调所有流程有很大合作,”Christoph Rzymski说。 随着CLICS及其岗位流程可供更广泛的受众使用,学者们前方不只可以直接对资料库做出贡献,还可以在资料库中使用。他们还可以从既有的设备中获利并着手自己的目标收藏。“积极使用我们的规范和岗位流程的语言学家的数量正不断增多。我们期盼这个新版次的CLICS能够进一步研究它们。”Simon Greenhill说。
上一篇:【天下贰】你还不知道这些“性价比之王”?只要3元宝,新坐骑带回家!
下一篇:中国音数协第一副理事长张毅君在中国音数协游戏博物馆开馆仪式上的致辞