北大语料库ccl检索(CCL汉语语料库)

北大语料库ccl检索(CCL汉语语料库)

通用单语语料库

01国家语委现代汉语通用平衡语料库

该语料库是由国家语言文字工作委员会主持,面向语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育以及语言文字的社会应用,总体规模达1 亿字,语料时间跨度为1919-2002年,收录了人文与社会科学、自然科学及综合三个大类约40个小类的语料(http://www.cncorpus.org)。其中标注语料库为国家语委现代汉语通用平衡语料库全库的子集,该子集是按照预先设计的选材原则进行平衡抽样,对语料进行分词和词类标注,并经过三次人工校对,最后得到约5000万字符的标注语料库。

北大语料库ccl检索(CCL汉语语料库)

02北京语言大学语料库中心BCC语料库

BCC语料库(http://bcc.blcu.edu.cn)是以汉语为主,兼有英语、西班牙语、法语、德语、土耳其语等语言的语料库,其中汉语语料规模约150亿字,涵盖了报刊、文学、微博、科技、综合和古汉语等多领域语料。BCC语料库包括了生语料、分词语料、词性标注语料和句法树,目前已对现代汉语、英语、法语的语料进行词性标注。

03清华TH语料库

清华TH语料库(http://www.openslr.org/18)于1994年6月建成,其总库根据对语料加工深度的不同采用分级管理的原则,分成了生语料和熟语料两大类,其中0级生语料分库涵盖了一般书、报纸、论文、杂志、工具书等五类子库语料素材。经过近年来不断的升级和更新,已更名为THCHS-30语料库。

04北京大学CCL语料库

CCL语料库(http://ccl.pku.edu.cn:8080/ccl_corpus/index/jsp?=xiandai)中包含现代汉语语料、古代汉语语料两类单语语料,涉及的文献时间从公元前11世纪到当代。其中现代汉语语料约6 亿字符,涵盖了文学、戏剧、报刊、翻译作品、网络语料、应用文、电视电影、学术文献、史传、相声小品、口语等多个类型。CCL语料库中古代汉语语料约2亿字符,收录了从周代到民国的语料及大藏经、二十五史、历代笔记、十三经注疏、全唐诗、诸子百家、全元曲、全宋词、道藏、辞书、蒙学读物等的杂类语料。除了两大单语语料库的扩容外,近年来CCL语料库还融入了一些专题语料库,例如:早期北京话材料、留学生汉语作文语料、汉语构式语料库、中文学术文献语料库、海外华文网络语料等等。

05人民日报标注语料库

该语料库是我国第一个大型的现代汉语标注语料库,以《人民日报》1998年的纯文本语料为基础,完成词语切分、词性标注、专有名词标注、语素子类标注、动词和形容词特殊用法标注、短语型标注等加工工作,现已扩充至3500万字的规模。后来北京大学计算语言学研究所在此基础上完成了另外100万字语料的词语切分、词性标注和汉语拼音标注的加工任务,还利用所研制的《现代汉语语义词典》、参照《现代汉语词典》,根据语料实际使用情况对词义描写进行调整,研发了一个大规模、高质量的现代汉语词义标注语料库(Chinese Word Sense Tagging Corpus,STC)。

为了弥补北京大学人民日报语料库用于处理当前文本时的不足,2019年开始南京农业大学人文与社会计算研究中心以2015年至2018年《人民日报》发表的文章为对象,构建了新时代人民日报语料库(简称NEPD,http://corpus.njau.edu.cn/),目前该语料库涵盖了《人民日报》2015 年1-5 月、2016年1月、2017年1月、2018 年1月共9个月的分词语料,并且后续将不断补充最新语料 。

06清华汉语树库(TshinghuaChineseTreebank,TCT )

该语料库从包含文学、学术、新闻、应用四大体裁的200万汉字平衡语料库中提取了100万汉字规模的语料文本,经过自动断句、句法分析后再进行人工校对,形成了有完整句法结构树的汉语句法树库语料。

汉英双语平行语料库

07中国科学院汉英平行语料库

中国科学院汉英平行语料库是在对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工后建立的一个句子级对齐的双语语言信息和知识库,该语料库借助互联网等其他媒体搜集中英文篇章级对齐的双语文本,面向多领域多体裁,采用基于双语辞典的句子对齐方法进行了文本对齐,并对双语文本句子对齐结果实现自动评价。

08南京大学双语词典研究中心英汉双语平行语料库(NJU_BDRCBC)

09清华大学中英平行语料库

清华大学中英平行语料库(http://thumt.thunlp.org/)由清华大学自然语言处理与社会人文计算实验室在国家“863 计划” 项目“ 互联网语言翻译系统研制” 的支持下,利用自身研发的互联网平行网页获取软件和双语句子自动对齐软件获取并处理得到的,共包含285万中英平行句对。

其他汉外平行语料库

10北京大学计算语言研究所双语平行语料库

该语料库为大型汉英、汉日双语语料库,包含汉英句子级对齐语料20万句对、汉日句子级对齐语料2万句对、汉英词汇级对齐语料1万对,旨在为机器翻译等应用系统的研发提供基础资源和标准的评测语料 。

11北京外国语大学双语平行语料库

由王克非负责构建的汉英和汉日两个平行语料库目前仍在建设中。该语料库包括2000万字的日汉对译文本语料库和3000万字词的通用型汉英平行语料库两个部分。目前2000万字的日汉对译文本语料库的平行对应语料分为文学与非文学、汉译日和日译汉存放,做到段落级对齐,运用所研制的检索工具可对汉日语料做各种词语、短语、句型和搭配上的检索。通用型汉英平行语料库分为,“百科语料库”“翻译文本库”“双语语句库”以及“专科语料库”四个子库,目前3000万字词语料已基本做到句级对齐,其中2000万字词语料已完成最终校对、标注、双语链接。

12南京农业大学典籍平行语料库

基于十三经、《战国策》、前四史等典籍及其所对应的白话文和英文翻译,南京农业大学王东波结合深度学习相应模型设计了句对齐的算法,实现了古文句子与白话文和英文的对齐,并对古文、白话文和英文进行了分词、词性和实体标注,形成了独具特色的典籍平行语料库 。

其他特色语料库

13汉语中介语语料库

汉语中介语语料库(http://qqk.blcu.edu.cn/#/login)由北京语言大学( 原北京语言学院)于1992年开始建设。该语料库立足于汉语教学已收录1635位外国学生共5774篇成篇成段的汉语作文或练习材料,总字数约353万,其中1731 篇约104万字的语料经过断句、分词和词性标注等加工处理。目前该全球汉语中介语料库仍处于努力建设过程中,北京语言大学仍然努力于建设全球汉语中介语语料库,其规模预计达5000万字,包括笔语语料、口语语料和多模态子库。笔语语料规模预计达4500万字,其中2000万字将加工成为熟语料;口语语料450小时,约合400万字;多模态语料110小时,约合100万字。

14HSK动态作文语料库

该语料库(http://hsk.blcu.edu.cn/Login)收录了1992-2005年部分母语非汉语的外国人参加高等汉语水平考试(HSK高等) 的作文考试的答卷语料,2006年12月上线语料库1.0版本,现已上线语料库2.0版本,语料总数达11569篇,共计424万字。除此之外,北京语言大学还建立了首都外国留学生汉语文本语料库、汉语学习者口语语料库等多种类型的汉语语料库。北京语言大学多个语料库的问世及相关的研究成果激励了更多学者和单位投入到教学导向的语料库的建设中,已知语料库有:中山大学建立的留学生中介语语料库、汉语连续性中介语料库、广东外语外贸大学与兰卡斯特大学联合建立的Guangwai Lancaster汉语学习者语料库等。

15中国传媒大学有声媒体文本语料库

该语料库(http://ling.cuc.edu.cn/Raw-Pub/)由中国传媒大学国家语言资源检测与研究有声媒体中心开发,2003年开始建设,2005年上线,其后不断扩大语料规模, 并于2016年进行了第三次改版。该语料库包括2008-2013年的3万多个广播、电视节目的转写文本,总字符数达到2.4 亿个,并对所有文本进行了自动分词和词性标注。

16名著汉英平行语料库

《红楼梦》汉英平行语料库是国内第一个根据译者选用原底本所做的句级对齐平行语料库,它的成功发布可为“红学” 不同英译本的研究提供客观科学的平台,为翻译教学提供丰富的资源,为翻译理论探讨提供基本素材 。莎士比亚戏剧英汉平行语料库由上海交通大学的学者研究构建,容量约600万字词。该语料库由英文原文和三个版本的译文构成,在分词的基础上实现了词性标注,以及人物对话层面的对齐,该库可以展开一对一及一对多的平行检索,为莎剧翻译研究和语言研究提供了宝贵资源 。

17少数民族语言语料库

除了汉语相关语料库之外,国内少数民族语言语料库的构建研究工作也正在逐步发展,尤其是蒙古族、维吾尔族、藏族等几个少数民族的语料库。现代蒙古语语料库,由内蒙古大学蒙古语文研究所于1998年构建完成,总规模达5000万词,涵盖了文科教材、理科教材、文学、新闻、政治、社会科学、自然科学、口语等类型语料。内蒙古大学蒙古语文研究所在2003年开始建设汉蒙双语语料库,该语料库总规模达10万个句对,为蒙古文信息处理、语言教学、汉蒙双语研究和汉蒙双语词典的编纂等工作的发展奠定了基础。现代维吾尔语语料库,由新疆大学于2002年开始建设,生语料规模达800万词。西藏大学大型藏文语料库,总规模高达1.5亿藏文字符,其中3000万藏文字符经过分词和词性标注加工 。除此之外,还有200万词的新疆师范大学维吾尔语语料库、规模约1亿3千万字节的西北民族大学大型藏文语料库、500万藏语字符的中国社会科学院民族学语人类学研究所藏语语料库等。

本文【北大语料库ccl检索(CCL汉语语料库)】由作者: 悲观锁 提供,本站不拥有所有权,只提供储存服务,如有侵权,联系删除!
本文链接:https://www.cuoshuo.com/blog/4603.html

(0)
上一篇 2023-03-16 08:42:18
下一篇 2023-03-16 08:57:21

相关推荐

  • 5笔字根表怎么记比较快 五笔输入法怎样背字根

    在学习五笔的过程当中,相信大家发现记忆字根是一个非常烦的问题,有很多的人就在这个阶段因为记不住字根就这样放弃了五笔的学习。接下来,我就把自身怎么记住字根的方法分享给大家,供大家学习参考,共同进步。 个人觉得记住字根其实并不是一件难事,就是一个熟能生巧的过程。 第一天,我是把字根表的记忆口诀背了下来,这25句口诀(图1所示),背下来,这个背下来,其实你离记住字…

    2023-03-17
    300
  • continue语句只用于循环语句中吗_continue只能用于循环体中

    一般在switch循环遍历是经常用到break的,跳出当前循环。其实break也可以在for循环中使用,来结束当前循环,减少不必要的资源浪费; 网友一: 一、释义不同 1、break:间歇;休息;课间du休息;间断;zhi暂停。 2、continue:持续;继dao续存zhuan在;不断发生;继续做;不停shu地干;朝相同方向走,移动;延伸。 二、读音不同 …

    2023-03-10
    600
  • cpu使用100%是什么攻击,cpu使用率百分百

    一、DDoS攻击存在的原因是? 当下因特网带宽的增加和各种DDoS黑客工具的不断推出,DDoS拒绝服务攻击的实施变得更加容易,DDoS攻击事件也随之增多。原因在于行业中存在的商业竞争、打击报复和网络敲诈等,许多网络服务提供商托管机房、商业网站、游戏服务器、聊天网等长期受到DDoS攻击的困扰,而DDoS攻击所带来的客户投诉、与虚拟主机用户的牵连、法律纠纷、商业…

    2023-03-15
    400
  • php用什么打开 php在哪里运行

    在平时我们可能会碰到过php文件,可是很多用户不知道php文件是什么文件?也不知道怎么打开php文件?为了满足一些用户的好奇心,小编现在就给大家讲解php文件以及如何打开php文件的方法。 1、PHP文件是什么? PHP(Hypertext Preprocessor)超文本预处理器,是一种在服务器端执行的嵌入HTML文档的脚本语言,语言的风格有类似于C语言,…

    2023-03-14
    400
  • 关系型数据库的基本原理(数据库系统的组成和特点)

    我们所熟知的数据库一般都是关系型数据库,比如Oracle、Sql Server、DB2和Mysql等。Oracle一般用在电信公司,Sql Server可以在中小型企业或零售公司寻觅其踪影,DB2一般配合IBM的大型机(如OS390),只有高大上的银行能够用得起来,而Mysql因其开源和支持高可用集群,经常在淘宝等网站亮其身份。 谈到数据库,最基本的莫过于对…

    2023-03-15
    100
  • 红旗Linux桌面操作系统,win10桌面没有我的电脑图标

    刚安装了win10,刚打开时发现桌面上没有我的电脑图标,这对于很多人来说是非常不适应的,那么win10我的电脑图标没了怎么办?下面学习啦小编就为大家介绍一下具体的解决方法吧,欢迎大家参考和学习。 1.打开设置点击个性化设置. 2.点击主题. 3.点击主题后,点击右侧桌面图标设置. 4.勾选计算机,点击运用后,点击确定.设置完成.

    2023-03-21
    000
  • teamviewer许可证授权

    1.软件介绍 Remote Utilities 是一款远程控制工具,使用简单,免费、可商用,还能够自建中继服务器,拥有 Windows、iOS 以及 Android 客户端,仅可远程控制 Windows 系统。 2.使用方法 使用跟 teamviewer 类似,被控端运行一个 agent.exe(只有这一个文件),会给出一个 ID 和密码,主控端运行 rut…

    2023-03-13
    500
  • HTML 教程 | 菜鸟教程

    HTML 教程- (HTML5 标准) 超文本标记语言(英语:HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。 您可以使用 HTML 来建立自己的 WEB 站点,HTML 运行在浏览器上,由浏览器来解析。 在本教程中,您将学习如何使用 HTML 来创建站点。 HTML 很容易学习!相信您能很快学会它! H…

    2023-03-12
    700
  • 数学模型答案姜启源第5版pdf 数学模型第五版姜启源

    中国教育新闻网讯(记者 焦小新)4月14日19:00全国大学生数学建模竞赛组委会、高等教育出版社联合举办的“数学建模大讲堂”第二期将开播。 第二期直播内容将围绕“案例的深入研究与拓展训练——浅谈如何学习数学建模”展开,主讲人为全国大学生数学建模竞赛组委会原秘书长,清华大学姜启源教授。他主编的《数学模型(第五版)》是国内影响最大、使用最广的数学建模教材之一。 …

    2023-03-15
    200
  • Excel vba教程

    Hello,大家好,今天跟大家分享几个比较实用的自定义函数,都是利用VBA代码自己定义,操作非常的简单,大家只需要打开VB编辑器,然后粘贴代码即可,废话不多说,下面我们就来看下都有哪些代码。 一、输入数据自动锁定 Private Sub Worksheet_SelectionChange(ByVal Target As Range) On Error Res…

    2023-03-21
    100

发表回复

登录后才能评论
返回顶部
错说博客上线啦!