专业贴：100+个自然语言处理数据集_华体育app官网登录

2024-07-16 华体育app官网登录

　　奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表（原始未结构化的文本数据），快去按图索骥下载数据自己研究吧！

　　Apache软件基金会公开邮件档案：截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。（200 GB）

　　博主原创语料库：包含2004年8月从网站收集的19,320位博主的帖子。681,288个帖子以及140多万字。（298 MB）

　　亚马逊美食评论[Kaggle]：包含亚马逊用户在2012年10月前留下的568,454条食评。（240MB）

　　ASAP自动作文评分[Kaggle]：在本次比赛中，有8个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为150到550个字不等。部分作文依赖于源信息，而另其他则不是。所有论文都是由7年级到10年级的学生所写。所有的作文都由人工打分，并采用双评分制。（100MB）

　　ASAP简答题评分[Kaggle]：每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为50个字。某些回答依赖于源信息，而其他则不是。所有回答由10年级学生所写。所有回答均为人工打分，并采用双评分制。（35MB）

　　CLiPS文体学研究（CSI）语料库：每年扩展两种类型的学生写作：文章和综述。这个语料库的目的主要在于文体学研究，当然也可用于其他研究。（数据集需要申请获得）

　　康奈尔电影对话语料库（Cornell Movie Dialog Corpus）：包含大量丰富的元数据，从原始电影剧本中提取的对线次会线MB）

　　企业信息：分类企业在社会化媒体上到底谈论了什么的工作。要求志愿者将企业陈述分类为信息（关于公司或其活动的客观陈述），对话（回复用户等）或行动（要求投票或要求用户点击链接等的信息）。（600KB）

　　一个网络社区关于从中提取结构化信息并使得此信息在网络上可用的共同成果。（17GB）

　　Death Row：自1984年以来处决的每个犯人的遗言。（HTML表格）

　　经济新闻与之相类似的文章：确定新闻文章与美国经济是否相关，如果相关，文章的基调是什么。时间范围从1951年到2014年。（12MB）

　　安然公司电子邮件数据：包含1,227,255封电子邮件，其中493,384个附件覆盖151位管理者。（210GB）

　　事件注册：免费工具，可以实时访问全球100,000个媒体的新闻文章。有API接口。（查询工具）

　　联邦采购数据中心的联邦合同（USASpending.gov）：来自USASpending.gov的联邦采购数据中心所有联邦合同的数据库。（180GB）

　　Freebase简单主题库：Freebase中每个主题中基本的可识别事实的数据库（5GB）

　　谷歌图书n元语法：也可通过亚马逊S3上hadoop格式文件获取。（2.2TB）

　　加拿大议会文本块：来自加拿大第36届议会正式记录（Hansards）的130万标准文本块（句子或更小的片段）。（82MB）

　　哈佛图书馆：超过1,200万册哈佛图书馆所藏资料的书目记录，包括书籍，期刊，电子资源，手稿，档案资料，乐谱，音频，视频和别的资料。（4GB）

　　仇恨言论识别：志愿人查看短文，并确定它是否a）包含仇恨言论，b）冒犯性的，但没有仇恨言论，或c）一点也没有冒犯性。包含近15千行，每个文本字符串有三个志愿者判断。（3MB）

　　希拉里克林顿的电子邮件[Kaggle]：整理了近7,000页克林顿的电子邮件。（12MB）

　　家得宝公司产品搜索关联[Kaggle]：包含家得宝公司网站的许多产品和客户搜索条款。挑战是预测搜索条目组合和产品的相关性分数。为了创建真实标签，家得宝公司将搜索/产品配对众包给多个评分者打分。（65MB）

　　确定文本中的关键短语：问题/答案对和文本组成；判断上下文文本是否与问题/答案相关。（8MB）

　　美国电视节目‘危险’：216930个过去出现在‘危险’节目的问题合集。（53MB）

　　百万新闻头条-澳大利亚ABC[Kaggle]：由澳大利亚ABC新闻发布的从2003到2017年的130万新闻。（56MB）

　　MCTest：可免费使用的660个故事集和有关问题，可用于研究文本机器理解、问答（1MB）。

　　Negra：德国报纸文本的语法标注语料库。可供所有大学及非营利机构免费使用。需要签署协议并发送申请才能获得。

　　新闻头条-印度时报[Kaggle]：印度时报发表的从2001到2017年的270万类新闻头条。（185MB）

　　新闻文章/页面配对：志愿者阅读一篇短文，被问及最匹配的两篇文章是哪一篇。（6MB）

　　全球新闻一周供稿[Kaggle]：在2017年8月的一周，用20多种语言全球发表的140万篇新闻事件数据集。（115MB）

　　句子/概念对的正确性：志愿者读关于两个概念的句子。例如，“狗是一种动物”，或者“船长可以和主人有同样的意思”，然后他们被问到这个句子是不是正确，并将其1-5评级。（700KB）

　　人物语料库：收集了作者文章风格和个性预测的实验。由145名学生的145篇荷兰语文章组成。（获得需要申请）

　　Reddit评论：截至2015年7月，reddit论坛所有公开的评论。共计17亿条评论。（250GB）

　　路透社语料库：一个包含路透社新闻报道的数据集，用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录1”或RCV1，它远大于原来在文本分类中被普遍的使用的著名的路透社21578数据集。该语料库数据一定要通过签署协议和发送邮件获取。（2.5GB）

　　SaudiNewsNet：31030条从不同沙特阿拉伯的网络报纸上摘取的标题和元数据。（2MB）

　　《南方公园》数据集：csv格式文件，包含季、集、角色和台词的剧本信息。（3.6MB）

　　Twitter上关于新英格兰爱国者队“放气门”事件的舆情：在2015年超级碗比赛前，人们对被放了气的橄榄球以及爱国者队是不是真的存在欺骗行为议论纷纷。该数据集提供了丑闻发生的最近一段时间里Twitter上的舆情，以便评估公众对整个事件的感受。（2MB）

　　Twitter上对于左倾相关事件的舆情分析：关于堕胎合法化、女权主义、希拉里·克林顿等各种左倾相关事件的推文，推文将依据内容推断被分类为For（支持）、Against（反对）、Neutral（中立）或None of the above（以上都不是）。（600KB）

　　Twitter的Sentiment140（情感分析数据集）：关于品牌/关键词的推文，网站包括论文和研究想法。（77MB）

　　Twitter上关于无人驾驶汽车的舆情分析：贡献者们阅读推文后，将推文里对于无人驾驶的态度分为非常积极、较积极、中立、较消极和非常消极。如果推文与无人驾驶汽车无关，他们也要标记出来。（1MB）

　　Twitter上对于美国各大航空公司的态度（Kaggle数据集）：这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了2015年2月的推文，贡献者们将其分类为积极、消极和中立，对那些分类为消极态度的推文，还会给出原因（例如“飞机晚点”或“服务态度差”等）。（2.5MB）

　　基于新闻标题的美国经济表现：根据新闻标题头条和摘要，对新闻和美国经济的相关性进行排序。（5MB）

　　城市词典（美国在线俚语词典）里的单词和定义：一个经过清洗的CSV语料库，包含截至2016年5月的城市词典内所有260万个词汇、定义、作者和投票情况。（238MB）

　　的Wesbury Lab语料库：2010年4月英文部分中所有文章的快照。网站详细描述了数据是如何被处理的——即去除所有链接和不相关的材料（如导航文本等）。语料库是未经标记的原始文本，它被用于Stanford NLP。

　　的XML格式数据：所有维基媒体（Wikimedia）的完整复制，以维基文本元（wikitext source）和元数据的形式嵌入到XML中。（500GB）

　　雅虎问答中的综合问题与答案：截至2007年10月25日的雅虎问答语料库，包含4,483,032条问答。（3.6GB）

　　雅虎问答中用法语提问的问题：2006-2015年雅虎问答语料库的子数据集，包含170万条法语问答。（3.8GB）

　　雅虎问答中的关于“如何做”的问题[LZ2]：根据语言属性从2007年10月25日雅虎问答语料库选出的子集，包含142,627条问答。（104MB）

　　雅虎从公开网页中提取的HTML格式页面：包含少量复杂HTML格式的页面和267万个复杂格式的页面。（50+ GB）

　　雅虎从公开网页页面中提取的元数据：1亿个RDF格式数据的三元组（2GB）

　　雅虎的N元语法模型表示（N-Gram Representations）数据：该数据集包含N元语法表示数据，这一些数据能够适用于IR研究中常见的查询重写（query rewriting）任务，也能够适用于NLP研究中常见的词语和句子相似性分析任务。（2.6GB）

　　雅虎的N元语法模型数据（版本2.0）：n元语法模型数据（n=1-5），从一个包含1460万个文档（1.26亿条不重复的语句，34亿个运行词）的语料库中提取，这些文档是从12000个面向新闻的站点里爬取的（12 GB）

　　雅虎的英语语义注释快照：包含从2006年11月4日开始的经一些公开的NLP工具处理后的英文，共有1,490,688个条目。（6GB）

　　CrowdFlower数据集（包含大量小调查和对特定任务以众包方式获得的数据）

　　reddit数据集（无数个数据集，大部分由业余爱好者爬取，但数据的整理和许可可能不够规范）

　　斯坦福NLP组（大部分为已标注的语料库和TreeBanks，以及实用的NLP工具）

　　雅虎研究院的数据集汇总Webscope（还包含了使用了这一些数据的论文列表）

　　Alix Partners：预计2030年中国汽车将占全球33%的份额

　　经济学人智库：2024年全球最宜居城市维也纳以98.4分连续第三年登顶

　　J.D. Power：研究显示2024年特斯拉新车PP100指数为266 与传统汽车制造商持平

　　CIRP：2023年4月-2024年3月三星以38%的市场占有率位居美国智能手机市场榜首

　　我们致力为中国互联网研究和咨询及IT行业数据专业技术人员和决策者提供一个数据共享平台。

[上一篇] 百度自然语言处理技术新突破 “端到端问答”迈出重要一步

[下一篇] 随州市正式注册“12356”心思帮助热线