< 《2020升级版:人工智能之数据挖掘》重磅发布(附报告全文下载)_新闻中心_华体育app官网登录|华体会手机版
2024-07-03 新闻中心

  【导读】近日,由清华大学研究院、北京智源人工智能研究院、清华 — 中国工程院知识智能联合研究中心共同编写的《人工智能之数据挖掘》报告正式对外发布。报告针对数据挖掘的情况做了深度剖析,从数据挖掘的概念内涵、关键技术、人才研究、应用场景、发展的新趋势 5 个部分,介绍数据挖掘的最近研究进展,并展望了数据挖掘的未来发展趋势。

  数据挖掘旨在从数据中挖掘知识,是一种跨学科的计算机科学分支,用AI、机器学习、统计学和数据库等交叉学科领域方法在大规模、不完全、有噪声、模糊随机的数据集中自动搜索隐藏于其中的有着特殊关系性的数据和信息,并将其转化为计算机可处理的结构化表示,是知识发现的一个关键步骤。报告分别对数据挖掘十大经典算法、统计数据分析方法、科技情报挖掘技术、社交网络与图数据挖掘技术、自然语言数据挖掘技术、多媒体数据挖掘技术、大规模数据挖掘技术、数据隐私保护和安全等方面做了详细介绍和深入分析,并解读了 2013 年 - 2020 年 SIGKDD 会议收录的代表性论文。报告旨在为读者了解数据挖掘领域基础研究和应用研究等方面的代表性成果、研究动向和进展提供信息窗口。报告还介绍了数据挖掘技术在零售业、旅游业、物流业、医学界、金融业和电信业领域的应用。报告依托清华大学自主研发的 AMiner 平台,分析了数据挖掘领域 21,018 位研究学者,并以他们发表的论文作为底层数据,从学者分布、学术水平、国际合作、学者流动等维度,对比分析了国内外机构、学者在该领域的发展状况,并利用 AMiner 平台的学者画像功能,展示了国内外代表性学者的详情信息,最后给出了相应的对策建议。下面选取有代表性的分析维度进行说明:技术探讨研究发展趋势

  数据挖掘和社交网络的研究热度居高不下,近五年来大数据、异常检测和时间序列挖掘的研究热度呈现明显的上涨的趋势。另外,聚类和分类的研究热度一直维持在较高水准,但在近五年内呈现出明显的下滑趋势。

  AMiner 平台多个方面数据显示,全球范围内数据挖掘领域高水平学者大多分布在在以美国为首的北美洲、以英国、意大利为首的欧洲,和以中国为首的亚洲。

  图 3丨数据挖掘领域 h-index 排名前 1000 学者的全球分布地图

  中国数据挖掘领域高水平学者主要分布在京津冀地区、长江三角洲地区、广东省、香港特别行政区等中国东部发达地区。

  图 4丨 数据挖掘领域 h-index 排名前 1000 学者的中国分布地图

  数据挖掘领域高水平论文总被引频次最高的国家是中国,其次是美国,但两者相差不大。中美两国在论文总被引频次、论文发表量、学者数量等指标上均远高于其他国家。

  数据挖掘领域高水平论文总被引频次排名前 10 的全球机构中,中国仅清华大学上榜(排名第 5),其余 9 所机构均在美国。

  在数据挖掘领域合作高水平论文数量排名前 10 的国家中,大部分国家都倾向与中国(与其合作的国家数量为 6 个)、美国(与其合作的国家数量为 5 个)合作,其中中美两国合作最紧密。

  图 5丨全球各国数据挖掘领域论文合作网络图表 3 数据挖掘领域合作论文数量排名前 10 的国家列表

  2010 年 —2020 年间,美国数据挖掘领域学者流入和流出人次均位居全球首位,中国虽然位居第二,但约为美国一半。美国和澳大利亚在该领域学者流出人次大于流入人次,而中国、英国、印度、德国等国家相反。

  2010 年 —2020 年间,中国各省市中,北京市的数据挖掘学者流入和流出的人次明显高于别的地方。北京、上海和香港在该领域学者流入人次均高于流出人次,而南京、西安、武汉和杭州等地与此相反。

  报告利用 AMiner 平台的 “学者画像” 功能,展示了数据挖掘领域国内外有代表性的专家学者信息,包括基础信息、研究兴趣、学术指标、科研网络等。

CONTACT US
欢迎随时与我们联系