阅读量:5
Cora、Citeseer和Pubmed是三个常用的图分类数据集,用于研究和评估图分类算法。
Cora数据集:
- 由Cornell大学研究人员创建。
- 包含文献数据库中的2708篇科研论文,分为7个领域。
- 每篇论文由一个128维度的词袋模型表示。
- 论文之间的边表示引用关系。
Citeseer数据集:
- 由Cornell大学研究人员创建。
- 包含3327篇科研论文,分为6个领域。
- 每篇论文由一个3703维度的词袋模型表示。
- 论文之间的边表示引用关系。
Pubmed数据集:
- 由美国国立卫生研究院创建。
- 包含19717篇生物医学论文,分为3个领域。
- 每篇论文由一个500维度的词袋模型表示。
- 论文之间的边表示共同作者关系。
这些数据集常用于图分类任务,其中图分类是指根据节点的属性和连接方式,将图中的节点划分到不同的类别中。这些数据集对于研究者来说是非常有用的,因为它们提供了现实世界中各种领域的真实数据,可以用来评估和比较不同的图分类算法的性能。