可选用的数据集主要包括Cora、Citeseer、DBLP三类。
DBLP数据集用XML描述,字段信息包括:author、title、pages、year、booktitle、url、crossref、publisher、ee、cdrom、isbn、cite_label等。其中作者名属性信息的格式是统一的,处理比较方便。目前,DBLP对作者重名问题的处理已经有不错的效果。例如:输入一作者名“wei wang”,可以得到16个不同的作者及其工作单位,并能链接得到每个作者的发表论文情况、个人主页和合作者列表等信息。(不存在问题了吗?)此外,引文信息中除了基本信息:作者名、文章名、会议名之外,加入新的信息:author keywords,对应于论文中的keywords。但是,并非所有的论文都包含有author keywords信息,也并非所有作者都有个人主页,在个人主页链接识别上还存在问题。
Cora数据集分为6大类,36个小类。主要的文件目录包括:(1)papers:以<id> <filename> <citation string>的形式描述论文信息,其中citation string是该论文的任意一篇参考引文或者基于作者名和文章名提取出的关键字。(2)citations:大约有715000条引文信息,用<referring_id> <cited_id>形式描述论文之间的引用关系。(3)citations.withauthors:包含论文的引文信息和作者信息,描述格式为:<this_paper_id><filename><id_of_first_cited_paper><id_of_second_cited_paper>…<Author#1>(of this paper)<Author#2>…(4)classifications:记录论文的分类信息,但分类标签并不是很准确,其描述格式为:<filename> <classification>。如:http:##www.ri.cmu.edu#afs#cs#user#alex#docs#idvl#dl97.ps /Information_Retrieval/Retrieval/。
在CiteSeer数据集中,论文分为六类:Agents、AI(人工智能)、DB(数据库)、IR(信息检索)、ML(机器语言)和HCI,共包含3312篇论文,记录了论文之间引用或被引用信息。去除停用词和在文档中出现频率小于10次的词,整理得到3703个唯一词。CiteSeer数据集包含两个文件:.content文件和.cites文件,其中.content文件描述论文信息的格式为:<paper_id> <word_attributes>+<class_label>;.cites文件描述了论文之间的引用信息,格式为:<ID of cited paper> <ID of citing paper>。例如,一行内容为:paper1 paper2,那么引用关系为paper2引用paper1,即:paper2->paper1。
但是,Citeseer数据集中的分类太笼统。
分享到:
相关推荐
TCGA-BRCA数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
TCGA-STAD数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
TCGA-OV数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
内容概要:本文通过一位大学生从零基础学习数据集整理的案例,详细分享了学习路径、实践经验、团队合作和时间管理等方面的宝贵经验。为那些对数据集整理感兴趣的大学生提供了实用的参考和启示。 适用人群:本篇文章...
TCGA-KIRC数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
中药材识别数据集整理归纳
300W 人脸关键点数据集整理包,里面包括300W 人脸关键点数据集整理的 python 程序,以及整理后的 ndarray 文件。如果,有积分可以选择下载。
需要自己变成log2(TPM+1)才能进行后续分析哦
聚类数据集整理(合成、UCI和其他真实数据集).zip
新闻分类检测数据集整理
UCI数据集是一个常用的机器学习标准测试数据集,本资源含有数据集(.txt、.data、.m)如下; Aggregation Blood Cancer D31 Ecoli Glass Iris Jain Robotnavigation Seeds Sprial Vowel Vehicle ...
整理了点云数据的34个公开数据集网址,并归纳其对应的数据集内容和介绍
需要自己变成log2(TPM+1)才能进行后续分析哦
03、ETL技术之二:数据集整理。跳转、循环、数组等,数据集合并,OUTPUT语句.rar
TCGA-ESCA数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据
UCI数据集 UCI库url: https://archive.ics.uci.edu/ml/index.php
CVPR 2019挑战赛Dense_Haze_NTIRE19 浓雾去雾数据集,含55张雾图像与对应的Ground Truth。CVPR 2019挑战赛Dense_Haze_NTIRE19 浓雾去雾数据集,含55张雾图像与对应的Ground Truth。CVPR 2019挑战赛Dense_Haze_NTIRE...
包含《COVID-19》,《英国在线零售业务》,《电商行业用户行为分析数据集》,《电商婴儿用户》,《亚马逊手机》等17个数据集,用于数据分析挖掘,kaggle比赛练习
TCGA-PCPG数据集已经整理成LCPM格式,临床数据已经汇总整理。 LCPM格式即log2(CPM+1)格式,现在认为log2(TPM+1)和log2(FPKM+1)格式比较过时了。部分生信文章审稿人推荐使用此格式分析数据