国家统计局构建了1998-2013年所有规模以上工业企业的数据,包括全部国有企业和年主营业务收入500 万元及以上的非国有工业企业。可以说,这些企业是中国经济中最重要的一群企业。然而,目前利用专利数据研究公司创新活动的论文主要集中在上市公司层面,而忽视了工业企业这一较大规模的企业的专利信息,这可能是因为中国工业企业数据库中大量不完全统一的企业名称导致的。
为此,团队参考科学的数据匹配与处理方法(寇宗来、刘学悦:《中国企业的专利行为:特征事实以及来自创新政策的影响》,《经济研究》,2020年第3期)将中国工业企业与中国专利创新数据进行了细致匹配,形成了中国工业企业专利及引用被引用数据库。本数据匹配时主要依据企业名称来完成数据处理,即⼯业企业的企业名称与专利数据中的专利权⼈(专利公布则为申请⼈)之间进⾏匹配。为了最⼤化数据可⽤范围,减少数据中存在的噪音,CnOpenData团队同时对⼯业企业和专利数据中的公司名称进行了加工处理。我们考虑到股份有限公司、有限责任公司、集团公司等的不同,在匹配工作进行前删去“集团”、“有限责任公司” 、“股份有限公司” , “有限公司”、“加⼯⼚ ”、“ ⼯⼚”、“⼚”、 “省 ”、“市”、“ 县” 、“州”、“镇”、“乡”、“村”等字样,通过上述匹配过程可以获得更准确的匹配结果。此外,由于本团队持有数据量的优势,本数据的匹配数据量相较于参考文献更多。
需要注意的是,虽然中国工业企业数据本身截止到2013年,但我们仍然选择将中国工业企业数据与截止到2021年的所有专利数据进行了匹配,这主要是因为专利的被引数据存在一定的滞后性,匹配到较新的年度可以保证专利被引数据相对完整。
在结构上,本数据分为发明申请、发明授权、实用新型、外观设计四个模块,各模块包含引用表、被引用表、三张表格(需要注意的是,外观设计无引用表)。
示例数据
字段
索引ID(申请公布号) |
企业名称 |
专利名称 |
申请公布号 |
申请公布日 |
申请号 |
申请日 |
申请人 |
IPC分类号 |
被引用专利名称 |
被引用专利申请公布号 |
被引用专利申请公布日 |
被引用专利申请号 |
被引用专利申请日期 |
被引用专利授权公告号 |
被引用专利授权日期 |
被引用专利优先权日 |
被引用专利发明人 |
被引用专利专利权人 |
被引用专利IPC分类号 |
被引用专利权利要求数 |
被引用专利引用其他专利次数 |
被引用专利被引用次数 |
被引用专利法律状态 |
被引用专利是否FamilytoFamily引用 |
添加该被引用信息的主体 |
- 索引ID(申请公布号)
- 企业名称
- 专利名称
- 申请公布号
- 申请公布日
- 申请号
- 申请日
- 申请人
- IPC分类号
- 被引用专利名称
- 被引用专利申请公布号
- 被引用专利申请公布日
- 被引用专利申请号
- 被引用专利申请日期
- 被引用专利授权公告号
- 被引用专利授权日期
- 被引用专利优先权日
- 被引用专利发明人
- 被引用专利专利权人
- 被引用专利IPC分类号
- 被引用专利权利要求数
- 被引用专利引用其他专利次数
- 被引用专利被引用次数
- 被引用专利法律状态
- 被引用专利是否FamilytoFamily引用
- 添加该被引用信息的主体
数据格式