国家统计局构建了1998-2013年所有规模以上工业企业的数据,包括全部国有企业和年主营业务收入500 万元及以上的非国有工业企业。可以说,这些企业是中国经济中最重要的一群企业。然而,目前利用专利数据研究公司创新活动的论文主要集中在上市公司层面,而忽视了工业企业这一较大规模的企业的专利信息,这可能是因为中国工业企业数据库中大量不完全统一的企业名称导致的。
为此,CnOpenData团队参考科学的数据匹配与处理方法(寇宗来、刘学悦:《中国企业的专利行为:特征事实以及来自创新政策的影响》,《经济研究》,2020年第3期)将中国工业企业与中国专利创新数据进行了细致匹配,形成了中国工业企业专利及引用被引用数据库。本数据匹配时主要依据企业名称来完成数据处理,即⼯业企业的企业名称与专利数据中的专利权⼈(专利公布则为申请⼈)之间进⾏匹配。为了最⼤化数据可⽤范围,减少数据中存在的噪音,CnOpenData团队同时对⼯业企业和专利数据中的公司名称进行了加工处理。我们考虑到股份有限公司、有限责任公司、集团公司等的不同,在匹配工作进行前删去“集团”、“有限责任公司” 、“股份有限公司” , “有限公司”、“加⼯⼚ ”、“ ⼯⼚”、“⼚”、 “省 ”、“市”、“ 县” 、“州”、“镇”、“乡”、“村”等字样,通过上述匹配过程可以获得更准确的匹配结果。此外,由于本团队持有数据量的优势,本数据的匹配数据量相较于参考文献更多。
需要注意的是,虽然中国工业企业数据本身截止到2013年,但我们仍然选择将中国工业企业数据与截止到2021年的所有专利数据进行了匹配,这主要是因为专利的被引数据存在一定的滞后性,匹配到较新的年度可以保证专利被引数据相对完整。
在结构上,该数据库中的每张表均分为三类,分别是:发明公布、发明授权、实用新型(外观设计无绿色专利)。
示例数据
字段
索引ID(申请公布号) |
工业企业名称 |
模糊匹配名称 |
申请人 |
专利名称 |
申请公布号 |
申请公布日 |
申请号 |
申请日 |
发明人 |
地址 |
IPC分类号 |
专利代理机构 |
代理人 |
PCT进入国家阶段日 |
PCT申请数据 |
PCT公布数据 |
优先权 |
生物保藏 |
分案原申请 |
本国优先权 |
简要说明 |
专利权利要求数 |
引用其他专利次数 |
专利被引用次数 |
法律状态 |
- 索引ID(申请公布号)
- 工业企业名称
- 模糊匹配名称
- 申请人
- 专利名称
- 申请公布号
- 申请公布日
- 申请号
- 申请日
- 发明人
- 地址
- IPC分类号
- 专利代理机构
- 代理人
- PCT进入国家阶段日
- PCT申请数据
- PCT公布数据
- 优先权
- 生物保藏
- 分案原申请
- 本国优先权
- 简要说明
- 专利权利要求数
- 引用其他专利次数
- 专利被引用次数
- 法律状态
数据格式