NISTEP企業名辞書マニュアル - 科学技術・学術政策研究所

NISTEP 企業名辞書 (Ver.2014.1)
利用マニュアル
文部科学省科学技術・学術政策研究所
(2014 年 7 月)
目次
はじめに ...................................................................... 1
1.公開するファイルの概要 .................................................... 2
1.1 NISTEP 企業名辞書 .................................................... 2
(1)企業名辞書に掲載する企業名称 ........................................ 3
(2)企業名辞書に掲載する企業情報 ........................................ 3
1.2 外部データ接続テーブル ............................................... 4
2.テーブル構成 .............................................................. 4
2.1 企業名辞書 ........................................................... 4
(1)企業名辞書 .......................................................... 4
(2)変遷企業名称と沿革を表現するコード .................................. 7
(3)企業名辞書掲載企業の業種別企業数 .................................... 8
2.2 外部データ接続テーブル .............................................. 10
(1)IIP パテントデータベースとの接続用 ................................. 10
(2)日本の会社データ 4 万社データとの接続用 ............................. 10
3.外部データベース ......................................................... 10
3.1 IIP パテントデータベース ............................................ 11
3.2 日本の会社データ 4 万社 .............................................. 11
4.公開ファイルのダウンロードとデータベースの構築 ........................... 12
4.1 ダウンロード ........................................................ 12
4.2 データベースの構築 .................................................. 12
5.企業名辞書の作成と名寄せ ................................................. 12
5.1 企業名辞書の作成 .................................................... 12
5.2 企業名の名寄せ ...................................................... 13
おわりに ..................................................................... 14
【改訂履歴】
(1)Ver.2013.1(2013 年 11 月):NISTEP 企業名辞書、各種接続テーブルとともに本書を初公開した。
(2)Ver.2014.1(2014 年 7 月):以下の改訂を行った。
・NISTEP 企業名辞書;重複企業削除、誤記修正等のマイナー改訂を行った。
・IIP パテントデータベースとの接続テーブル; テーブル構造上、iipdb20140417 との接続が不可と
なった旧接続テーブルを改訂し接続可能とした。
・利用マニュアル;上記に関連する記述の改訂を行った。
はじめに
文部科学省科学技術・学術政策研究所(以下、NISTEP と呼びます)は、NISTEP 企業名辞
書、および、辞書と外部データとを繋ぐ接続テーブルを公開いたします。
これらファイルの公開は、本文書と同じ web ページに掲載した「産業の研究開発に関す
るデータ整備について」に述べたように、産業セクターの研究開発やイノベーションに関
する分析・研究に用いるデータベースの構築に適用し、その分析・研究成果を通じて科学
技術イノベーション政策の形成に貢献することを目的としています。
なお、以下の【公開するファイル】の利用に際して、「NISTEP 企業名辞書」はクリエイ
ティブ・コモンズ・ライセンス(CC ライセンス)の「表示-継承」を、「外部データ接続
テ ー ブ ル 」 は 「 表 示 - 非 営 利 」 を 適 用 し ま す 。 CC ラ イ セ ン ス の 詳 細 は 、
http://creativecommons.jp/licenses/ をご覧下さい。
表示するクレジットは次のようになります。
(表示-継承)
又は、
(表示-非営利)
原作者名:文部科学省科学技術・学術政策研究所
作品タイトル:産業の研究開発に関するデータ
URL: http://www.nistep.go.jp/research/scisip/data-and-information-infrastructure
【公開するファイル】
Ⅰ.NISTEP 企業名辞書
・NISTEP 企業名辞書-Ver.2014.1
csv 形式(csv-comp_name_dic_ver2014_01.csv)
excel 形式(comp_name_dic_ver2014_01.xlsx)
Ⅱ.外部データ接続テーブル[NISTEP 企業名辞書と以下の外部データとの接続テーブル]
・IIPパテントデータベース 1 との接続用-Ver.2014.1
(ct_dic_iip_ver2014_01.csv)
2
・日本の会社データ 4 万社 との接続用-Ver.2013.1
(ct_dic_nkdop_ver2013_01.csv)
【補足】
・ ()内はファイル名を示します。
・各ファイルは zip 形式で 圧縮して公開しておりますので、ダウンロード後、解凍下さい
・excel 形式の NISTEP 企業 名辞書は、辞書を単独で利用する利用者の利便性を考え、企業名の 50 音
索引の付加やデータ項目の見出しの日本語化を行ったものです。 適宜、excel 上、又は印刷してご
活用下さい。
1
2
IIP パテントデータベース は、一般財団法人知的財産研究所より公開される特許庁の整理標準化デー
タをもとに特許統計分析用に開発されたデータベースです。
IIP パテントデータベースの入手は同研究所のホームページより行い、定められた利用規約に従って
ご利用下さい。(http://www.iip.or.jp/)
日本の会社データ 4 万社 は、市販データベースです。必要に応じて、発売社(東洋経済新報社)にご
確認下さい。
- 1 -
1.公開するファイルの概要
公開するファイルは、産業セクターのイノベーション分析・研究に用いるデータベース
の構築に必要な「NISTEP 企業名辞書」を核として、「外部データ接続テーブル」を加えた
図 1 の太い点線で囲った範囲のファイルです。
外部データ接続テーブルは、今回の公開では、外部データとして「IIP パテントデータ
ベース」と「日本の会社データ 4 万社」を対象とした二つの接続テーブルですが、今後、
企業名と住所をキーとして外部データと接続可能する汎用性を持った接続テーブルを検討
しています。
データベースの構築は、MySQL 等のデータベース管理システムを用い、csv 形式で提供す
る各ファイルおよび外部データをインポートしてテーブルを構成し、規定のフィールド間
をリレーションシップで関連付けて RDB 化します。
外部データ
IIPパテントデータベース
(一般財団法人知的財産研究所より入手のこと)
(必要に応じて利用者が準備のこと)
企業統計調査データ
企業情報データ など
NISTEPによるファイル公開範囲
出願人テーブル/ida_sequence
IIPパテントデータベース
外部データ
(iipdb20140417)
接続テーブル
との接続用
外部データ
接続テーブル
(予定)
企業名と住所をキーと
した汎用接続テーブル
comp_id
NISTEP企業名辞書
企業ID
comp_id
日本の会社データ4万社との接続用
外部データ
接続テーブル
証券コード
又は
EDINETコード
東洋経済会社コード
外部データ
日本の会社データ4万社
(東洋経済新報社)
(必要に応じて利用者が購入のこと)
図1
証券コード、EDINETコードを持つ
企業情報データ
(必要に応じて利用者が準備のこと)
産業セクターのイノベーション分析・研究に用いるデータベースの全体図
1.1 NISTEP 企業名辞書
NISTEP 企業名辞書(以下、「企業名辞書]と呼びます)は、産業セクターのイノベー
ション分析・研究に用いるデータベースの中心に位置付けられ、特許情報や企業に関す
る各種調査情報など、外部データから指定した企業に関する情報を抽出するためのハブ
としての役割を担います。また、企業名の読み、本社所在地、業種など、外部データに
- 2 -
含まれる数多くの企業から分析対象である企業を正しく特定しデータ抽出するための支
援、および、合併や企業名称の変遷を考慮したデータの収集、さらに財務データの提供
など、企業を中心としたイノベーション分析・研究における核となる機能を持ちます。
(1)企業名辞書に掲載する企業名称
企業名辞書に掲載する企業は、特許の出願実績を有する企業、および、株式上場企業
で構成しています。
特許の出願実績は、1970 年から 2010 年までの企業の特許出願総数(約 1 千万件)の
約 90%が 100 件以上の実績を持つ企業による出願で占められていることから(IIP パテン
トデータベースの企業出願人データの名寄せ処理にて確認)、企業名辞書掲載企業は 100
件以上の出願実績を閾値として選択を行いました。
一方、企業は、名称の変更、合併等による企業形態の変化、清算・倒産などが日常的
に起こっており、データ分析において、旧名称時代から現在までの一気通貫させた取り
扱いには困難が伴います。さらに、同名異企業の存在により、異企業のデータを同一企
業のデータと取り違える恐れや、逆に、本来同一企業のデータと判別されるべきデータ
が異なる企業のものとして扱われる恐れもあります。
このような障害を排除するために、企業名辞書と連携する過去の企業情報を含む外部
データは、現状の企業名称のみならず、沿革に基づいた旧名称や所在地等を考慮した名
寄せを行い、可能な限り正確に情報連携させるよう配慮いたしました。
この前提として、企業名辞書には企業の沿革に沿った旧名称も掲載し、旧名称時代の
情報は企業名辞書の旧名称に紐付けた取り扱いをできるようした一方、旧名称時代から
現在までの企業の情報を一括して取り扱いできるようにするなど、分析要求にフレキシ
ブルに対応できるよう配慮いたしました。
なお、企業名辞書には、5,680 社の情報を含んでおります。これらの中には、清算、
倒産等で現在企業活動が行われていない企業も含みます。また、5,680 社の変遷名称・
被合併企業名称 3 を含めた数は 7,592 社となります。
(2)企業名辞書に掲載する企業情報
データ項目の詳細は2.1項に記載いたしますが、企業の主業に関する産業分類(日
本標準産業分類(Japan Standard Industrial Classification)に準拠)、企業規模、
沿革、連結関係、所在地、URL など分析者を支援する企業情報を含んでおります。
財務データに関しては、EDINET 等を通じた有価証券報告書からのデータ収集が比較的
容易で有り、また、市販データも存在することから、それらデータと接続できるよう証
券コードや EDINET コードを整備しています。
3
企業名辞書-Ver.2014.1 では、上場企業のうち、約 2,400 社の変遷名称・被合併企業名称の掲載が未
了であり、次版で補う予定としている。
- 3 -
1.2 外部データ接続テーブル
外部データ接続テーブル(以下、「接続テーブル」と呼びます)は、辞書に登録した
企業と特許等の外部データに収められた当該企業との接続を実現するテーブルであり、
データ間の架け橋となる機能を有します。
接続テーブルの特徴として、外部データに含まれる企業名称の表記揺れを吸収する高
度な役割も持たせています。例えば、IIP パテントデータベースの出願人テーブルに記
載された旧い年代の出願人表記には、カタカナや OCR 読み取りに起因すると推測される
誤記などが存在しています。データベース間の同一企業情報を接続する作業過程におい
て、表記は揺れているが同一企業と判定できる企業については接続テーブルに接続情報
を含めております。この結果、企業名辞書の正式企業名称から、外部データの表記揺れ
した企業に関するデータ取得を可能にしています。
2.テーブル構成
ここでは、公開するファイルのテーブル構成について説明します。
2.1 企業名辞書
(1)企業名辞書
企業名辞書は、25 のフィールド(データ項目)で構成します。
各フィールドは表 1 のような意味を持ちます。なお、表中の論理名称は利用者に意味
が通じる名称であるのに対して、物理名称はコンピューターが識別する名称を意味して
います。
表1
企業名辞書メインテーブルのフィールドに関する説明
論理名称
番号
企業 id
物理名称
no
comp_id
連 結 企 業
id
連結関係
group_id
沿 革 を 考
慮 し た 企
業 id
沿革連番
沿革
relation
history_id
serial
history
説明
企業名辞書メインテーブル内のデータレコードの シリアル番号
①企業を識別するために任意に付与した番号。
②外部データと接続するキー情報として利用する
③企業名称(comp_name)が最新のレコードのみならず、旧名称
の レコ ー ド に も付 与 し て い る( 旧 名 称 当時 の 外 部 デ ータ と 接
続するため)
① 連結 関 係 にあ る 企 業を グ ルー プ 化 する た め に任 意 に付 与 した
番号
①連結関係の内容を示すコード
②凡例
P:親企業
C:子企業
GC: 孫 企業 ( 会 社法 で は孫 企 業 の定 義 は ない が 、こ こ では
子企業の子に当たる企業を示す)
① 同一 企 業 の変 遷 レ コー ド をグ ル ー プ化 す る ため に 使用 す る た
め、任意に付与した番号
②変遷を考慮した企業情報を一括取得するなどに利用する
①同一 history_id が付された企業の表示順制御コード
①history_id でグループ化したレコードに対し、合併、 名称変
更などの沿革を示すコード
② 「 1」 が 最 新 の 企 業名称 を 意 味 す る 。 コ ー ド の 意 味 は 2.1(2)
を参照のこと
- 4 -
論理名称
企業名称
物理名称
comp_name
ふりがな
read
法人格
コード
comp_code
所在地
(本社)
address
JIS
県コード
所 在 地 座
標/緯度
所 在 地 座
標/経度
企業活動
pref_code
説明
① 企業 の 名 称。 但 し 、株 式 会社 等 の 法人 格 を 削除 し た名 称 。表
記 は有 価 証 券 報告 書 、 又 は 企業 の ホ ー ムペ ー ジ 等 で 用い て い
る表記であり、登記上の表記とは異なる場合が ある
②掲載企業は、1970 年以降の出願数合計が 100 件以上となった
企業(IIP パテントデータベース(iipdb20110330)による変
遷を考慮した出願合計数)、および、2013 年 1 月時点の上場
企業を基本とする。(それ以外の企業も僅かに含む)
③企業名称の変遷はおおよそ 1970 年を区切りとしている。なお、
変遷の調査は 2012 年 11 月~2013 年 1 月にかけて行っている
ことから、直近の変遷情報は反映されていない場合もある。
④ 被合 併 企 業名 称 等 は網 羅 的に 掲 載 して い る 訳で は なく 、 特に
特許出願していない企業の場合、省略している ことがある
①企業名称の読みがな
② 企業 名 称 を利 用 し た検 索 では 新 字 旧字 等 に より 検 索で き ない
場合などに利用する
① 株式 会 社 、有 限 会 社等 の 企業 法 人 表記 を コ ード 化 し 表 し たも
のである
②凡例
KB1:株式会社○○○
KB2:○○○株式会社
YG1:有限会社○○○
YG2:○○○有限会社
GD1:合同会社○○○
GD2:○○○合同会社
SG1:相互会社○○○
SG2:○○○相互会社
GS1:合資会社○○○
GS2:○○○合資会社
GM1:合名会社○○○
GM2:○○○合名会社
①企業活動(activity)フィールドが Y の場合、当該企業の本
社 機能 ( 管 理 ・経 営 企 画 等 ) を 置 く 住 所。 但 し 、 登 記上 の 本
店所在地とは異なる場合がある
②同じく、現存フィールドが「1」で、本社機能を分散(東京本
社/大阪本社など)している企業の場合、何れか一箇所の 住所
としている
③企業活動フィールドが N の企業の場合、当該企業名称時代の
出 願特 許 に 数 多く 表 記 さ れ た所 在 地 で ある 。 同 所 在 地か ら 既
に移転している場合もある
④ 所在 地 は 、情 報 取 得し た い企 業 を 特定 す る 場合 の 補足 情 報と
して利用する
①JIS X0401 に準拠した所在地(本社)の都道府県コード
latitude
①address の緯度
longitude
①address の経度
activity
①当該企業が、2013 年 1 月現在において企業活動を行っている
か否かを示すコード。Y は現存、N は現存しないことを示す
②N が付されたレコードは、企業名称(comp_name)が合併・名
称 変更 等 の 事 由で 旧 名 称 で ある ほ か 、 倒産 ・ 清 算 等 によ り 現
- 5 -
論理名称
物理名称
証 券 コ ー
ド協議会/
企 業 コ ー
ド
証 券 コ ー
ド協議会/
業種
s_code
EDINET 企
業コード
edinet_code
URL
url
企業規模/
中 小 企 業
基本法
企業規模/
資 本 金 階
級
comp_size_l
aw
s_ind_cat
comp_size_c
ap
説明
存しない場合も含む。ちなみに、沿革(history)が 1 で最新
の企業名称でありながら、N が付された企業は倒産・清算等の
事 由で 現 存 し なく な っ た 企 業で あ る 。 但し 、 イ ン タ ーネ ッ ト
情報等で現存していないことが明確に確認できない場合は、Y
としている
①証券コード協議会が企業に付与した識別コード
② 有価 証 券 報告 書 を ソー ス とす る 財 務デ ー タ と接 続 する キ ーと
して利用できる
①証券コード協議会の業種分類による企業業種
② 日本 標 準 産 業分 類 (JSIC)と は 分 類 法が 異 な る 。 例え ば 、純
粋持株会社は、JSIC では学術研究,専門・技術サービス業に
分 類さ れ 、 事 業を 直 接 示 す 分類 と は 異 なる 。 こ れ を 補う た め
付与した情報である。
①EDINET で公開する有価証券報告書に関し、企業識別のために
付 与さ れ た コ ード ( 証 券 コ ード 協 議 会 の企 業 コ ー ド とは 異 な
る)
①当該企業の公式 HP の URL。2012 年 11 月現在で調査したもの
②現存企業でも、中小企業、非上場企業など公式 な企業 HP を持
たない企業は null となっている
①中小企業基本法に準拠して判別した企業規模
企業規模/
従 業 員 数
階級
comp_size_e
mp
日 本 標 準
産業分類/
大分類
日 本 標 準
産業分類/
中分類
日 本 標 準
産業分類/
小分類
jsic_l
①資本金階級で判別した企業規模
②階級は下記
100 万円未満
100 万円以上
1000 万円以上
2000 万円以上
5000 万円以上
1 億円以上
10 億円以上
①従業員数階級で判別した企業規模
②階級は下記
5 人未満
5~29 人
30~99 人
100~299 人
300~999 人
1,000~4,999 人
5,000 人以上
①企業の日本標準産業分類に準拠する大分類データ
jsic_m
①企業の日本標準産業分類に準拠する中分類データ
jsic_c
①企業の日本標準産業分類に準拠する小分類データ
- 6 -
(2)変遷企業名称と沿革を表現するコード
企業名称(comp_name)に含まれる企業の旧名称(変遷企業名称)は、当該企業の沿
革情報に含まれる変遷名称を網羅的に取得して掲載したものではありません。1970 年代
以前の沿革情報や旧名称の時代に特許の出願実績がない場合などは掲載していない場合
もあります。加えて、上場企業約 2,400 社は変遷企業名称を追加途中のため含んでいま
せん。
沿革(history)に記されたコードは、企業名称変更時の形態(合併のような形態が
変化が伴う場合も含む)を簡易的に示したものです。
沿革は、表 2 に示すような合併による形態の変更も含めた企業名称の変遷をコードで表
しています。
表2
沿革コードの説明
最新企業名から旧企業名に向かって順に番号付与
企業名変更
1
アーキヤマデ(株)
11
111
(株)ヤマデ
山出興産(株)
1
11
(株)ADEKA
旭電化工業(株)
吸収合併
1a1
東海電化工業(株)
桁数で企業名変更
の世代を示している
企業「11」に吸収合
併された企業のうち、
番号「1」の企業の意
11a1
アデカ・アーガス化学(株)
a:absorb
合併
1m1
合併
又は
対等合併
1
グレラン製薬(株)
あすか製薬(株)
1m2
1m1と1m2が合併し
企業「1」を設立
帝国臓器製(株)
m:merge
注:上記に例示した企業は、企業名辞書の「あ」行掲載企業から例示に適した企業を選択した
【沿革コード補足説明】
・企業名変遷の世代番号は、現在の名称から遡る形態で付与しているため、通常の世代番号とは
逆になっている
・複数企業の合併において、存続・消滅企業が明確な場合、存続企業が世代番号の継承を行う
・11L など旧世代番号の右端に L がつけられる沿革コ ードが存在する。これは、「11」と同じ名
称を継承して事業活動を行う新しい企業(別の法人格)が存在する場合に用いている。大抵は、
当該企業が持株会社に移行時、その事業を継承する新設又は分割設立された持株会社の子会社
である。厳密には新旧で異なる法人であるが、本社住所も変更無しが多く、ここではレコード
を区分せず上記を認識できるようにしている。
ここで、合併は、会社法上では吸収合併と新設合併の 2 区分ですが、実態として殆ど
が吸収合併のスキームで行われることから、これに対応したコード表現を準備しました。
また、企業の沿革情報に存続企業・消滅企業を明示せず、単に「合併」又は1:1の合
併を表現する「対等合併(慣用表現でスキーム上は吸収合併)」という用語が使われる
場合も多く、存続企業が判然としない場合も多いことから、それに合わせたコード表現
- 7 -
も準備しました。なお、分割(新設分割)企業(ある事業を分社化など)は、分割前企
業とは別の法人格を持つ企業として取り扱いすることから、沿革コードの表現から除外
しています。
企業の沿革は複雑で、例えば、○○ホールディングスに名称変更(持株会社化)する
のと同時に旧名称と同じ名称の事業子会社が新設された場合、他企業に事業を譲渡しそ
の会社自身は廃業した場合、社内カンパニーとある企業が合併し新規企業が設立された
場合など、企業関係者以外の者が沿革の実態を把握するには多大な調査時間を要したり、
また、調査しても情報が得られないことがしばしばあります。
従って、表 2 の表現だけでは表すことの出来ない沿革も存在し、ここでは分析者・研
究者の参考用として、可能な範囲で提供を試みた情報であることをご理解下さい。
なお、沿革事象の発生年は次期版にて追加する予定としております。
(3)企業名辞書掲載企業の業種別企業数
企業名辞書に掲載した企業の業種別企業数は表 3 に示す通りです。
このうち、2013 年 1 月現在の国内上場企業 3,544 社と特許出願実績 100 件以上の企業
の関係をみると、1,049 社が上場企業になります。
これを、業種別でみると表 4 に示す通りであり、特許出願実績という特性通り、製造
業に傾斜した形態となっていることがわかります。
表3
企業名辞書掲載企業の業種別企業数
A 農業,林業
農業
C 鉱業,採石業,砂利採取業
鉱業,採石業,砂利採取業
D 建設業
総合工事業
職別工事業
設備工事業
E 製造業
食料品製造業
飲料・たばこ・飼料製造業
繊維工業
木材・木製品製造業
家具・装備品製造業
パルプ・紙・紙加工品製造業
印刷・同関連業
化学工業
石油製品・石炭製品製造業
プラスチック製品製造業
ゴム製品製造業
なめし革・同製品・毛皮製造業
窯業・土石製品製造業
鉄鋼業
非鉄金属製造業
金属製品製造業
はん用機械器具製造業
生産用機械器具製造業
業務用機械器具製造業
電子部品・デバイス・電子回路製造
電気機械器具製造業
2
2
10
10
244
117
26
101
2848
123
26
59
11
25
51
37
397
14
137
51
1
94
76
69
187
158
351
189
211
199
I 卸売業,小売業
各種商品卸売業
繊維・衣服等卸売業
飲食料品卸売業
建築材料,鉱物・金属材料等卸売業
機械器具卸売業
その他の卸売業
各種商品小売業
織物・衣服・身の回り品小売業
飲食料品小売業
機械器具小売業
その他の小売業
無店舗小売業
J 金融業,保険業
銀行業
貸金業,クレジットカード業等非預金
金融商品取引業,商品先物取引業
保険業
K 不動産業,物品賃貸業
不動産取引業
不動産賃貸業・管理業
物品賃貸業
L 学術研究,専門・技術サービス業
学術・開発研究機関
専門サービス業
広告業
技術サービス業
M 宿泊業,飲食サービス業
宿泊業
飲食店
- 8 -
846
45
42
45
110
260
113
39
32
41
26
78
15
136
82
16
31
7
153
72
47
34
515
17
412
29
57
78
9
69
情報通信機械器具製造業
輸送用機械器具製造業
その他の製造業
F 電気・ガス・熱供給・水道業
電気業
ガス業
G 情報通信業
通信業
放送業
情報サービス業
インターネット附随サービス業
映像・音声・文字情報制作業
H 運輸業,郵便業
鉄道業
道路旅客運送業
道路貨物運送業
水運業
航空運輸業
倉庫業
運輸に附帯するサービス業
表4
A
B
C
D
E
日本標準業種分類
(大分類)
農業,林業
漁業
鉱業,採石業,砂利採
建設業
製造業
F 電気・ガス・熱供給・
G 情報通信業
H 運輸業,郵便業
I 卸売業,小売業
J 金融業,保険業
K
L
M
N
Q
不動産業,物品賃貸業
学術研究,専門・技術
宿泊業,飲食サービス
生活関連サービス業,
複合サービス事業
115
204
63
25
12
13
367
27
9
305
1
25
123
20
8
28
19
7
15
26
N 生活関連サービス業,娯楽業
洗濯・理容・美容・浴場業
その他の生活関連サービス業
娯楽業
O 教育,学習支援業
その他の教育,学習支援業
P 医療,福祉
医療業
保健衛生
R サービス業(他に分類されないもの)
廃棄物処理業
機械等修理業
職業紹介・労働者派遣業
その他の事業サービス業
不明
合
計
47
5
16
26
19
19
23
22
1
112
3
13
15
81
68
5616
上場企業と特許出願実績企業
証券コード協会
業種分類(中分類)
水産・農林
鉱業
建設業
ゴム製品
パルプ・紙
医薬品
化学
機械
金属製品
食料品
精密機器
石油・石炭製品
繊維製品
鉄鋼
電気機器
非鉄金属
輸送用機器
ガラス・土石製品
その他製品
電力・ガス業
情報・通信業
倉庫・運輸関連業
陸運・海運・空運
小売
卸売
証券、商品先物取引
銀行業
保険業
その他金融業
不動産業
サービス業
- 9 -
上場
企業数
11
9
172
18
26
57
211
232
91
130
50
12
56
52
277
38
101
64
106
24
340
44
84
345
354
42
92
11
34
114
347
特許出願 100 件以上実績
企業数
割合(%)
1
9.1
1
67
17
14
33
151
162
45
36
32
7
23
26
190
19
69
37
46
10
15
0
7
6
26
1
0
0
0
0
8
11.1
39.0
94.4
53.8
57.9
71.6
69.8
49.5
27.7
64.0
58.3
41.1
50.0
68.6
50.0
68.3
57.8
43.4
41.7
4.4
0.0
8.3
1.7
7.3
2.4
0.0
0.0
0.0
0.0
2.3
日本標準業種分類
(大分類)
R サービス業(他に分類
合計
証券コード協会
業種分類(中分類)
上場
企業数
3,544
特許出願 100 件以上実績
企業数
割合(%)
1,049
29.6
網掛け数字は 10%以下の包含率を示す
2.2 外部データ接続テーブル
(1)IIP パテントデータベースとの接続用
企 業 名 辞 書 メ イ ン テ ー ブ ル と 外 部 デ ー タ で あ る IIP パ テ ン ト デ ー タ ベ ー ス
(iipdb20140417)を連携させるための接続テーブルであり、企業名辞書メインテーブル
の企業番号と IIP パテントデータベースの出願人テーブルの ida_seq フィールドを対応
させ関係付けします。
なお、IIP パテントデータベース(iipdb20110330)では、出願人テーブルの row フィ
ールドと接続していましたが、iipdb20140417 では出願人テーブルのフィールド構成が
変更され row を用いた旧接続テーブルは使用できません。
表5
接続テーブル(IIP パテントデータベースとの接続用)のフィールドに関する説明
論理名称
企業番号
IIP パ テ ン ト
出願番号+記
載順序
物理名称
comp_id
ida_seq
説明
表 1 の「企業番号」と同じ
IIP パテントデータベースの出願人テーブルのフィールド。
上記企業番号の企業が出願した特許の出願番号と出願人とし
て記載された順序をアンダーバーで接続した文字列。
(2)日本の会社データ 4 万社データとの接続用
企業名辞書メインテーブルと外部データである東洋経済新報社の「日本の会社データ
4 万社」を連携させるための接続テーブルであり、企業名辞書メインテーブルの企業番
号と東洋経済企業コードを対応させ関係付けします。
なお、日本の会社データ 4 万社との対応付けの確認は、2011 年 4 月版にて行っており
ます。本利用マニュアル執筆時点で、新版が出版されておりますが、東洋経済企業コー
ドに変更がない限り、2011 年版で対応付けされた企業の範囲で接続可能です。
また、この接続テーブルにおける東洋経済企業コードの使用と公開は株式会社東洋経
済新報社より許諾を受けています。
表6
接続テーブル(日本の会社データ 4 万社データとの接続用)の
フィールドに関する説明
論理名称
企業番号
東洋経済企業
コード
物理名称
comp_id
code_tk
説明
表 1 の「企業番号」と同じ
東洋経済新報社が企業の識別のために付与した独自の番号
3.外部データベース
産業セクターのイノベーション分析・研究に用いるデータベースのうち、外部データに
関しては NISTEP の公開対象外となります。
- 10 -
以下に、参考用として、外部データベースのうち IIP パテントデータベース、日本の会
社データ 4 万社について簡単な説明を加えておきます。
3.1 IIP パテントデータベース
一般財団法人知的財産研究所(略称 IIP)が提供する特許データベースであり、特許庁
の特許整理標準化データをリレーショナル型のデータベースに変換し、イノベーション研
究に必要と思われる項目を集め公開しています。
現在公開されている版は「iipdb20140417」です。
このデータベースには、出願年が 1964 年以降の約 1200 万件を収録しており、データベ
ースは、出願テーブル、出願人テーブル、発明者テーブル等に構造化されています。企業
名辞書との接続は、このうち、出願人テーブルと行います。
IIP の URL:http://www.iip.or.jp/
3.2 日本の会社データ 4 万社
東洋経済新報社が独自調査で収集した上場会社および非上場会社の合計 4 万社弱の企業
情報を収録した商業データベースです。
1 社 1 レコード形式で、csv ファイルで提供されています。
- 11 -
4.公開ファイルのダウンロードとデータベースの構築
4.1 ダウンロード
公開したファイルは、任意のディレクトリにダウンロードし、解凍下さい。
4.2 データベースの構築
ダウンロードしたファイルは、MySQL 等のデータベース管理システムを用いてインポー
トし、図 3 のようなデータベースを構築して下さい。
インポート方法や構築方法は利用するデータベース管理システムの説明書を参照下さ
い。
データベースの構築に必要なデータファイルを収納するテーブル定義とテーブル間のリ
レーションシップは図 3 に示す通りです。
外部データベースとして、市販の財務データベース・その他企業情報と接続する場合は、
証券コードや EDINET コードを利用して接続下さい。
NISTEP企業名辞書
NISTEP_comp_name_dic
(企業名辞書)
no
int
comp_id
int
group_id
int
relation
txt
history_id
int
int
serial
txt
history
txt
comp_name
read
txt
comp_code
txt
txt
adress
pref_code
int
以下略
外部データベース
IIPパテントデータベース
ct_dic_iip
(IIPパテントDBとの接続用)
comp_id
ida_seq
int
txt
applicant
(出願人テーブル)
ida_seq
ida
txt
int
ap
(特許出願テーブル)
adate
ida
以下略
ct_dic_nkdop
(日本の会社データ4万社との接続用)
comp_id
code_tk
int
int(10)
date
int
以下略
NKDOP_201110
(東洋経済「日本の会社40000社」)
code_tk
int(10)
以下略
外部データ接続テーブル
図3
テーブル定義とリレーションシップ
5.企業名辞書の作成と名寄せ
5.1 企業名辞書の作成
(1)企業名辞書は、最初に特許出願実績の多い企業の抽出(5.2参照)を行い、次に
そこに含まれない上場企業を追加する手順で作成しています。
- 12 -
(2)変遷企業名称の追加は、大西宏一郎氏(大阪工業大学)、西村陽一郎氏(神奈川大
学)らの研究グループにより整備された特許出願人の名寄せに関するデータベース
(ONAPPdata) 4 、有価証券報告書、および企業ホームページの沿革情報から得た情報
をもとに作成しています。ただし、1970 年代以前に使われていた名称や、旧名称使
用時代に特許出願がない時は省略している場合があります。
(3)企業名辞書では、それら変遷企業名称をグループ化して沿革コードを付与するとと
もに、現存企業については、企業ホームページからURL、本社所在地等の情報を
取得し収録しています。なお、その際、2012 年 11 月~2013 年 1 月の期間に確認し
た情報をもとに収録を行っております。また、企業名称の表記は、有価証券報告書、
又は企業がインターネット等で用いられている表記としています。従って、登記上
の表記とは異なる場合もあります。
(4)企業名称の読みに関し、「日本」の読みは、下記URL掲載の「日本(にほん・に
っぽん)の読み方」に掲載の情報を参考とさせて頂きました。「にっぽん」として
掲載のない企業名称は、原則、「にほん」としています。
http://hiramatu-hifuka.com/onyak/nippon.html
(5)緯度・経度
所在地の緯度・経度の算出には、東京大学空間情報科学研究センターが下記URL
にて利用提供する「CSV アドレスマッチングサービス」を利用いたしました。
http://newspat.csis.u-tokyo.ac.jp/geocode/
(6)企業の産業分類は、@nifty ビジネスの企業検索、Wikipedia の日本の企業一覧、当
該企業のホームページなど各種のインターネット情報から取得した情報を参考とし
て、総務省統計局の日本標準産業分類五十音索引表(分類検索を簡便化するための
細分類各項目の具体的業種が例示された表)と引き当てした産業分類としています。
5.2 企業名の名寄せ
(1)企業名辞書に掲載した特許出願実績の多い企業は、IIP パテントデータベースの特
許出願人データに含まれる企業名の名寄せを行い、累積出願数を算出して抽出を行
っております。
(2)IIPパテントデータベースの特許出願人データは、整理標準化データ 5 をそのまま採
用していますが、同一出願人に対して異なる表記(表記揺れ)が存在し
6
、同一出
願人単位の集約を行う場合には表記揺れをクレンジングした上で「名寄せ」する作
業が必要となります。
4
5
6
データについては https://sites.google.com/site/instituteipr/wp を参照。整備方法・データ特性
については Onishi et al. 2012 参照。
特許情報を、XML や SGML といった標準的なデータの記述方法を用いて記述することで整理したデータ
である。
以下の文献に詳述されている。
Onishi, K., Y. Nishimura, N. Tsukada, I. Yamauchi, T. Shimbo, M. Kani and K. Nakamura (2012)
"Standardization and Accuracy of Japanese Patent Applicant Names", IIPR Working Paper
No.2012-001.
- 13 -
整理標準化データでは出願人固有のIDとして出願人番号が付与されているものの、
完全ではなく、また、出願人番号が付与されていない例も多数存在しています。こ
のため、出願人を適切に同定するために以下のような名寄せ作業を実施しています。
また、この名寄せ作業は、企業名辞書とIIPパテントデータベース間、同じく、日本
の会社データ4万社間の連携情報を生成する目的でも実施しています。
①企業名の修正と標準化
企業が出願した特許の出願人名について、目視による修正を行った。目視によ
る修正は、類似表記が多数ある場合は、同一年における出願数の多い表記を正
として、その表記に統一した。次に、「株式会社」「有限会社」などの法人格
を表す表記を標準コード化し、企業名の表記法として<企業名+法人格コード
>の形式を本整備の標準形式とした。
②所在地表記の修正と標準化
多様な表記のゆれが混在する IIP パテントデータベースの出願人所在地表記を
対象に、漢数字、ローマ数字、番地町名形式等の表記の標準化を行った。次に
市町村合併、町名変更などの情報を別の情報源から収集し、これを用いて、過
去の所在地情報も最新のものに統一した。その上で、国土交通省が定義する 12
桁の住所コード(街区レベル位置情報参照情報)を各出願人住所(所在地)に
割り当てた。以上の作業により、所在地情報の表記法として<住所コード(12
桁)>形式を本整備の標準形式とした。
③企業名+法人格コード+住所コードの組み合わせによる企業の名寄せ
上記作業で修正した企業名、法人格コードおよび住所コードを利用し、3 項目
が一致するレコードを同一企業であるとみなし、名寄せを行った。
④名寄せ結果の評価と修正
名寄せ結果として、異企業を同一企業と見なすエラーは見当たらない。しかし、
同一企業を異企業と見なしてしまうエラーが一部発見された。長期間のデータ
には、所在地表記に番地などの僅かな違いが存在し、12 桁コードでは細密過ぎ
ることが判明した。結論として、5 桁の市区町村レベルのコード 7 で精度高く名
寄せできることが判明し、これによる名寄せを実施した。
おわりに
今回公開した企業名辞書、および、接続テーブルの作成には十分な注意を払っておりま
すが、完全なものではありません。
特に、企業に関する情報の集約及び連携を行う鍵となる企業名の名寄せ処理では、「5.
2 企業名の名寄せ」で説明させていただいた手法にて同名異企業を排除していますが、実
際のデータには、様々なデータの汚れがあり、住所についても、例えば本社のみならず、
事業所・研究所住所や移転住所などが数多く含まれ、同じ企業でありながら異企業と見做
してしまったケースの存在も否定できません。
7
JIS 市区町村コードと同じ コード
- 14 -
また、世の中の変化と同期して企業形態は活発に変化することから、企業名辞書の情報
を最新に保つためには都度の更新を必要とします。
数々の課題を抱えておりますが、より利用価値の高いデータにブラシュアップすべく、
改善を図ってゆく所存です。
以上
- 15 -