河川のITに関連する情報集

XMLとExcelによるデータ化の違い
(1)Excelファイルのままでは検索はできない!
(2)Excelファイルでは、項目の追加や削除に対応できない!
(3)Excelファイルでは、品質の機械的なチェックが困難
(4)Excelでは、大きなデータ、大量のデータに対応できない!
(5)Excelでは、様式を変更して表示することが困難
XMLとExcelによるデータ化の違い(1)
Excelファイルのままでは検索はできない!

「管理者」が「信濃川下流事務所」であるものを検索する場合
 Excelでは、ファイルの中身を全文検索することは可能であるが、1つ1つのセルに意味を持たせること
ができないため、「管理者」という文字列や、「信濃川下流河川事務所」という文字列の検索はできるが、
「信濃川下流河川事務所」 が「管理者」であるかどうかの検索はできない
 XMLでは、1つの値に対して、その値の意味を「タグ」と呼ばれるものを使って記述するので、「信濃川
下流河川事務所」 が「管理者」であるかどうかの検索ができる
たとえば、管理者が「信濃川下流河川事務所」
である施設を検索したい
検索
EXCEL
EXCEL
ファイル
EXCEL
ファイル
ファイル
報告先 信濃川下流河
川事務所
管理者 新潟市
・・・
・・・
セル一つ一つに意味
づけはおこなえない
人が見て判断する
“信濃川下流河川事務所”というセルが
あっても、それが”管理者“かどうかは人が
見なければ分からない
XML
ファイル
<施設>
<名称>山田川樋管</名称>
<管理者>信濃川下流河川事務所</管理者>
<竣工年月日>1978 </竣工年月日>
<タグ>による値の意
</施設>
味づけがおこなえる
・・・
“管理者”というタグに、“信濃川下流河川事務
所”という文字列が書いてある施設を検索する
Excelファイルで検索をするためには・・・

1)Excelファイルとは別に、別途メタデータを作成する
 メタデータを作った項目でしか検索はできない

2)Excelファイルの、どのセル(○行△列)には何が入るかの様式を取り決め
 例えば、「2行B列」のセルには管理者が入ることを取り決め
報告先が増えたため、
1行追加すると、「管理
者」が入るはずのセル
に別のデータが入って
しまい、間違った検索
がおこなわれてしまう
A
1 報告先
B
信濃川下流河川事務所
C
竣工年
D
1975
2 管理者
3
・・・
新潟市
・・・
・・・
・・・
・・・
・・・
A
B
C
1 報告先1 信濃川下流河川事務所 竣工年
D
1975
2 報告先2
3 管理者
4
・・・
・・・
・・・
新潟県
新潟市
・・・
・・・
・・・
XMLとExcelによるデータ化の違い(2)
Excelファイルでは、項目の追加や削除に対応できない!

災害履歴データに、新たに「新潟県中越地震」を追加する
 Excelでは、行の追加によりデータを追加することは可能であるが、様式がすでに
いっぱいである場合には、行の追加により様式が崩れる
 XMLでは、データの意味を保持したまま、データの追加が容易
EXCEL
ファイル
被災
年
被災内容
1964 新潟地震
1998 新潟県豪雨8.4水害
2004 新潟福島豪雨災害
被災
年
XML
ファイル
被災内容
様式が決まっている場
合には、追加により様 1964 新潟地震
式が崩れる場合がある 1998 新潟県豪雨8.4水害
2004 新潟福島豪雨災害
2004 新潟県中越地震
データの意味を保
持したまま、データ
の追加が容易
<被災 ID=1>
<被災年>1964</被災年>
<内容>新潟地震 </内容>
</被災>
・・・
<被災 ID=3>
<被災年>2004</被災年>
<内容>新潟福島豪雨災害 </内容>
</被災>
<被災 ID=4>
<被災年>2004</被災年>
<内容>新潟県中越地震 </内容>
</被災>
XMLとExcelによるデータ化の違い(3)
Excelファイルでは、品質の機械的なチェックが困難

入力したデータのデータ構造やデータタイプをチェックする場合
 Excelでは、各セルが、文字列であるか数値であるかのチェックは可能であるが、様式が変
更されていないかどうかの確認はできない
 人が確認しなければならない
 XMLでは、タグの種類に応じてチェックが可能であり、また構造についてもXMLスキーマと
いう構造を定義したファイルを必ず持つためチェックが可能
 「管理者」が文字列か、「竣工年」が数値であるか・・・
 <報告先2>というタグが追加されたことは容易に確認可能
Excelの場合
XMLの場合
A
1 報告先
B
信濃川下流河川事務所
2 管理者
3
・・・
新潟市
・・・
C
D
竣工年 1975
・・・
・・・
「2行B列」が文字
・・・
・・・
列かどうかの
チェックは可能
A
B
C
D
1 報告先1 信濃川下流河川事務所 竣工年 1975
2 報告先2
3 管理者
4
・・・
新潟県
新潟市
・・・
1行追加されたこ
・・・
・・・
とは人が直接見
・・・
・・・
ない限りチェック
できない
XML
ファイル
必ず対で存在
XML
スキーマ
ファイル
<施設>
<名称>鳥屋野潟排水機場</名称>
<管理者>信濃川下流河川事務所</管理者>
<竣工年>・・・ </竣工年>
</施設>
<施設>は、<報告先2>という
・・・
情報を持つことは定義されて
いないので、XMLスキーマ
を見ることで確認できる
XMLスキーマの記述イメージ
•<施設>には、<名称><管理者><竣
工年>という情報があります
•<名称>は文字列です
•<管理者>は文字列です
•<竣工年>は数値です
※実際の記述方法は異なります
XMLとExcelによるデータ化の違い(4)
Excelでは、大きなデータ、大量のデータに対応できない!

エクセルは、レコード数65536、カラム数256に制限されている。
 レコード数に制限があることで、大量のデータを処理することはできない。
(例)データ数が65536以上ある場合は、データをエクセルファイルに格納
できない。
 カラム数が制限されていることで、大きなデータを処理できない。
(例)面データのXY座標値を取り込む場合、頂点が128番目以降の頂点
頂点数が128以上
の座標値をエクセルファイルに格納できない。
ある場合は不可
ID
65536件
以上の
データは
不可

種類
頂点1のX
頂点1のY
頂点2のX
頂点2のY
…
頂点127のX
頂点127のY
1
面
100
-150
99
-151
…
100
-150
2
面
101
-140
101.5
-142
…
101
-140
面
200
129
202
134
…
200
129
:
65535
テキスト形式であるXMLファイルはデータ量の制限はない。
XMLとExcelによるデータ化の違い(5)
Excelでは、様式を変更して表示することが困難


Excelでは、様式を変更して別の形で表現する場合には、ファイルをコピーし
て変更しなければならない。大幅な変更の場合はその配置に苦労する
XMLでは、同じXMLファイルから、スタイルシートいうファイルを作成するこ
とで、複数の様式を作成することができる。データの重複が生じない。
Excelの場合
もとのデータを変更するか、コピーして
別の様式を作成する必要あり。コピーす
る場合には重複したデータとなる
施設名
管理者
竣工年
1 山田川樋管 信濃川下流河川事務所 1978
2 三条公共下水
1984
三条市下水道課
道放流樋管
3
1998
・・・
・・・
もとのデータは1つで、複数
の様式を表現可能
<施設>
<名称>山田川樋管</名称>
<管理者>信濃川下流河川事務所</管理者>
<竣工年月日>1978 </竣工年月日>
</施設>
・・・
スタイルシート
コピー
施設1
施設2
施設名 山田川樋管 三条公共下水
道放流樋管
管理者 信濃川下流河 三条市下水道
川事務所
課
1978
1984
竣工年
XMLの場合
施設3
・・・
・・・
・・・
施設名
管理者
竣工年
1 山田川樋管 信濃川下流河川事務所 1978
2 三条公共下水
1984
三条市下水道課
道放流樋管
3
1998
・・・
・・・