リレーショナルデーターベース1
これまで何度か触れてきた、リレーショナルデーターベースについて記してみます。
目録作りをしていて、出版社名や領域名を何度も何度も入力するのは無駄だなと感じられたことはないでしょうか?
リレーショナルデーターベースというのは、こういう無駄を省く為に作るデーターベースです。

これはプログラムでの処理が前提になります。
目録データーを作成する際、データーで何度も共通に用いる内容は、別データーとして作成しておき、
プログラムで、必要に応じて読み込んで、まとめて表示する様にするわけです。

例えば、
領域 書名 著者名 出版社名 売価
漫画 火の鳥-1- 手塚治虫 講談社 \500
漫画 火の鳥-2- 手塚治虫 講談社 \500
文庫 ソクラテスの弁明 プラトン 岩波書店 \200
新書 ドイツ語のすすめ 藤田五郎 講談社 \200
新書 諸子百家 貝塚茂樹 岩波書店 \200

と云うような目録データーを作っていた際、度々出てくる出版社名を、別データーとして作っておきます。

sコード 出版社名
s1 岩波書店
s2 講談社

そして、目録データーは
領域 書名 著者名 出版社名 売価
漫画 火の鳥-1- 手塚治虫 s2 \500
漫画 火の鳥-2- 手塚治虫 s2 \500
文庫 ソクラテスの弁明 プラトン s1 \200
新書 ドイツ語のすすめ 藤田五郎 s2 \200
新書 諸子百家 貝塚茂樹 s1 \200
と云う風に作り替えます。

これを表示する際には、出版社名のセルに、sコードとして作成したデーターをプログラムを利用して代入処理していくわけです。

データー数が少ない時には、余り意味がないと思われるかも知れませんが、データー数が増えてきた時には、
この様な処理をすると、データファイル全体のサイズを小さくすることが出来ますし、入力も少なくて済むようになります。

昨今、新刊本通販のサイトが次々出来てきていますが、それは、ISBNと云う標準仕様で
新刊書籍データーが管理される様になってきている為、このコード表を元にしたデーターベースに、販売の為のプログラムを
付加するだけで、簡単に処理できるという前提があって始めて可能になっているのです。

残念ながら、古書業界では、その扱い範囲が広いことと、データーベース作りに習熟していない古書店が大半であった為、
この様な共通の土俵は出来ていません。
その為、各店は、膨大な手間暇をかけて、各店バラバラに目録作りをする事になっている訳です。

実は、新刊書店の書籍コードはこれ迄、数度作成が試みられました。
又、図書館が用いる書籍管理もデーターベース化のために、何度か作成が試みられています。
ところが、両者は別個に行われてきたため、共通の土俵は出来なかったのです。

1983年に国際基準として、ISBNコードが導入され、現在はこれを元にして、データーベース化が図られています。

「日本の古本屋」にもデーターベースの共通化をするように要請していますが、今のところ????の状態です。
「日本の古本屋」は云うまでもなく、源×やEasySeekにおいても、この古書の共通仕様作りを考えているとはとても思えないのが現状です。
データーは、各店で孤立しており、ただそれを表示し販売に結びつけているだけで、
入力手間とか、共通化とか、要するに、後々省力化が図れるような方向でデーター仕様が整えられてはいないからです。

少なくとも私の知る範囲で、リレーショナルデーターベースを前提にした古書目録作りが行われているサイトは全くありません。

さて、古書業界では、勿論戦前出版の書籍とかは、全く対象になりませんが、
近年の出版物にはこのISBNコードが付けられるようになっていますから、これを何とか使えないかと、今色々考えているところです。
ISBNコードというのは、実は最初に触れた、リレーショナルデーターベースを前提にして作り上げられているからです。

勿論、データーベースの事自体チンプンカンプンでは、どうにもならないのですが、
これ迄パソコン教室で記してきたように、CSVファイルを作成する事が簡単に出来る程度に習熟して貰えれば、
古書の共通データーベースを作成するのも夢ではありません。

で、提案しておきます。
目録データー作成の際、ISBNコードを目録データーに付加しておきましょう。
ではどの様に付加していけばよいのか、これに際しては、先ずISBNコードの性質を知っておく必要があります。

ISBNコードは、例えば次のように記されています。

「るろうに剣心-25-」
ISBN4-08-872696 C9979 \390E
と云う風になっています。

ISBNコードとCコード
ISBN4 4は日本を表しています
08 出版社を表しています。08は集英社です。
872696 出版社独自の書籍出版コードです。(出版順のもの、ジャンル別のもの等各社バラバラです)
C9979 Cコードと云い、分野を表しています。
C9 最初の数字は「販売対象」を表し、9は雑誌扱いを意味します
9 次の数字は「発行形態」を表し、9はコミックを意味します
79 最後の2桁は内容つまりジャンルを表し、79はコミックス・劇画などです。
\390E 売価です。最後のEはエラーチェックの為についています。(意味はない)

ついでにバーコードも見ておくと、
9784088726960
1929979003906

バーコードは、リーダー読みとり用ですが、ベースはISBNコードです。
978 商品が書籍である事を表しています
4 ISBN4の4で、日本
08 ISBNの出版社コード
872696 出版社独自の出版コード
0 読みとりエラーチェックの為に付けられています

192 書籍JANコードである事を表しています
9979 Cコードと同じです
00390 売価です(5桁使います)
6 読みとりエラーチェックの為の数字です。

(エラーチェックは、簡単な数値計算のプログラム処理ですが、煩雑なので説明は省きます)
さて、これでコードの意味はお解り頂けたはずです。
これらのうち目録で使えそうな部分は、
Cコードと、ISBNコードの一部ですが、
これを使うためには、それを表すデーターベースが必要です。
例えば、書店コードが02であるとしても、02が何処の書店に対応しているのか解らなければ意味がありません。

このデーターベースを以下からdown出来るようにしておきます。Excelファイルです。
(但し、書店コードは主要なところは網羅していますが尚未完成です。解った部分がありましたら、メールでお知らせ下さい。)


(2000/10/29)
《データーベース》
データーベースと云うとき、これを少し整理して考えておく必要があります。
古書の場合、
「出版社名」、「書名」、「著者名」、という項目はどこのサイトが扱うにしても変わらないものです。
一方、「売価」、「状態」、はそれぞれの古書店で異なります。
今はこれらを一体のものとして各店でデーター作成されているわけです。

出版社名 書名 著者名 出版社名 売価 状態
講談社 火の鳥-1- 手塚治虫 講談社 \500
講談社 火の鳥-2- 手塚治虫 講談社 \500
岩波書店 ソクラテスの弁明 プラトン 岩波書店 \200

と云った具合です。
これを変わらないものと、変わるものとに分けて、2つのデーターとしてファイル作成するとします。

データ1
ID 出版社名 書名 著者名 出版社名
1 講談社 火の鳥-1- 手塚治虫 講談社
2 講談社 火の鳥-2- 手塚治虫 講談社
3 岩波書店 ソクラテスの弁明 プラトン 岩波書店

データ2
ID 売価 状態
1 \500
2 \500
3 \200

この2つのデーターを関連づける(リレーションをとる)為に、ID番号をそれぞれに付けておきます。
この場合、変わらない方のデータ1を「ホストデーター」と呼び、
変わる方のデータ2を「ローカルデータ」と呼びます。

データーベースというのは本来、ここで云う「ホストデータ」の方の事です。

ホストデーターがあって、誰でも自由にそのデーターを引き出せたり、リレーションが取れるようにしてあれば、
各古書店の目録作成はかなり楽な作業になります。
上の例で言えば、ID、売価、状態、だけの入力で済むようになるからです。

日本の書籍で、今最も巨大なデーターベースは、先日「the古書」の検索頁にリンクしておいた、国立国会図書館のものです。
しかし、残念な事にこのデーターベースは、個別検索は出来ますが、全体は公開されていませんし、商用利用も認められていません。

今、各古書店の目録データーは、それぞれ独立しています。
数千から数万のデーター入力を各店が独自に行っているのですが、それぞれ孤立した状態にある訳です。

古書のデーターベースを作成しようと云うのは、その孤立状態をそろそろ終わりにして、
「ホストデータ」として利用できる環境を作り、データー入力の効率を上げようではありませんか。という提案であるわけです。

EXCELやACCESSでデーター入力されている場合、
ISBNコードと、Cコードの項目を追加し、入力して行って下さい。

かつて、このパソコン教室で、ISBNコードは使えないと記していましたが、
今にして、使わざるを得ない状況になってきたようです。
それは、今月リンクした「赤い靴」さんの 2100万点というデータベースに触発された為です。
私の見るところ「赤い靴」さんはISBNをベースにされています。
日本の古書業界で、同じレベルのデーターベースを作り上げるには、使い物にならないとばかり言っていられなくなった次第です。
何とか、既にあるものは出来るだけ利用して、早急に共通化を図らなければ、お客さんにとって、古書サイトや検索は使いにくいという声が
出てきそうな感じがするのです。

さてこれを、古書目録でどう使うかは次稿で触れますから、それまでに、コードの意味を掴んでおいてください。
《NDC》
NDCというのは日本十進分類の事で、1929年以来日本図書館協会で策定されてきました。
上で触れたcコードや、「日本の古本屋」の古書分類コードは、どちらも、このNDCをベースにしています。
NDCの分類体系はデュウィのデシマル・システムをベースにし、
カッター体系(図書分類体系)を組み合わせて、作成されてきています。

NDCの分類では、類・綱・目で細分化され、1000余りの細分化が行われています。
cコードはこの内の(類・綱)3桁中の上位2桁を利用し、
日本の古本屋の古書分類コードは、(類・綱)3桁中の主要なものを拾い出した形になっています。(但しどちらもNDCに対して正しく1対1で対応しているわけではありません)

NDCに従えば良さそうなものですが、実際のデーター入力の際に、一々1000余りの分類表を
逐次調べながら入力するなどと云うことは、論外です。
古書分類コードも似たようなもので、134ものコードに振り分けるのはかなり大変です。
一方cコードでは、とりわけ漫画の分類に関して、混乱があることと、細分化が出来ていないという不十分さがありますが、書籍出版旧コード時代から使われてきていますから、
実際に手元の本を見ながらコード入力できるという点で、現状では最も実用的だと云えます。