文章

欢迎您来到数字平台。您尚未登录。 [登录] [注册新用户]
当前位置: 论坛首页 / 栏目产品与服务 / 文章 85

点击:160361 [回复顶层] [树状] [简明]
xietao

头衔: 总工
文章数: 539
积分: 5390
注册时间: 2005/9/5
[回复留言] [回复(需要先登录)] [引用(需要先登录)] 普通文章第 11 楼
文章id: 85
分类主题对照

作者: xietao

dp2编目系统，在数据加工功能中，提供了分类主题对照的功能。

这个功能，能够根据MARC数据中已有的分类号，自动从数据库中搜索出相关的主题词，显示出来供编目人员选用，或者启发思路帮助主题标引。

分类主题对照的数据，采用XML格式。

下图是dp2003.com上的一个分类主题对照库的界面显示：

由于分类主题数据版权方面的敏感因素，dp2003.com站点上仅仅根据分类主题词表书本录入了少量示范数据，以示范这个先进的功能。

用户可从版权所有者渠道获得分类主题数据，略加工后，装入dp2编目系统预设的分类主题对照库，就可投入使用。

发表时间: 2006-05-30 15:47:14
最后修改时间: 2006-05-31 11:48:59

继续卖力的生长吧
离参天还很远呢
继续飞快的发芽吧
要遮天蔽日还要许久呢
xietao

头衔: 总工
文章数: 539
积分: 5390
注册时间: 2005/9/5
[回复留言] [回复(需要先登录)] [引用(需要先登录)] 普通文章第 12 楼
文章id: 86
典藏册登录

作者: xietao

典藏是介于编目和流通之间的一个业务环节。

一些大图书馆有专门的典藏部，一些小图书馆则将典藏业务纳入采编或者流通管理。目前dp2编目系统暂将这部分功能纳入编目界面处理。

下图显示了典藏核心业务“册登录” 的情景。

这个界面是针对业务流程设计的。

上方的“种检索词”输入域，最常见的是用来接纳条码阅读器输入的ISBN，软件具有自动适应条码阅读器的功能，能够识别和自动转换物码形态的ISBN。

ISBN输入后，软件立即自动从数据库中装载“种记录”，也就是图书的MARC记录，然后将窗口输入焦点自动切换到下方“册条码”输入域，等待工作人员扫入图书上已经贴好册条码字符串。

每扫入一个册条码字符串，软件自动向中部加入新创建的册信息。当一种图书的所有册都扫入后，工作人员只要紧接着扫描下一种图书的ISBN条码，软件会识别出来，自动保存上一条种和相关册记录，并装入刚扫入的新种的信息，等待工作人员继续输入新种的册条码。

在不断扫入册条码的过程中，工作人员有时难免会出错，比方说扫入重复的册条码；或者在种之间搞混了册条码，把已经登录到其它种的册再次登入。凡此种种，通过软件的册条码自动查重机制，都能够发现和警告，避免出现数据录入错误。

===

值得一提的是，dp2编目系统采用了种、册信息分开存放的数据结构。每个书目库（代表“种”）都具备一个配套的“实体库”，专门用来存储册信息。

这种结构的好处，是在流通业务中，只对实体库进行写入、修改数据操作，而不必对书目库进行写操作，这样系统在权限控制，负载平衡方面更科学、合理。而反过来，在编目业务中，则不必具备对实体库的写操作权限。

这样，虽然表面上是同一个编目界面来实现了编目部和典藏部两种不同的业务操作，但通过帐户权限的不同划分，两种业务就井然有序地区别开来。这也是一个通用的特征：Client/Server系统的权限验证应当在服务器端进行，而不取决于前端界面。

===

下面实例了一条册记录：

<?xml version="1.0" encoding="utf-8"?>
<root dprms:path="http://test/rmsws/rmsws.asmx?中文图书实体/2" dprms:timestamp="20a728bde316c8080000000000000010" xmlns:dprms="http://dp2003.com/dprms">
    <parent>1</parent>
    <barcode>0000002</barcode>
    <state>
    </state>
    <location>流通库</location>
    <price>
    </price>
    <comment>
    </comment>
    <borrower>R0000001</borrower>
    <borrowdate>Fri, 10 Mar 2006 12:43:42 GMT</borrowdate>
    <returndate>
    </returndate>
    <borrowDate>Fri, 28 Apr 2006 03:05:30 GMT</borrowDate>
    <borrowPeriod>30day</borrowPeriod>
    <no>0</no>
    <renewComment>
    </renewComment>
    <reservations>
    </reservations>
</root>

这显然是一条XML格式的记录。

<parent>元素表明，这条记录从属于相关联的书目库中id为1的书目记录。这是一种单链关系：只要册记录表明自己属于一条种记录，那就足够了，不需要从种记录设置指向册记录的信息。这种结构的好处，是增删册记录的时候，不必锁定和修改种记录，概念更简单。

<borrower>元素存储了借书者的证条码。

<reservations>元素用于存储本册图书的预约请求信息。

在体系结构上，dp2编目系统仅仅在书目数据有必要使用MARC格式的地方，使用MARC格式（当然这已经也是MARC格式的变体：MARCXML格式），而在其它任何数据格式方面，首选XML格式。

发表时间: 2006-05-30 15:49:50
最后修改时间: 2006-05-31 15:29:12

继续卖力的生长吧
离参天还很远呢
继续飞快的发芽吧
要遮天蔽日还要许久呢
xietao

头衔: 总工
文章数: 539
积分: 5390
注册时间: 2005/9/5
[回复留言] [回复(需要先登录)] [引用(需要先登录)] 普通文章第 13 楼
文章id: 87
编目查重

作者: xietao

查重是编目和采购等业务环节的一个重要功能。

dp2编目系统提供了一个查重窗口，专用于进行查重。这个窗口作为一个组件，也可以在数据加工的二次开发C#脚本中调用。

下图是查重的场景：

dp2编目系统查重的操作原理，是将查重发起的记录，按照该记录所从属的书目库的检索点配置策略，创建检索点，然后利用这些检索点，针对若干查重目标库进行检索。

这里所指的创建检索点，是模拟保存记录到数据库的那种规则，创建检索点，哪怕是尚未保存的新记录，也可以这样运作。

对目标库进行检索后，软件将按照预先配置的权重指标，对命中进行评估，测算出一个权值的和，如果某项命中记录的权值和超过预先配置的“阈值”，界面上就会把这项加亮显示，权值左边也会着重标出一个星号，表示这项就算和发起记录“重”了。

===

下面是服务器全局cfgs/dup配置文件的片断：

...

    <project name="采购查重" comment="示例方案">
        <database name="测试书目库" threshold="60">
            <accessPoint name="著者" weight="50" searchStyle="" />
            <accessPoint name="题名" weight="70" searchStyle="" />
            <accessPoint name="索书类号" weight="10" searchStyle="" />
        </database>
        <database name="编目库" threshold="60">
            <accessPoint name="著者" weight="50" searchStyle="" />
            <accessPoint name="题名" weight="70" searchStyle="" />
            <accessPoint name="索书类号" weight="10" searchStyle="" />
        </database>
    </project>
    <project name="编目查重" comment="这是编目查重示例方案">
        <database name="中文图书" threshold="100">
            <accessPoint name="责任者" weight="50" searchStyle="" />
            <accessPoint name="ISBN" weight="80" searchStyle="" />
            <accessPoint name="题名" weight="20" searchStyle="" />
        </database>
        <database name="图书测试" threshold="100">
            <accessPoint name="责任者" weight="50" searchStyle="" />
            <accessPoint name="ISBN" weight="80" searchStyle="" />
            <accessPoint name="题名" weight="20" searchStyle="" />
        </database>
    </project>
    <default origin="中文图书" project="编目查重" />
    <default origin="图书测试" project="编目查重" />

...

这里定义了两种查重方案（<project>元素），其中一种“编目查重”缺省和“中文图书”和“图书测试”关联了起来。

===

值得一提的是，在dp2batch模块中，某些“批处理方案”通过脚本调用上述查重窗口，实现了外部数据批处理一边转入一边查重的功能。经查重表明重了的记录，就被跳过不会转入了。很典型的例子是，对外部采购数据批处理装入“征订数据库”，就需要有这样的查重能力。

发表时间: 2006-05-30 15:54:04
最后修改时间: 2006-05-31 15:43:21

继续卖力的生长吧
离参天还很远呢
继续飞快的发芽吧
要遮天蔽日还要许久呢
xietao

头衔: 总工
文章数: 539
积分: 5390
注册时间: 2005/9/5
[回复留言] [回复(需要先登录)] [引用(需要先登录)] 普通文章第 14 楼
文章id: 88
观察检索点

作者: xietao

dp2编目系统提供了一个观察检索点的实用功能：

这对于系统管理员利用样本数据记录检验检索点配置效果，编目员了解一条记录的检索点设置情况，提供了方便。

上图中，可以看到有一栏叫做“数值形态的Key”，这是dp2系统的一个特色。除了为一个检索点设置字符串形态的key，还为其设置了数值形态的key。这个数值形态的key，通过特定的配置，可以是年代、时间的数值值，也可以是金额数字，也可以是标题或者正文中的数字。

利用这个数值形态的key，整个dp2系统就实现了日期、金额等等需要比较数值大小和范围的检索能力。

发表时间: 2006-05-30 15:56:06
最后修改时间: 2006-05-31 15:49:17

继续卖力的生长吧
离参天还很远呢
继续飞快的发芽吧
要遮天蔽日还要许久呢
xietao

头衔: 总工
文章数: 539
积分: 5390
注册时间: 2005/9/5
[回复留言] [回复(需要先登录)] [引用(需要先登录)] 普通文章第 15 楼
文章id: 89
著者号码

作者: xietao

dp2编目系统提供了生成著者号码的功能。

这个功能是基于数字平台的GCAT WebService接口实现的。

其WSDL文件可见这里：

http://dp2003.com/dp2libraryws/gcat.asmx?WSDL

用户不必在本地或者本馆安装著者号码服务功能，直接享用数字平台dp2003.com服务器上的GCAT WebService服务即可。这个WebService服务目前是免费的。

在MARC编辑窗上触发Ctrl+A，并选“加入著者号”功能，如果是初次使用，会出现下面登录对话框：

注意这是针对GCAT服务的帐户名，而不是编目服务器的帐户名。目前输入用户名test，密码为空即可。

如果dp2编目系统不退出，软件会记忆这个用户名和密码，下次使用著者号码功能就不用登录了。

dp2编目系统所使用的这个著者号码功能，和Web界面

http://dp2003.com/gcat/gcat.aspx

功能背靠的WebService服务是同一个。和

http://dp2003.com/dp2bbs/article.aspx?board=%e4%ba%a7%e5%93%81%e4%b8%8e%e6%9c%8d%e5%8a%a1&id=59

文章所介绍的著者号码前端，也是背靠同样的一个服务。

发表时间: 2006-06-01 15:07:35
最后修改时间: 2006-06-01 15:18:32

继续卖力的生长吧
离参天还很远呢
继续飞快的发芽吧
要遮天蔽日还要许久呢
xietao

头衔: 总工
文章数: 539
积分: 5390
注册时间: 2005/9/5
[回复留言] [回复(需要先登录)] [引用(需要先登录)] 普通文章第 16 楼
文章id: 90
繁简体汉字归一化检索点技术

作者: xietao

dp2编目系统在为数据库记录创建检索点的时候，可以对繁体和简体汉字进行归一转换，以保证访问者不论输入繁体还是简体汉字，都可以检索命中。

这种归一转换，请注意是针对系统内部“检索点” 而进行的，不是在修改MARC数据本身。

下图演示了一条MARC记录的检索点详情：

从上图可以看出，“原始key”中的繁体字，被自动转换成简体字的“key”。

当用户在检索的时候，所发出的检索词，经软件自动预处理，把其中的繁体字转换为简体字，然后与检索点匹配。这样就得到了最满意的效果 -- 不论用户是否输入了繁体字，或者繁简体混合输入，都可以检索命中。

下面列出了中文图书库下keys配置文件和著者检索点相关的配置片断：

...

    <key>
        <xpath nstable="">/marc:record/marc:datafield[@tag='700']/marc:subfield[@code='a']</xpath>
        <from>contributor</from>
        <table ref="contributor" />
    </key>
    <key>
        <xpath nstable="">/marc:record/marc:datafield[@tag='701']/marc:subfield[@code='a']</xpath>
        <from>contributor</from>
        <table ref="contributor" />
    </key>
    <key>
        <xpath nstable="">/marc:record/marc:datafield[@tag='702']/marc:subfield[@code='a']</xpath>
        <from>contributor</from>
        <table ref="contributor" />
    </key>
    <key>
        <xpath nstable="">/marc:record/marc:datafield[@tag='710']/marc:subfield[@code='a']</xpath>
        <from>contributor</from>
        <table ref="contributor" />
    </key>
    <key>
        <xpath nstable="">/marc:record/marc:datafield[@tag='711']/marc:subfield[@code='a']</xpath>
        <from>contributor</from>
        <table ref="contributor" />
    </key>
    <key>
        <xpath nstable="">/marc:record/marc:datafield[@tag='712']/marc:subfield[@code='a']</xpath>
        <from>contributor</from>
        <table ref="contributor" />
    </key>
    <table name="contributor" id="7">
        <convert>
            <string style="upper,simplify" stopwordTable="title" />
        </convert>
        <convertquery>
            <string style="upper,simplify" />
        </convertquery>
        <caption lang="zh-cn">责任者</caption>
        <caption lang="en">Contributor</caption>
    </table>

...

可以看出，数据记录构造检索点的时候，<convert>元素中采用了“upper,simplify”方式来加工检索点，即转为大写、简体化。而<convertquery>元素中同样配置了“upper,simplify”方式来预加工前端发来的检索词。

上例中采用了“简体化”的策略来统一繁简检索过程。这是针对大陆以简体字为主的情况配置的。dp2编目系统也允许按照“繁体化”的策略来归一(在<convert><convertquery>元素中运用“traditionalize”加工策略即可)，这对于繁体字地区、古籍文献应用就比较适合。

===

繁简体归一化的技术，针对的是系统内部检索点。

而dp2编目系统存储MARC数据，也就是存储MARCXML格式数据，也就是存储XML数据，它采用的是Unicode字符集。所以，繁体和简体汉字在系统内是完全相容互不干扰的。

繁简体归一化技术，解决的是检索中繁简体通用的问题，请大家不要和数据存储这一课题混淆，两者的目的和对象都不同。它们之间也有关系，就是：正因为繁简体归一化检索点的好处，所以反过来我们不要求用户在MARC格式中专门增加转换后的繁体或简体字段，而是原样照录、忠实反映原貌即可。

发表时间: 2006-06-01 15:36:43
最后修改时间: 2006-06-01 16:05:34

继续卖力的生长吧
离参天还很远呢
继续飞快的发芽吧
要遮天蔽日还要许久呢
liujp

头衔: 王者之尊
文章数: 13
积分: 130
注册时间: 2005/9/14
[回复留言] [回复(需要先登录)] [引用(需要先登录)] 普通文章第 17 楼
文章id: 98
使用中的一些顾虑

作者: liujp

摘要: 同具体数据加工人员接触中,他们谈得最多的.

关键词: dprms

  在通用的加工前端(DPRMS)基础上开发专用的加工前端.
   目前的加工前端,从流程上来讲,是先创建逻辑库,然后再创建逻辑库的相关配置文件(如检索点,模板等),最后就是加工数据.
   我与加工数据人员接触的这段日子,dprms确实是深层次加工数据最好的工具,偶也想不出更好的GUI,但是在实际工作中(著录字段固定),对于这些填习惯了表单的工作人员(E文不好,同级属性,元素等词没有概念),总会挑三拣四,说长道短,为此,我们可以根据用户定义的模板,生成针对某一类模板的表单式的固定表单,虽然这么做点抑长扬短的感觉,但针对目前市面上的GUI,也只能饮鸩止渴,抹杀其长处.

发表时间: 2006-07-02 21:43:28

信念 + 信心
liujp

头衔: 王者之尊
文章数: 13
积分: 130
注册时间: 2005/9/14
[回复留言] [回复(需要先登录)] [引用(需要先登录)] 普通文章第 18 楼
文章id: 99
服务器端不能创建根下的cfgs目录

作者: liujp

关键词: error

我这里获取的服务器端安装程序,安装后不能创建根目录下的CFGS目录及子文件keys.xml dup.xml  global.xml文件.

发表时间: 2006-07-02 21:46:26

信念 + 信心
xietao

头衔: 总工
文章数: 539
积分: 5390
注册时间: 2005/9/5
[回复留言] [回复(需要先登录)] [引用(需要先登录)] 普通文章第 19 楼
文章id: 102
回复: 使用中的一些顾虑

作者: xietao

==========
以下是引用 liujp 于 2006-7-2 21:43:28 发表的文字:
  在通用的加工前端(DPRMS)基础上开发专用的加工前端.
   目前的加工前端,从流程上来讲,是先创建逻辑库,然后再创建逻辑库的相关配置文件(如检索点,模板等),最后就是加工数据.
   我与加工数据人员接触的这段日子,dprms确实是深层次加工数据最好的工具,偶也想不出更好的GUI,但是在实际工作中(著录字段固定),对于这些填习惯了表单的工作人员(E文不好,同级属性,元素等词没有概念),总会挑三拣四,说长道短,为此,我们可以根据用户定义的模板,生成针对某一类模板的表单式的固定表单,虽然这么做点抑长扬短的感觉,但针对目前市面上的GUI,也只能饮鸩止渴,抹杀其长处.
==========
你具体所指的是“DC专用输入模板”吧？如果开发的具体操作办法出来，我会尽快加上这个模块。
现在dp2rms因为接受了图书馆行业的邀请，加入了MARC编辑器，这里你可以看出，MARC编辑器就是专门为图书馆行业所做，和XML没有直接关系。用户也不必去XML编辑器中编辑MARCXML。之所以很快就提供了这个模块，完全是因为我们具有这个MARC编辑器的丰富界面经验。
而相比起来，DC编辑器稍困难一些，困难所在是“不太能确定该怎么做”，而不是“不会编程”。也希望大家多多给与指点，多实践。在“不太能确定该怎么做”的前提下，贸然要做，必然扩大很多成本，保留很多事后看起来完全不必要的灵活性。当然，我们也做好了这个最坏的打算。其实，许多软件的第一版，就是用来做这个探索的。

发表时间: 2006-07-03 10:30:21
最后修改时间: 2006-07-03 10:31:30

继续卖力的生长吧
离参天还很远呢
继续飞快的发芽吧
要遮天蔽日还要许久呢
xietao

头衔: 总工
文章数: 539
积分: 5390
注册时间: 2005/9/5
[回复留言] [回复(需要先登录)] [引用(需要先登录)] 普通文章第 20 楼
文章id: 103
回复: 服务器端不能创建根下的cfgs目录

作者: xietao

==========
以下是引用 liujp 于 2006-7-2 21:46:26 发表的文字:
我这里获取的服务器端安装程序,安装后不能创建根目录下的CFGS目录及子文件keys.xml dup.xml  global.xml文件.
==========
小刘，目前有一个临时的下载位置：
http://dp2003.com/dp2bbs/article.aspx?board=%e4%ba%a7%e5%93%81%e4%b8%8e%e6%9c%8d%e5%8a%a1&id=105
你可以通过这里经常更新内核版本。

发表时间: 2006-07-03 10:37:31
最后修改时间: 2006-07-03 14:05:41

继续卖力的生长吧
离参天还很远呢
继续飞快的发芽吧
要遮天蔽日还要许久呢
页 2 / 3 |< < 1 2 3 > >|

在线用户
访客访客访客访客
当前栏目在线用户数 4, 总在线用户数 4

数字平台 -- dp2bbs -- 论坛系统
版本: 2.0.4205.29642 | .NET Framework版本: v4.0.30319
版权所有 (C) 2005-2011 数字平台(北京)软件有限责任公司