淘豆网
1/5
文档分类:办公文档 > 办公软件应用

基于泛中文域名的网页关键词超链接实现与应用.doc


下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

特别说明:六六之家_[官网入口]文档预览什么样,下载就是什么样。

0/100
您的浏览器不支持进度条
下载所得到的文件列表
基于泛中文域名的网页关键词超链接实现与应用.doc
文档介绍:
基于泛中文域名的网页关键词超链接功能探讨与实现 Introduction and Implementation of WebPage Content K eyword HyperLinks Based on W ildcard D omain N ame 杜义华( 中国科学院计算机网络信息中心管理信息服务中心 100864) 摘要: 本文介绍一种基于泛中文域名的关键词超链接实现方法。主要是通过构建完整的关键词表、利用泛域名解析与虚拟中文域名的重定向技术和简单实用的添加链接算法, 实现网页全文中所有专业术语、通用词均能点击和按关键词+ 域名方式直接访问到相应站点、专题、网页或搜索页的充分互联, 解决网页中关键词链接不全面、导向地址不准确、不便记忆或无法及时更新、链接方式不理想等技术问题。关键词:泛域名中文虚拟域名关键词超链接 1前言超链接是互联网的重要特点,在频道栏目、标签(tags) 、相关文章或热点推荐等线性结构导航与检索基础上, 网页全文的关键词超链接能让各知识点多维网状互联, 门户、行业或专门网站中全面完整的关键词链接标识有助于将信息立体式展示和为用户提供快捷的百科全书式阅读功能[1]。网站中知识点和所涉及关键词可能很多, 但由于信息整理量大、信息组织不能一步到位、一些关键词的导向页面不确定、超链接添加算法不完备等, 目前只有少数网站的部分网页进行有部分关键词链接,如 http://news./c/2006-03-24/22048522691s.shtml 中部分词汇链至相关话题、人物专栏或搜索页( ?k= ), 且链接点不全面、链接地址不便调整,尚没有网站系统能提供全面和专业的关键词标引服务。六六之家_[官网入口]泛域名技术能支持无限子域名, 中文关键词作子域名能更直观简洁, 多编码关键词参照表便于灵活扩展。引入和结合泛中文域名解析思路, 设计构建全面关键词表和简洁添加超链接算法, 能有效解决目前关键词链接中存在问题。开发实现通用网页关键词库管理平台和关键词链接添加插件,能推广适用于各类网站网页和信息发布平台。 2 关键词库构建 2.1 关键词定义页面中关键词为直接从文章中抽取的自然语言( 自由词) ,可能是规范术语、专用语或别名与简称, 具有一词多义、多词一义和词义不清现象。关键词表可参考但不限于《汉语主题词表》、《医学主题词表》、《中医药主题词表》等公认主题词, 可能根据业务需要还有大量机构、企业或人物名,所有词条均能对应到某主题或知识点。以医疗保健类为例,关键词可包括中草药名、中成药名、方药名、西药名、疾病名、症状名、名医名院、食物名、与生活保健相关的各要素、机构组织、国家法规等。其中有别名现象如恶性肿瘤与癌症、胃十二指肠溃疡与消化性溃疡, 有简称现象如中华人民共和国卫生部与卫生部、乙型肝炎与乙肝, 此外, 为保证语义完整和划词准确, 一些惯用法词句即使没有对定专题介绍, 也可采用上位主题词作关键词进行保护和参照, 如儿茶酚***与儿茶酚***类、鼻炎与急性鼻炎、六味地黄与六味地黄丸、六味地黄口服液。 2.2 关键词导向地址各关键词均对应到一个知识点, 链接导向地址可以是一个网站地址、子站点或频道栏目专题首页、具体页面或相关搜索页面。如世界卫生组织可直接导向 WHO 网站、民族医药可链接至民族医药频道、禽流感可链接禽流感专题、非典防治方案可链接到方案的全文页。网站或课件中拥有大量知识信息素材, 为加强对热点或知识点的展示, 在按常规频道栏目或章节分类同时, 可进一步挖掘内容间关系加工重组出大量专题。六六之家_[官网入口]建设过程中, 一些关键词对应知识点地址无法确定,或因信息或栏目专题的调整导致某些页面地址(URL) 变化, 常存在键词条设置不全、无法指向正确页面或已添加链接网页需要重新生成等问题。只有关键词本身是唯一的、确定的、不变的, 因此我们采用泛域名的映射解析技术, 将每一个关键词作为二级域名。六六之家_[官网入口]正如域名与 IP 地址关系一样, 这种直接采用中文关键词的域名方式, 相当于 URL 助记符,便于记忆,同时能保证链接稳定有效和导出设置灵活,当 URL 地址变化或指向需要调整时,只需修改对照表的相应记录。 2.3 关键词参照表关键词表用于生成关键词词典文件和泛域名解析的重定向。其中关键词列具唯一索引,参照词用于解决多词一义现象。关键词、 Big5 码、 IDN 编码等列具有索引以提高解析速度。六六之家_[官网入口]部分列数据冗余以避免嵌套查询或反复编码解码操作。六六之家_[官网入口]在关键词表管理平台中, 实现对 Big5 码、 IDN 编码列和若有参照词时其链接地址列的自动维护。关键词表可同时具有优先级别、广告链接等属性。关键词链接地址参照词 Big5 码 IDN 编码中华人民共和国卫生部/ 中華人民共和國衛生部 fiQ4Mp3EqsChE72E98Gko7CgbR kq7D 卫生部/ 中华人民共和国卫生部衛生部 rlR479Ey7S 食疗 http://food. 食療 pqYp66E 三七/index/ tcm / herb/ 0131 /i ndex.htm 三七 7gQL 田七/index/ tcm / herb/ 0131 /i ndex.htm 三七田七 7gQx86G 高血压/index/ disease /k158/index.htm 高血壓 omR993J8wL 高血压病/index/ disease /k158/index.htm 高血压高血壓病 omR890FqvM8qR 艾滋病防治条例/html/law/20060215.htm 愛滋病防治條例 fsQx49CoyDlmCf8Nk0T4q5A 宠物/index/health/topic/pet.htm 寵物 sbT234C 亚健康/index/health/topic//yjkhtm 亞健康 jlQp7Bi0Y 青春期/index/health/ /qcq.htm 青春期 qiVrVx07I …………… 3 泛中文域名解析 3.1 泛域名解析配置泛域名解析是指将*. 域名解析到同一 IP, 用于让域名支持无限子域名和防止用户错误输入导致的无法正常访问, 目前常用于博客系统, 但子域名均为英文字母和数字, 中文子域名由于编码技术问题易造成无法正常访问, 尚少见应用。配置方法是在 DNS 服务器的域名解析里面设置*. 的A ame 记录指向某 IP 或者在域名转发里面设置*. 转发到 ,同时在此 IP 服务器上配置一个不指定主机头的 we b 站点。 3.2 中文子域名编码转换目前 DNS 是7位 ASCII 编码环境, 中文域名解析多以 PUNYCODE [2] 编码进行兼容转换。中文编码格式有国际标准(UTF-8) 、国家标准(GB2312 , GBK) 和工业事实标准(BIG5) , 经过流览器提交编码后捕捉到的可能为国际化域名( IDN ) 或其它标准。NI C 的中文域名用户插件、 TWNIC 的中文通、 NETSCAPE7.1 以上版本、 Mozilla browser-1. 4 以上版本、 Opera browser7.2 以上版本等支持和转换 内容来自淘豆网joyprp.com转载请标明出处.
非法内容举报中心
文档信息
  • 浏览:
  • 页数:5
  • 收藏数:0 收藏
  • 顶次数:0
  • 上传人:xxj16588
  • 时间:2016-07-09
  • 文件大小:0 KB
  • 下载次数:
最近更新
文档标签

页面底部区域 foot.htm