D
[解析] 为Web建立类似SQL一样的查询语言的困难之一是缺乏一个为这个庞大而异构的信息库的建立的数据库模式。但是,如果我们仅仅关心HTML文档的话,那么我们可以从这些文件的固有结构中构造一个虚拟模式。这样一来,在最高级的抽象层次上,每一个这样的文档都可由它的URL、标题和正文标识。而且,Web服务器提供一些附加的信息,例如类型、长度和文档的最后修改日期等。因此,从数据挖掘的角度来看,我们可以把所有HTML文档组成的集合看作一个关系:
Document (url, title, text, type, length, modif)
其中所有的履性都是字符串类型。在这个框架下,单个文档由关系中的一个重组来标识。当然,如果HTML文档丢失了一些可选信息,则相关的域将为空值,但是这在任何数据库中都是常见的方法。