文/夏亚东 用Word 2000编辑文档,然后再将文档以WEB页面形式发布到网上,一举两得,非常方便。在庆幸之余,会发现用Word编辑(或利用“另存为WEB页”)成WEB页长度超出想象的大,同时还可能生成一个包含XML和GIF等文件的链接支持文件夹,将它们直接发布到服务器上,上载和下载时间会相对长些,占用的空间也相对多些。可否对这些WEB页面进行精简和删除不必要的文件?答案是肯定的。让我们看一下上面现象的产生原因和对HTML文件精简的方法。
一. WEB页面里有些什么
将.DOC文档另存为HTML文件后,在Word 2000的“视图”菜单里出现了一个“源文件”命令,使用“源文件”命令可以看到WEB页中有以下内容:
1.浏览状态的注释
游览状态有两种,游览器的版本高于或低于某一版本,这些注释来保证浏览时哪些HTML标记是可见的,哪些内容是不可见。
对低版本浏览器的注释格式为:< !- -[……]- ->如:< !- -[if gte mso 9]>…< ![endif]- ->
表示当浏览器的版本低于internet explorer 5时,if与endif之间的标记对浏览器来说是不可见的,对在浏览器中的显示效果没有影响。
对高版本浏览器的注释格式为:< ![……]>如:< ![if !vml]…< ![endif]>。表示如果浏览器支持VML,则if和endif之间的标记对浏览器不可见。
2.在Office特定名称空间中解析的XML标记
< o:DocumentProperties>
< o:Author>作者< /o:Author>
< o:LastAuthor>最后修改者ydxia< /o:LastAuthor>
< o:Revision>2< /o:Revision>
< o:TotalTime>5< /o:TotalTime>
< o:Created>2000-09-04T07:41:00Z< /o:Created>
< o:LastSaved>2000-09-04T07:41:00Z< /o:LastSaved>
……
< /o:DocumentProperties>
上面的代码用来说明文档的作者最后修改者版本号生成日期最后保存日期等内容以及其他有关编辑属性的说明等,这些内容也与显示无关。
3.对文档页面字体段落等描述
如:在“o”“v”“w”“x”和“p”名称空间解析的XML标记等,这些描述用于保留编辑版面等状态信息,以便再次进行编辑时恢复到原来的编辑状态。
4. VML矢量图形描述信息
在Word文档中插入“艺术字(Wordart)”时,相应的HTML文件中可能会用VML(Vector markup language)来对艺术字的形状颜色和定位等描述。如v:shapes=“_x000_i1025”或用冒号分隔的VML属性等。
5.其他非标准标记。
如用“tab-stops”“tab-interval”“language”“text-underline”“text-effect”“text-line-through”等有关文件格式的定义。
二.链接支持文件夹及文件的内容
用VML定义的矢量图形在不支持VML的浏览器中将无法显示。如,在Word文档中加入“艺术字”(Wordart),并在“常规选项”的“WEB选项”中不选中“利用VML在浏览器中显示图形”,则用“另存为WEB页”命令将文档保存为Test.html时,会同时生成一个名称为Test.files的文件夹,在文件夹中有一个filelist.xml文件和“艺术字”对应的Gif格式的图象文件。当VML定义的图形不能在浏览器中显示时,用Gif文件代替相应的VML图形进行显示;XML文件中含有一些链接文件的定义。
三.如何对HTML文件精简
在字数相同的情况下,对Word 2000文档的版面修饰越多,生成的HTML文件长度也越大。因此,从减少HTML文件长度的角度来说应该减少对Word文档版面的修饰。
对已生成的HTML文件,我们可以用其它HTML文件编辑工具对不必的信息进行删减。下面是在FrontPage中对HTML文件进行精简的方法。
单击要编辑的HTML文件,按下shift键,点击鼠标右键,在“打开方式”中选择用FrontPage打开文件(注:右键单击用Word编辑的WEB页面后再选“编辑”,将用Word打开文档,在FrontPage中利用“文件”菜单中的“打开”命令来打开用Word编辑的WEB页面,也调用Word打开文档),使用FrontPage工具栏中的“HTML”来看源代码,会发现有一部分内容为“灰色”,这些“灰色”的内容原则上讲都可去掉,选中其中的一部分进行“剪切”,“剪切”后进行预览看是否与原来版面相一致,如不一致则恢复“剪切”,如果“剪切”前后显示的版面一致,则继续进行其他内容的“剪切”,这样反复多次可以在当前环境下对HTML文档进行精简,并使显示时与原文档的版面保持一致。
上面的手工方法即使对单个文档进行处理也还是比较繁琐,下面介绍一种为WORD等生成的HTML文件进行“减肥”的工具——Microsoft Office 2000 HTML filter 2.0。
四. Microsoft Office 2000 HTML filter 2.0的安装及使用
Microsoft Office 2000 HTML filter 2.0可以为用Word 2000等编辑生成的HTML文件清除Office-specific标记等内容,而不影响WEB页面在浏览器中的显示效果。Office 2000 HTML filter过滤器可以从软件特供上下载,双击下载的文件就可以自行安装。安装后,在Word 2000的“文件”菜单中会增加一个“Export to”命令项,在“编辑”菜单中增加了“copy as HTML”命令项。
Office HTML filter能以三种不同的方法使用:可以进行处理方式参数选择的MS-DOS命令行方式;Office HTML Filter对话框方式;在Word 2000中使用利用新增加的命令。下面是用对话框方式和在WORD中利用新增加的命令对HTML进行精简的方法:
下面看一下以对话窗方式进行过滤的方法:
1.在“开始”菜单的“程序”中选中“Office tool”的“Microsoft Office 2000 HTML filter 2.0”。
2.设置选项(option)
共有九个选项:
(1)对HTML文件处理完成后删除备份文件。
(2)删除不必要的连接文件。
(3)删除Microsoft Office的标记。
(4)删除语言属性信息。
(5)删除不必要的META标记。
以上这五个选项选中与否不影响处理后HTML文件显示的外观
(6)利用VML描述显示的图形。
(7)删除标准的CSS。
(8)删除所有的Style元素。
(9)删除所有的“@-规则”结构。
下面四个选项选中后,HTML文件的显示外观会受到影响。
3.加入和删除要进行处理的HTML文件
按“add”钮从弹出地的文件框中选择文件,可以多次按“add”加入多个要进行处理的HTML文件。按“remove”按钮可以从文件列表出删除不想进行处理的HTML文件。
4.按“apply”则对选择的文件根据选项设定情况进行相应处理。
5.按“close”关闭程序。
下面看一下在WORD中对HTML文件“减肥”的方法
1.利用“Export to”命令
利用“Export to”可以导出两种文件,一种是精简的HTML文件,另一种是CSS样式表文件。生成HTML文件时系统会告诉你已对文件进行优化,且使文件最小,并提示再对HTML文件进行编辑时应使用原来编辑它的工具(如Word 2000)。对于一个较大的文件可以先生成一个样式表,然后将文件分别存储成几个较小的HTML文件,并在文件中引用生成的样式表。
2.利用“copy as HTML”
利用“copy as HTML”对选中部分进行复制,然后在其他HTML编辑工具(如:FrontPage)中进行粘贴,可以将相应的内容及定义的格式粘贴到其他编辑器中。可以在Word 2000中选中整个文档然后,利用“copy as HTML”将内容粘贴到其他HTML编辑工具中,实现对文档的精简。
以下是本文用四种方式生成的HTML文件长度的比较。
精简方法 |
文件长度 |
WORD文档 |
50K |
直接用“另存为WEB页面” |
40K |
用“export to” compact HTML |
20K |
利用“copy as HTML”到FrontPage中生成相应的HTML文件 |
20K |
利用Microsoft Office 2000 HTML filter 2.0对话框方式,对直接用“另存的WEB页面”生成的HTML文件进行精简(选中前五个和最后一个选项) |
18K |
可以看出无论另一个精简方法都可以很大程度地减小文件长度。另外,利用Microsoft Word 2000 HTML filter2.0还可以对EXCEL及PowerPoint生成的WEB页面进行精简。
立即下载Office 2000 HTML filter过滤器
(责任编辑Ardeler)
|