济宁天气预报
济宁市人力资源和社会保障局
济宁人事考试单位代码
济宁市安全教育平台
济宁违章查询
济宁住房公积金查询
济宁科技网 济宁培训班 济宁银行网上银行 济宁教育网 历史故事 家庭教育 济宁市地图 济宁房产 济宁教育网 济宁人事考试信息网 济宁新闻网
币圈最新消息 济宁信息港
浏览器之家 济宁汽车 睡前小故事
下载吧 股票书籍 花花草草
百应百科 照片恢复 学习通
红警之家 睡前小故事 马伊琍
手机照片恢复 手机数据恢复

把Word转为简洁的html的若干种方法

时间:2014-02-22 12:40来源:未知 www.yunhepan.com
   word可以直接另存为 htm,但即使是 另存为 HTML 也会有大量的废代码。以前我一般用 Dreamweaver 的 clean up html 来处理,先处理 word 特有标签,然后删除一些 font,b,span 等。进一步,在 editplus 里面用正则进行处理,最后得到我想要的干净的html 代码。当然最完美的办法就是拷贝文字出来,自己用文本编辑器书写htm标签,:)

今天又看到lifehacker这几种word 2 clean htm方法:

1.使用这个HTML Tidy Library Project开源软件来处理。

2.微软官方站点也有个office 2000 HTML Filter 2.0工具,可以用来处理掉word2000转html时出现的多余代码。

3.使用这个Word HTML Cleaner在线工具来处理。只能处理word2000以下版本。

4.有人给出了正则表达式(其实,上面的各种软件也都是用正则来解决的)

删除不需要的标签

<[/]?(fontspanXML[ovwXP]:w+)[^>]*?>
- replace any matches with the empty string

删除class,style...等不需要的属性

<([^>]*)(?:classlangstylesizeface[ovwxp]:w+)=(?:'[^']*'""[^""]*""[^>]+)([^>]*)>
- replace any matches with <$1$2>

相关阅读
  • 各不相同 Word中几种文本格式的区别
  • Office 2007中关闭页面空白的方法
  • Word中输入11至20带圈字符的快捷方法
  • 各不相同 Word中几种文本格式的区别
  • 简单方法让你的Office彰显个性
  • 制作Word表格的最基本方法:绘制与插入
  • 清除Word文档页眉横线的第N种方法
  • 快速找到Word模板文件Normal.dot的方法

    • 上一篇:WORD打印疑难命令释义
      下一篇:如何利用Word 2007轻松的裁剪图片

      济宁运河畔网版权与免责声明:

      ①凡本网来源于注明来“源于:运河畔或www.yunhepan.com”版权均属运河畔网所有,其他媒体可以转载,且需注明“来源运河畔网”
      ② 凡本网注明“来源:XXX(非济宁运河畔,济宁信息港)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
      ③ 如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。

      • 全网热点
      • 健康
      • 教育
      • 新闻
      • 美食