asp 使用正则表达式替换word中的标签,转为纯文本
在网站后台编辑器的日常使用中,我们经常面临一个问题:用户直接从Word文档复制内容至编辑器提交,导致内容页面显示五花八门,有时还需要纯文本内容作为摘录使用。面对这种情况,虽然我们希望用户能先复制到记事本再粘贴到编辑器里,但更好的解决方案是从我们自身出发进行改变。
经过网上搜寻并尝试若干清除Word格式的正则表达式后,我发现效果并不理想。于是,我决定自己编写一个ASP函数来清除Word格式,以满足我们的需求。下面是这段函数的代码:
```asp
function cleanWord(html)
dim regEx
set regEx=New RegExp
regEx.IgnoreCase=True
regEx.Global=True
'清除所有<>之间的内容,如HTML标签
regEx.Pattern="<[^>]>"
html = regEx.replace(html,"" )
'清除所有{}之间的内容,可能包含Word格式代码
regEx.Pattern="{[^}]}"
html = regEx.replace(html,"" )
'清除所有//之间的注释,可能是Word中的注释或格式说明
regEx.Pattern="/[^/]/"
html = regEx.replace(html,"" )
'替换掉漏网的单词,如"table.MsoNormalTable"等Word特有的样式类名
html =Replace(html,"table.MsoNormalTable","")
cleanWord= html
set regEx=nothing
end function
```
通过这个函数,我们可以对从Word复制粘贴过来的HTML内容进行清洗,去除其中的Word格式代码和样式类名。这样,即使在后台编辑器中直接粘贴Word内容,也能保证在前端显示时呈现统一的样式,同时满足摘录纯文本的需求。这个过程既保证了内容的完整性,又提高了用户体验。让我们更专注于内容的编辑与展示,而无需担心格式问题。
编程语言
- asp 使用正则表达式替换word中的标签,转为纯文本
- JS控制页面跳转时未请求要跳转的地址怎么回事
- JS小数转换为整数的方法分析
- Node.js Mongodb 密码特殊字符 @的解决方法
- php中in_array函数用法探究
- php cli换行示例
- 重命名SQLServer数据库的方法
- sp_executesql 使用复杂的Unicode 表达式错误的解决方
- jQuery实现鼠标划过添加和删除class的方法
- 实用CSS 文字收集
- 用正则取出html页面中script段落里的内容
- ASP使用FSO读取模板的代码
- jQuery中库的引用方法
- vb.net借助剪贴板将图片导入excel内
- MySQL无法存储Emoji表情问题的解决方法分析
- SQLite Delete详解及实例代码