正则表达式和文本挖掘(Text Mining)
在进行文本挖掘时,TSQL中的通配符(Wildchar)显得功能不足,这时,使用“CLR+正则表达式”是非常不错的选择,正则表达式看似非常复杂,但,万变不离其宗,熟练掌握正则表达式的元数据,就能熟练和灵活使用正则表达式完成复杂的Text Mining工作。
一,正则表达式的特殊字符
1,常用元字符
用以匹配特定的字符(字母,数字,符号),注意字母是区分大小写的:
- . :匹配除换行符以外的任意字符
- \w :匹配字母或数字或下划线或汉字
- \s :匹配任意的空白符
- \d :匹配数字
- \b :匹配单词的开始或结束
- ^ :匹配字符串的开始
- $ :匹配字符串的结束
- \k :引用分组名,例如:\k<group_name>,表示引用名字为group_name的分组
- \group_number:group_number是分组的组号,1,2,3等,表示通过组号引用分组
2,重复字符或分组
指定前面一个字符或分组重复的次数:
- * :重复零次或更多次
- + :重复一次或更多次
- ? :重复零次或一次
- {n} :重复n次
-
{n,}
延伸阅读
- ssh框架 2016-09-30
- 阿里移动安全 [无线安全]玩转无线电——不安全的蓝牙锁 2017-07-26
- 消息队列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 论文笔记【图片目标分割】 2017-07-26
- 词向量-LRWE模型-更好地识别反义词同义词 2017-07-26
- 从栈不平衡问题 理解 calling convention 2017-07-26
- php imagemagick 处理 图片剪切、压缩、合并、插入文本、背景色透明 2017-07-26
- Swift实现JSON转Model - HandyJSON使用讲解 2017-07-26
- 阿里移动安全 Android端恶意锁屏勒索应用分析 2017-07-26
- 集合结合数据结构来看看(二) 2017-07-26
学习是年轻人改变自己的最好方式