在Scala里面如何使用正则处理数据

qindongliang1922

浏览: 2147541 次
性别:
来自: 北京

最近访客更多访客>>

godandghost

youhere

tanss

fengshuo850420

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：116328

: 证道Hadoop
浏览量：124593

: 证道shell编程
浏览量：58457

: ELK修真
浏览量：70354

文章分类

社区版块

存档分类

博客分类：

Scala
Spark

scala

正则在任何一门编程语言中，都是必不可少的一个模块，使用它来处理文本是非常方便的，尤其在处理在使用spark处理大数据的时候，做ETL需要各种清洗，判断，会了正则之后，我们可以非常轻松的面对各种复杂的处理，Scala里面的正则也比Java简化了许多，使用起来也必要简单，下面通过几个例子来展示下其用法：

/**
  * Created by QinDongLiang on 2017/1/5.
  */
object ScalaRegex {

  def main(args: Array[String]): Unit = {

    //例子一整个字符串匹配模式
    println("51".matches("""\d+"""))//true

    //例子二查询是否包含复合正则的模式
    println("""\d+""".r.findAllIn("foo456bar").length!=0)//true

    //例子三返回第一个匹配正则的字符串
    var numbers="""\d+""".r
    var str="foo 123 bar 456"
    println(numbers.findFirstIn(str))//Some(123)

    //例子四迭代所有匹配到的复合模式的字符串
    numbers.findAllMatchIn(str).foreach(println)// 123  456

    //例子五返回所有正则匹配作为一个List
    println(numbers.findAllMatchIn(str).toList)//List(123, 456)

    //例子六使用正则查询和替换
    var letters="""[a-zA-Z]+""".r
    var str2="foo123bar"
    println(letters.replaceAllIn(str2,"spark"))//spark123spark

    //例子七使用正则查询和替换使用一个函数
    println(letters.replaceAllIn(str,m=>m.toString().toUpperCase()))//FOO 123 BAR 456

    //例子八使用正则查询替换字符
    var exp="""##(\d+)##""".r
    var str8="foo##123##bar"
    //group 0 返回所有捕获，其他1...n分别返回第一个捕获，或第二个捕获，至第n个捕获
    println(exp.replaceAllIn(str8,m=>(m.group(0)).toString))//foo##123##bar
    println(exp.replaceAllIn(str8,m=>(m.group(1).toInt *2).toString))//foo246bar

    //例子九使用正则提取值进入一个变量里面
    val pattern="""(\d{4})-([0-9]{2})""".r

    val myString="2016-02"

    val pattern(year,month)=myString

    println(year)//2016
    println(month)//02

    //例子十在case match匹配中使用 正则
    val dataNoDay="2016-08"
    val dateWithDay="2016-08-20"

    val yearAndMonth = """(\d{4})-([01][0-9])""".r
    val yearMonthAndDay = """(\d{4})-([01][0-9])-([012][0-9])""".r

    dateWithDay match{
      case yearAndMonth(year,month) => println("no day provided")
      case yearMonthAndDay(year,month,day) => println(s"day provided: it is $day")
    }
    //day provided: it is 20

    //例子十一正则匹配忽略大小写

    val caseSensitivePattern = """foo\d+"""
    println("Foo123".matches(caseSensitivePattern))//false
    val caseInsensitivePattern = """(?i)foo\d+"""
    println("Foo123".matches(caseInsensitivePattern))//true

    //注意使用正则字符串三个双引号，不需要转义

  }

}

有什么问题可以扫码关注微信公众号：我是攻城师(woshigcs)，在后台留言咨询。
技术债不能欠，健康债更不能欠，求道之路，与君同行。

0
顶

0
踩

分享到：

Spark Streaming如何使用checkpoint容错 | Scala里面如何使用break和continue

2017-01-05 11:08
浏览 2043
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

在Scala里面如何使用正则处理数据

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

在Scala里面如何使用正则处理数据

评论

发表评论

相关推荐

Scala里面的排序函数的使用

在Scala里面如何使用元组

Spark如何读取一些大数据集到本地机器上

使用Spark SQL的临时表解决一个小问题

Spark任务两个小问题笔记

Spark中foreachPartition和mapPartitions的区别

Spark Streaming优雅的关闭策略优化

kafka版本不一致导致的一个小问题（二）

谈谈如何优雅的关闭正在运行中的Spark Streaming的流程序

如何管理Spark Streaming消费Kafka的偏移量（三）

理解Spark的运行机制

如何管理Spark Streaming消费Kafka的偏移量（二）

如何管理Spark Streaming消费Kafka的偏移量（一）

Scala里面如何使用枚举

使用Scala的强大api快速加工数据

在scala中使用spark sql解决特定需求（2）

在scala中使用spark sql解决特定需求

Spark如何在一个SparkContext中提交多个任务

如何使用scala+spark读写hbase？

使用ES-Hadoop插件结合spark向es插入数据

最近访客更多访客>>