首页 > 其他 > 详细

Pandas (四)文本数据处理

时间:2019-10-17 18:03:09      阅读:57      评论:0      收藏:0      [点我收藏+]

文本数据也就是我们常说的字符串,Pandas 为 Series 提供了 str 属性,通过它可以方便的对每个元素进行操作。str 字符串向量化,可以提高处理字符串的效率。

使用 str 方法将数据字符串向量化映射:

#字符串处理相关的功能,就在Series.str
s=grade.姓名.str
s

一、和 python 原生字符串区别不大的方法

len、lower、upper、islower、isupper、find、count、strip、split

 

# 字符串长度
imdb.title.str.len()

 

# 把字符串转换成小写
imdb.title.str.lower()
# 把字符串转换成大写
imdb.title.str.upper()
# 统计字符串中出现了几个 The
imdb.title.str.count(The)
# 使用 split 对字符串进行切割
wine.商品名称.str.split( )

二、高级方法

  1. contains 包含 : 判断字符串中是否包含某个自字符
  2. startswith :判断是否以子串开始
  3. endswith : 判断是否以子串结束
# 提取出姓名中包含杨的数据
grade[grade.姓名.str.contains()]
# 提取以杨开始的
grade[grade.姓名.str.startswith()]
#提取以大结尾的
grade[grade.姓名.str.endswith()]
# 把威尔斯密斯的电影提取出来
imdb[ imdb.actors_list.str.contains("Will Smith")]

# 把莱昂纳多的电影提取出来
imdb[ imdb.actors_list.str.contains("Leonardo")]

三、repalce 方法

 

 

Pandas (四)文本数据处理

原文:https://www.cnblogs.com/BC10/p/11693685.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!