Bài 14: Làm việc với dữ liệu Text (P1) - Python Panda

Đăng bởi: Admin | Lượt xem: 1301 | Chuyên mục: Python


Trong bài này, ta sẽ thảo luận về Series/Index. Trong các bài tiếp theo, ta sẽ học cách áp dụng các hàm chuỗi này trên DataFrame.
Pandas cung cấp một tập hợp các hàm chuỗi giúp dễ dàng thao tác trên dữ liệu series. Quan trọng nhất, các hàm này bỏ qua (hoặc loại trừ) các giá trị bị thiếu / NaN.
Số thứ tựHàm và chức năng
1lower() : chuyển chuỗi String thành chữ thường
2upper() : chuyển chuỗi String thành chữ in hoa
3len() : Độ dài chuỗi
4strip() : Loại bỏ khoảng trắng
5split(' ') : Cắt chuỗi
6cat(sep=' ') : Nối chuỗi
7get_dummies() : Trả về DataFrame với các giá trị được mã hóa một lần.
8contains(pattern) : Trả về giá trị Boolean True cho mỗi phần tử nếu chuỗi con chứa trong phần tử, ngược lại False.
 9replace(a,b) : Thay thế giá trị a và b
10repeat(value) : Lặp lại từng phần tử với số lần xác định.
11count(pattern):Trả về số lần xuất hiện của pattern trong mỗi phần tử.
12startswith(pattern) : Trả về true nếu phần tử trong Chuỗi bắt đầu bằng pattern.
13endswith(pattern):Trả về true nếu phần tử trong Chuỗi kết thúc bằng pattern.
14find(pattern) : Trả về vị trí đầu tiên của lần xuất hiện đầu tiên của pattern.
15findall(pattern) : Trả về danh sách tất cả các lần xuất hiện của pattern.
16swapcase : Hoán đổi chữ hoa / chữ thường.
17islower() : Kiểm tra xem tất cả các ký tự trong mỗi chuỗi  có viết thường hay không. Trả về Boolean
18isupper() : Kiểm tra xem tất cả các ký tự trong mỗi chuỗi có viết hoa hay không. Trả về Boolean.
19isnumeric() : Kiểm tra xem tất cả các ký tự trong mỗi chuỗi có phải là số hay không. Trả về Boolean.
Tạo series và làm việc với các hàm ở bảng trên :
import pandas as pd
import numpy as np

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])

print s
Kết quả :
0            Tom
1   William Rick
2           John
3        Alber@t
4            NaN
5           1234
6    Steve Smith
dtype: object

lower() :

import pandas as pd
import numpy as np

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])

print s.str.lower()
Kết quả :
0            tom
1   william rick
2           john
3        alber@t
4            NaN
5           1234
6    steve smith
dtype: object

upper()

import pandas as pd
import numpy as np

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])

print s.str.upper()
Kết quả :
0            TOM
1   WILLIAM RICK
2           JOHN
3        ALBER@T
4            NaN
5           1234
6    STEVE SMITH
dtype: object

len()

import pandas as pd
import numpy as np

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])
print s.str.len()
Kết quả :
0    3.0
1   12.0
2    4.0
3    7.0
4    NaN
5    4.0
6   10.0
dtype: float64

strip()

import pandas as pd
import numpy as np
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print s
print ("After Stripping:")
print s.str.strip()
Kết quả :
0            Tom
1   William Rick
2           John
3        Alber@t
dtype: object

After Stripping:
0            Tom
1   William Rick
2           John
3        Alber@t
dtype: object
Bài tiếp theo: Làm việu với dữ liệu Text (p2) >>
vncoder logo

Theo dõi VnCoder trên Facebook, để cập nhật những bài viết, tin tức và khoá học mới nhất!