字符串pythonlanguage显示第一个字符_python字符串中的中文识别

阅读：评论：0

字符串pythonlanguage显⽰第⼀个字符_python字符串中的中

⽂识别

python的中⽂问题⼀直是让⼈不爽的⼀件事情，⽽python的⼀个强⼤之处恰恰是string的处理，⽽且string就难免不包含chinese。所以处理string中的chinese就变得很重要了。

实验室的complex network项⽬，⽬前是数据处理阶段，考虑到python的⾼效和强⼤的string功能，我决定使⽤python对⼤量的数据进⾏处理。

下⾯是⼀个简单的demo，先贴代码，然后进⾏说明：

pfc电感

python 代码

# -*- coding: gb18030 -*-铅封线

勇猛的圣灵肩垫importstring

importre

identify =string.maketrans('', '')

delEStr =string.punctuation + ' ' +string.digits#ASCII 标点符号，空格和数字

delCStr = '《》()&%￥#@！{}【】'

车载广告

s = '中华⼈民共和国(北京)'

s = s.translate(identify, delEStr)#去掉ASCII 标点符号和空格

ifre.findall('[\x80-\xff].', s):#s为中⽂

s = s.translate(identify, delCStr)

prints

else:#s为英⽂

prints

当然，⾸先是要import string和re(这⾥需要正则表达式功能)。

delEStr是⼀个包含英⽂标点符号和数字的字符串，就如 '(){}<>1234 ' 这样。delCStr是⼀个包含中⽂标点符号的字符串。s是⼀个测试字符串。1-甲基环戊醇

12⾏的功能就是把s中的英⽂标点符号都删除。下⾯⼀句是关键：

python 代码

re.findall('[\x80-\xff].', s)

这⾏代码将返回⼀个list，如果s中包含中⽂，则返回⼀个包含每个汉字的⾮空的list，如果s中不包含中⽂，则返回⼀个空list(即[ ])。

第14⾏要删除这个含中⽂的字符串中的中⽂标点符号。

运⾏这段程序，打印出来的是“中华⼈民共和国北”，“京”呢？不见了。这就是python让⼈头疼的地⽅。错误出在第14⾏，可能原因

是“京”的unicode编码和某两个相邻标点的组合编码相同了。我现在还没到好的解决办法

变速叉这段代码最主要的应⽤就是translate和findall两个函数，不过在使⽤translate函数之前要构造⼀个identify，就像第5⾏代码那样。

出现了问题是好事，它可以促使⾃⼰更加深⼊的去学习，并且现在处于学习阶段，多遇到问题毕竟是好事，继续学习

本文发布于:2023-05-17 05:09:52，感谢您对本站的认可！

标签：标点符号好事字符串阶段学习功能包含

留言与评论（共有 0 条评论）