字符串pythonlanguage显示第一个字符_python字符串中的中文识别

阅读: 评论:0

字符串pythonlanguage显⽰第⼀个字符_python字符串中的中
⽂识别
python的中⽂问题⼀直是让⼈不爽的⼀件事情,⽽python的⼀个强⼤之处恰恰是string的处理,⽽且string就难免不包含chinese。所以处理string中的chinese就变得很重要了。
实验室的complex network项⽬,⽬前是数据处理阶段,考虑到python的⾼效和强⼤的string功能,我决定使⽤python对⼤量的数据进⾏处理。
下⾯是⼀个简单的demo,先贴代码,然后进⾏说明:
pfc电感
python 代码
# -*- coding: gb18030 -*-铅封线
勇猛的圣灵肩垫importstring
importre
identify =string.maketrans('', '')
delEStr =string.punctuation + ' ' +string.digits#ASCII 标点符号,空格和数字
delCStr = '《》()&%¥#@!{}【】'
车载广告
s = '中华⼈民共和国(北京)'
s = s.translate(identify, delEStr)#去掉ASCII 标点符号和空格
ifre.findall('[\x80-\xff].', s):#s为中⽂
s = s.translate(identify, delCStr)
prints
else:#s为英⽂
prints
当然,⾸先是要import string和re(这⾥需要正则表达式功能)。
delEStr是⼀个包含英⽂标点符号和数字的字符串,就如 '(){}<>1234 ' 这样。delCStr是⼀个包含中⽂标点符号的字符串。s是⼀个测试字符串。1-甲基环戊醇
12⾏的功能就是把s中的英⽂标点符号都删除。下⾯⼀句是关键:
python 代码
re.findall('[\x80-\xff].', s)
这⾏代码将返回⼀个list,如果s中包含中⽂,则返回⼀个包含每个汉字的⾮空的list,如果s中不包含中⽂,则返回⼀个空list(即[ ])。
第14⾏要删除这个含中⽂的字符串中的中⽂标点符号。
运⾏这段程序,打印出来的是“中华⼈民共和国北”,“京”呢?不见了。这就是python让⼈头疼的地⽅。错误出在第14⾏,可能原因
是“京”的unicode编码和某两个相邻标点的组合编码相同了。我现在还没到好的解决办法
变速叉这段代码最主要的应⽤就是translate和findall两个函数,不过在使⽤translate函数之前要构造⼀个identify,就像第5⾏代码那样。
出现了问题是好事,它可以促使⾃⼰更加深⼊的去学习,并且现在处于学习阶段,多遇到问题毕竟是好事,继续学习

本文发布于:2023-05-17 05:09:52,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/102467.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:标点符号   好事   字符串   阶段   学习   功能   包含
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图