Python如何去除字符串中除汉字,字母,日语,数字,韩语的内容

LEO-屹铭 2020-12-23 PM 5905℃ 0条

最近在用Python下载了一些抖音视频,本来一切都好好着呢,将下载好的视频保存到阿里云盘后,我想百度的2T不用白不用,于是把视频上传到百度网盘上,但上传了一会儿后发现,几乎都不能上传,看了原因命名不符合规定,原来文件名有emoji表情,抖音上边好多人都喜欢加emoji,但这样的视频不能上传到百度网盘,有没有什么办法呢,百度了一下,还真有。
可以用正则的方法将不符合的字符去掉就行。

import re
mystr = "hahaAAA哈哈綂123./!#鱫愛"
str1 = ''.join(re.findall('[\u4e00-\u9fa5]',mystr)) # 只保留汉字
print(str1)
str2 = ''.join(re.findall('[a-z]',mystr)) # 只保留小写字母
print(str2)
str3 = ''.join(re.findall('[0-9]',mystr)) # 只保留数字
print(str3)
str4 = ''.join(re.findall('[\u4e00-\u9fa5a-zA-Z0-9]',mystr)) # 只保留字母,汉字和数字
print(str4)
str5 = ''.join(re.findall('[^\u4e00-\u9fa5^a-z^A-Z^0-9]',mystr))# 只保留除了汉字、字母、数字以外的字符
print(str5)

以下是韩语,日语和符号的代码实现

s=""" 
 en: Regular expression is a powerful tool for manipulating !text?:<>\/. 
 zh: 汉语是世界上最优美的语言,正则表达式是一个很有用的工具?。,‘;“:;’ 
 jp: 正規表現は非常に役に立つツールテキストを操作することです。 
 jp-char: あアいイうウえエおオ 
 kr:정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다. 
 """ 
print ("原始utf8字符" )
#utf8 
print ("--------" )
print( repr(s) )
print( "--------\n" )


#非ansi 
re_words=re.compile(r"[\x80-\xff]+") 
#m = re_words.search(s,0) 
m1=re.findall(re_words, s)

print ("非ansi字符" )
print ("--------" )
print (m1)
#print (m.group() )
print ("--------\n" )

#中文
re_words = re.compile(u"[\u4e00-\u9fa5]+") 
#m = re_words.search(s) 
m1=re.findall(re_words, s)
#print(''.join(m1))
print( "unicode 中文" )
print(m1)
print( "--------" )


#unicode korean 
re_words=re.compile(u"[\uac00-\ud7ff]+") 
#m = re_words.search(s,0) 
m1=re.findall(re_words, s)
print( "unicode 韩文" )
print(m1)
print( "--------\n" )


#unicode japanese katakana 
re_words=re.compile(u"[\u30a0-\u30ff]+") 
#m = re_words.search(s,0) 
m1=re.findall(re_words, s)
print( "unicode 日文 片假名" )
print ("--------" )
print(m1)
print( "--------\n" )


#unicode japanese hiragana 
re_words=re.compile(u"[\u3040-\u309f]+") 
#m = re_words.search(s,0) 
m1=re.findall(re_words, s)
print( "unicode 日文 平假名" )
print ("--------" )
print(m1)
print( "--------\n" )

#unicode cjk Punctuation 
re_words=re.compile(u"[\u3000-\u303f\ufb00-\ufffd]+") 
#m = re_words.search(s,0) 
m1=re.findall(re_words, s)
print( "unicode 标点符号" )
print ("--------" )
print(m1)
print( "--------\n" )

Python如何去除字符串中除汉字.jpg
现在终于可以上传到百度网盘啦。


扫描二维码,在手机上阅读!
标签: Python

非特殊说明,本博所有文章均为博主原创。

评论啦~


选择表情