Python - 文本处理模块

文本处理模块

Python文本处理模块, 使用四种内置库.

string.Template, 即string模板, 用户可以修改的模板, 在静态文本中插入动态值.

textwrap模块, 对从段落抽取的文本进行格式化输出.

re模块, 提供了完整的正则表达式库.

difflib模块, 根据添加删除修改的部分, 判断不同文本序列之间的具体差别.

Python - 文本处理模块

分类:默认分类 时间:2012-01-07 人气:9
本文关键词:
分享到:

相关文章

  • python对txt格式的小说进行处理 2012-01-04

    使用python对txt格式的小说进行处理 vim的确是神器,可惜sed与vim不完全通用。这篇文章受《 用vim对txt格式的小说重新排版》的启发,在此致谢! 经常下载txt的电子书,格式却不合心意,只好自己再处理。首要的就是处理段内换行。 原来的打算是定制一个vim模式,到时候处理小说时进入该模式,再使用各种快捷键。以此避免txt快捷键对日常编程的干扰。后来发现,vim不像emacs,可以定制自己的模式。(可能可以定制专用的vimrc解决,未经尝试) 于是转向脚本寻求解决办法。sed与awk

  • Python中自省和反射介绍 2012-01-06

    在笔者,也就是我的概念里,自省和反射是一回事,当然其实我并不十分确定一定以及肯定,所以如果这确实是两个不同的概念的话,还请多多指教,首先通过一个例子来看一下本文中可能用到的对象和相关概念。 01 #coding: UTF-8 02 import sys # 模块,sys指向这个模块对象 03 import inspect 04 def foo(): pass # 函数,foo指向这个函数对象 05 06 class Cat(object): # 类,Cat指向这个类对象 07 def __ini

  • python判断unicode字符类型 2012-01-29

    def is_chinese(uchar): """判断一个unicode是否是汉字""" if uchar >= u'\u4e00' and uchar= u'\u0030' and uchar= u'\u0041' and uchar= u'\u0061' and uchar0x7e: #不是半角字符就返回原来的字符 return uchar if inside_code==0x0020: #除了空格其他的全角半角的公式为:半角=全角-0xfee0 inside_code=0x3000

  • 最近两个非常火的动态编程语言PK Ruby vs Python 2012-02-05

    Python和Ruby是最近非常火的两个动态编程语言。他们非常适合来构建软件原型。同时这两种语言同样适合开发Web应用程序。目前Ruby最新版本为1.9.2, Python最新版本为3.1.2. 设计哲学 Python的设计重心在于提高程序的可读性和提高程序员的效率。Ruby则强调的是给程序员带来更多的编程乐趣。同时在Ruby中往往可以用不同的方式来解决同一个问题。这也是在Ruby中甚至很多方法会有不同的名字。Python则完全反对这个想法。在Python中应该有且只有一种方法来解决一个问题。

  • Python 学习入门(22)-- 线程同步 2012-02-09

    Python主要通过标准库中的threading包来实现多线程。在当今网络时代,每个服务器都会接收到大量的请求。服务器可以利用多线程的方式来处理这些请求,以提高对网络端口的读写效率。Python是一种网络服务器的后台工作语言 (比如豆瓣网),所以多线程也就很自然被Python语言支持。 1. 多线程售票以及同步 我们使用Python来实现Linux多线程与同步文中的售票程序。我们使用mutex (也就是Python中的Lock类对象) 来实现线程的同步: # A program to simul

  • Python 中的 unit test 流程 2012-02-10

    Python 中的 unit test 流程 看了看Python中的单元测试流程, 写了个测试代码来看整体的测试流程 总结如下 一个 test case 类应该派生自 unittest.TestCase正常的的test case的调用顺序为 vcD4KCtfTwOBUZXN0Q2FzZb/J0tTXorLh19S8urXEx+XA7bqvyv0obXlfY2xlYW51cCkuINXiuPbH5cDtuq/K/bvh1Np0ZWFyZG93btauuvOxu7X308MKPHByZSBjbGFz

  • Python抓取百度音乐 2012-02-19

    Title:Python抓取百度音乐 Author:Insun Content: 可以根据歌手名称来搜他的音乐 譬如搜陈奕迅 有1161首歌曲 http://music.baidu.com/search?key=%E9%99%88%E5%A5%95%E8%BF%85key后面的query需要quote一下 urlencode。 正则匹配一个页面上所有的歌名,一个分页20个。(这里就没去抓其他分页了) 然后根据一个百度音乐老接口API ,现在的音乐盒域名是play.baidu.com http:/

  • Python玩具总动员之爬虫篇(一):urllib 2012-02-22

    Base: Created Monday 17 March 2014 什么是爬虫? wiki解释:http://en.wikipedia.org/wiki/Web_spider 引用WIKI上的解释,爬虫说白就是首先就是一个程序(废话..),然后这个程序能做什么?他可以抓取网页,把数据保存下来。再网上一点说,光抓取网页没啥技术含量对吧?关键困难是从网页中分析提取和整理你想要的数据,正如弱水三千只取一Piao..百度Google搜索引擎什么的技术之一就是非常牛X的爬虫吧。 爬虫的原理? 这种原理性

  • Python进阶(一)--安装Python.程序执行.Python模块和IDLE调试 2012-02-25

    近几年来,随着Google、YouTube、IRobot等大公司对Python语言的广泛使用,Python公司的身影经常出现与我们的视线,Python语言也在软件质量、开发效率、程序的可移植性、标准库的支持等方面成为了一个优秀的程序开发语言,可以完成网站、游戏开发到航空航天控制等领域的各种任务。本栏目希望通过学习《Python学习手册》和网站上的相关指导,从零学习Python,希望对大家有一些帮助。 本栏目开发环境:Windows 7 + Python 2.7.2 + VS2008(以后集成)

Copyright (C) quwantang.com, All Rights Reserved.

趣玩堂 版权所有 京ICP备15002868号

processed in 0.064 (s). 10 q(s)