写程序这方面,自己不是科班出身,本科时唯一的C语言课也没有好好听讲。导致后来写代码的时候十分不规范,也缺失了许多细节,日常遇到的自己给自己挖的坑还是有必要记录一下,方便以后复盘。
就像现在,前脚写完的代码后脚就忘了怎么写了……
这段代码主要是处理了一下打文件读取过程中内存不够的问题,中间也对DataFrame进行了一系列操作,结果具体的操作怎么实现的自己已经不记得了……目前还没调试好。
import pandas as pd
import numpy as np
import gc
import os
feature = ['111,222,333,444',
'111,222,333,444',
'111,222,333,444',
'111,222,333,444',
'111,222,333,444',
'111,222,333,444']
dict_in = {'111':'yiyiyi','222':'ererer','333':'sjsjsj','444':'sisisi'}
df = pd.DataFrame(feature,columns=['test'])
def batch_in(df_in,batch,dict_in,str_in='test'):
'''分批传入,写出,处理数据,清理内存,从硬盘读取,输出'''
if os.path.isfile('test_tmp.csv'):
os.remove('test_tmp.csv')
for i in range(1,df_in.shape[0]//batch):
#Pandas扩列操作
df_tmp = df_in[str_in][batch*(i-1):batch*i].str.split(',',expand=True)
for j in df_tmp.columns:
df_tmp[j] = df_tmp[j].map(dict_in)
df_tmp.to_csv('test_tmp.csv',mode='a',header=False,index=0)
del df_tmp
gc.collect()
df_tmp = df_in[str_in][batch*(df_in.shape[0]//batch-1):].str.split(',',expand=True)
for j in df_tmp.columns:
df_tmp[j] = df_tmp[j].map(dict_in)
df_tmp.to_csv('test_tmp.csv',mode='a',header=False,index=0)
del df_tmp
gc.collect()
df_out = []
with open('test_tmp.csv','r') as f:
for line in f:
df_out.append(line.strip())
return df_out
df_out = batch_in(df,1,dict_in)
- DataFrame中对字符串列进行扩列时可以使用
df['column'].str.split(',',expand=True)
的方法来根据间隔类型来处理,但这本质是Series的方法,DataFrame中只能针对列来操作; - DataFrame中想要改变单元格中的值可以使用
df.map(dict)
的方法,传入一个字典来实现修改内容的映射; - 使用batch对python对象进行切片时注意最后一部分的遗留问题;
- 手动释放内存时逐次执行
del a;gc.collect()
; - 可以
df.to_csv(mode='a',header=False)
来完成内容追加,注意同时指定header=False来确保不打印表头;