编码不友好,对中文不友好,逼着你用RStudio、Jupyter Notebook/Jupyter Lab。图标丑,每次点击感觉辣眼睛。
为节省内存,R语言计算默认有效数字为7位,比Excel的15位还坑,幸好可以用options(digit=20)调整。为节省内存,很多函数默认会把strings转为factor,部门、性别等转化尚能接受,姓名等转化不能接受。
向量化,代码简洁,写起来爽。为统计而生,函数化,写起来快。
序号从1开始,方便排版报表。write.csv导出,加上“序号”两字。
社保、公积金本月和上月比较,用setdiff()求差集知增减。本月社保、公积金,用intersect()求交集知都买者。总公司、分公司的社保、公积金,用union()求并集。
对数据框merge()时,没有相同字段是cross join,有相同字段,默认是inner join,也可以设参数,all=TRUE、all.x=TRUE、all.y=TRUE,对应full join、left join、right join。
原文:https://www.cnblogs.com/ezhou/p/12774972.html