110112006582760,修理 水泵 安装 制冷 设备 工程 和 技术研究 与 试验 发展 技术开发110108003557082,销售 计算机 软件 及 辅助 设备 电子产品 未 取得 行政许可 的 项目 除外110107000885559,技术转让 销售 百货 针纺织品 五金 交电 化工 建筑材料 机械设备 电器设备110109002641736,汽车配件 计算机 软硬件 及 外围设备 家居装饰 设计 制作 服装 计算机 软硬件110102000765431,技术开发 动力 技术开发 咨询 销售 机械 电器设备 发电机组 五金交电 橡胶制品110109004903736,建筑材料 金属材料 除 黄金 化工产品 不含 化学 危险品 及 一类 易制毒 化学品110108003533570,计算机 软硬件 及 外设 数码 技术开发 技术开发 转让 咨询 服务 培训 技术推广 服务 销售110101000171791,软件 技术开发 技术咨询 技术培训 技术转让 技术服务 信息 咨询110108000938562,不含 中介 服务 劳务 服务 销售 五金交电 电子计算机 百货 汽车配件
public static void main(String[] args) throws Exception {String filename = "datasets/companies.csv";String savearff = "datasets/companies.arff";CSVLoader loader = new CSVLoader();loader.setSource(new File(filename));// 在这里才能设置你读取的那个字段是String,而不是nominalloader.setStringAttributes("2"); // from 1loader.setNominalAttributes("1");Instances datasrc = loader.getDataSet();datasrc.renameAttribute(0, "regId");// rename attribudatasrc.renameAttribute(1, "text");datasrc.setClassIndex(0);- // dataRaw.setRelationName(newName); //这里可以设置relationName
//这里可以输出读取后Instances的结构信息,当然自己还可以数去其他信息//System.out.println(datasrc.stringFreeStructure());// save ARFFArffSaver saver = new ArffSaver();saver.setInstances(datasrc);saver.setFile(new File(savearff));// saver.setDestination(new File(args[1]));saver.writeBatch();}
@relation companies@attribute regId {1.10108003557082E14,1.10107000885559E14,1.10109002641736E14,1.10102000765431E14,1.10109004903736E14,1.1010800353357E14,1.10101000171791E14,1.10108000938562E14}@attribute text string@data1.10108003557082E14,‘销售 计算机 软件 及 辅助 设备 电子产品 未 取得 行政许可 的 项目 除外 ‘1.10107000885559E14,‘技术转让 销售 百货 针纺织品 五金 交电 化工 建筑材料 机械设备 电器设备 ‘1.10109002641736E14,‘汽车配件 计算机 软硬件 及 外围设备 家居装饰 设计 制作 服装 计算机 软硬件 ‘1.10102000765431E14,‘技术开发 动力 技术开发 咨询 销售 机械 电器设备 发电机组 五金交电 橡胶制品 ‘1.10109004903736E14,‘建筑材料 金属材料 除 黄金 化工产品 不含 化学 危险品 及 一类 易制毒 化学品 ‘1.1010800353357E14,‘计算机 软硬件 及 外设 数码 技术开发 技术开发 转让 咨询 服务 培训 技术推广 服务 销售‘1.10101000171791E14,‘软件 技术开发 技术咨询 技术培训 技术转让 技术服务 信息 咨询 ‘1.10108000938562E14,‘不含 中介 服务 劳务 服务 销售 五金交电 电子计算机 百货 汽车配件 ‘
@relation companies@attribute regId {110108003557082,110107000885559,110109002641736,110102000765431,110109004903736,110108003533570,110101000171791,110108000938562}@attribute text string@data110108003557082,‘销售 计算机 软件 及 辅助 设备 电子产品 未 取得 行政许可 的 项目 除外 ‘110107000885559,‘技术转让 销售 百货 针纺织品 五金 交电 化工 建筑材料 机械设备 电器设备 ‘110109002641736,‘汽车配件 计算机 软硬件 及 外围设备 家居装饰 设计 制作 服装 计算机 软硬件 ‘110102000765431,‘技术开发 动力 技术开发 咨询 销售 机械 电器设备 发电机组 五金交电 橡胶制品 ‘110109004903736,‘建筑材料 金属材料 除 黄金 化工产品 不含 化学 危险品 及 一类 易制毒 化学品 ‘110108003533570,‘计算机 软硬件 及 外设 数码 技术开发 技术开发 转让 咨询 服务 培训 技术推广 服务 销售‘110101000171791,‘软件 技术开发 技术咨询 技术培训 技术转让 技术服务 信息 咨询 ‘110108000938562,‘不含 中介 服务 劳务 服务 销售 五金交电 电子计算机 百货 汽车配件 ‘
DecimalFormat df = new DecimalFormat("0.0");//保留一位小数String str="1.10108003557082E14";double val=Double.valueOf(str);System.out.println(val); //默认科学表示法输出System.out.println(df.format(val));//采用指定格式输出
@relation companies@attribute regId {id110108003557082,id110107000885559,id110109002641736,id110102000765431,id110109004903736,id110108003533570,id110101000171791,id110108000938562}@attribute text string@dataid110108003557082,‘销售 计算机 软件 及 辅助 设备 电子产品 未 取得 行政许可 的 项目 除外 ‘id110107000885559,‘技术转让 销售 百货 针纺织品 五金 交电 化工 建筑材料 机械设备 电器设备 ‘id110109002641736,‘汽车配件 计算机 软硬件 及 外围设备 家居装饰 设计 制作 服装 计算机 软硬件 ‘id110102000765431,‘技术开发 动力 技术开发 咨询 销售 机械 电器设备 发电机组 五金交电 橡胶制品 ‘id110109004903736,‘建筑材料 金属材料 除 黄金 化工产品 不含 化学 危险品 及 一类 易制毒 化学品 ‘id110108003533570,‘计算机 软硬件 及 外设 数码 技术开发 技术开发 转让 咨询 服务 培训 技术推广 服务 销售‘id110101000171791,‘软件 技术开发 技术咨询 技术培训 技术转让 技术服务 信息 咨询 ‘id110108000938562,‘不含 中介 服务 劳务 服务 销售 五金交电 电子计算机 百货 汽车配件 ‘
/* ......紧接最上面的代码 *//* filter 分词后的 string */StringToWordVector filter = new StringToWordVector();filter.setInputFormat(datasrc);// String stopwordfile = "datasets/stopwords.en";// filter.setStopwords(new File(stopwordfile));// filter.setUseStoplist(true);String optionStr = "-R first-last -W 1000 -prune-rate -1.0 -C -I -N 1";filter.setOptions(Utils.splitOptions(optionStr));Instances dataFiltered = Filter.useFilter(datasrc, filter);//....接下来可以对dataFilered数据集进行分类或聚类
原文:http://blog.csdn.net/acema/article/details/38018443