首页 > 其他 > 详细

批量下载搜狗词库

时间:2014-04-07 15:55:16      阅读:727      评论:0      收藏:0      [点我收藏+]

转载自:http://www.oschina.net/code/snippet_270478_20216

coreseek搜索引擎要用到mmseg,但是mmseg自带的词库不是很全面,导至搜索结果不精细。这个程序就是用来下载搜狗词库。

bubuko.com,布布扣
<?php
    /*//echo microtime();
    echo $start=strtotime(date("Y-m-01"))."<br/>";
    echo urlencode(iconv("UTF-8","GB2312//IGNORE","中国的") );
    echo urlencode("/");
    require_once "pinyin.php";
    $pinyin=new PY_deal();
    echo join($pinyin->pinyin("麦包包批发,[魅惑/微光摇曳/青春密语]三种款式,自由选择!现只需50元/款!"));*/
 
    $fp=fopen("dictory.txt", "a+");
    for($i=1;$i<=225;$i++){
        echo ‘page‘.$i;
        $curl=curl_init();
        $url="http://pinyin.sogou.com/dict/list.php?c=167&page={$i}";
        $options=array(CURLOPT_URL=>$url,CURLOPT_RETURNTRANSFER=>true,CURLOPT_HEADER=>false);
        curl_setopt_array($curl, $options);
        $rs=curl_exec($curl);
        curl_close($curl);
        $pattern_list="/\<dl\s+class\=\"dictlist\"\>([\S\s]+)?\<\/dl\>/i";
        preg_match_all($pattern_list,$rs,$match);
        $rs=$match[1][0];
        $pattern="/\?id=(\d+?)\"/i";
        preg_match_all($pattern,$rs,$match);
        $rs=$match[1];
         
        foreach($rs as $v){
            $link="http://pinyin.sogou.com/dict/download_txt.php?id={$v}";
            $curl=curl_init();
            $options=array(CURLOPT_URL=>$link,CURLOPT_FILE=>$fp,CURLOPT_HEADER=>false);
            curl_setopt_array($curl, $options);
            curl_exec($curl);
            curl_close($curl);
             
 
        }
 
    }
     
 
    fclose($fp);
?>
bubuko.com,布布扣

完成。

批量下载搜狗词库,布布扣,bubuko.com

批量下载搜狗词库

原文:http://www.cnblogs.com/zl0372/p/sogou.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!