不论今天的计算机技术变化,新技术的出现,所有都是来自数据结构与算法基础。我们需要温故而知新。
算法、架构、策略、机器学习之间的关系。在过往和技术人员交流时,很多人对算法和架构之间的关系感到不可理解,算法是软的,架构是硬的,难道算法和架构还有什么关系不成?其实不然,算法和架构的关系非常紧密。在互联网时代,我们需要用算法处理的数据规模越来越大,要求的处理时间越来越短,单一计算机的处理能力是不可能满足需求的。而架构技术的发展,带来了很多不同特点的分布式计算平台。算法为了能够应用到这些分布式计算平台上,往往需要进化,例如:并行计算要求算法可以拆分为可并行计算的几个独立单位,但很多算法不具备这种可拆分特性,使得不能简单通过分布式计算来提高效率。这时候,为了实现分布式化的计算效果,需要将算法进行等效改写,使得其具有独立拆分性。另一方面,算法的发展,也反过来会对计算架构提出新的要求。
对算法和策略的关系亦是,不过这两个概念并不像算法和架构那样好解释。策略是解决具体问题的手段,而算法是解决一类问题的方法。解决一个具体问题,可能需要将问题分解为一个或者多个算法,一起作用来解决,也可能不需要算法。例如,对于个性化新闻,我们可能有一个策略是:重大新闻需要及时展现给用户;而实现的具体算法可能只包括“重大新闻挖掘算法”等。
机器学习是一类算法的统称,在一定的数据集合上,利用机器学习的算法,自动得到规律,来进行预测,机器学习领域常见的问题包括分类问题、回归问题等。而预测,尤其是对用户的偏好进行预测是推荐领域的核心问题之一,机器学习算法在解决此类问题上会发生很大的作用。
正文
一、数据结构基础
数组
定义
知识要点
时间复杂度
链表
定义
要点
时间复杂度
哈希表或哈希图
定义
要点
时间复杂度
二叉树
定义
要点
时间复杂度
二、搜索基础
广度优先搜索
定义
要点
时间复杂度
深度优先搜索
定义
要点
时间复杂度
广度优先搜索 VS. 深度优先搜索
细微的区别
三、高效排序基础
归并排序
定义
要点
时间复杂度
快速排序
定义
要点
时间复杂度
冒泡排序
定义
要点
时间复杂度
归并排序 VS. 快速排序
四、算法类型基础
递归算法
定义
要点
迭代算法
定义
要点
递归 VS. 迭代
遍历数组的伪代码(这就是为什么使用迭代的原因)
Recursion | Iteration
----------------------------------|----------------------------------
recursive method (array, n) | iterative method (array)
if array[n] is not nil | for n from 0 to size of array
print array[n] | print(array[n])
recursive method(array, n+1) |
else |
exit loop
贪婪算法
定义
要点
伪代码:用贪婪算法找到数组中任意两个数字间的最大差值
greedy algorithm (array)
var largest difference = 0
var new difference = find next difference (array[n], array[n+1])
largest difference = new difference if new difference is > largest difference
repeat above two steps until all differences have been found
return largest difference
这一算法无需比较所有数字两两之间的差值,省略了一次完整迭代。
Legend
Excellent | Good | Fair | Bad | Horrible |
Data Structure Operations
Data Structure | Time Complexity |
|
|
|
|
|
|
| Space Complexity |
| Average |
|
|
| Worst |
|
|
| Worst |
| Access | Search | Insertion | Deletion | Access | Search | Insertion | Deletion |
|
O(1) | O(n) | O(n) | O(n) | O(1) | O(n) | O(n) | O(n) | O(n) | |
O(n) | O(n) | O(1) | O(1) | O(n) | O(n) | O(1) | O(1) | O(n) | |
O(n) | O(n) | O(1) | O(1) | O(n) | O(n) | O(1) | O(1) | O(n) | |
O(n) | O(n) | O(1) | O(1) | O(n) | O(n) | O(1) | O(1) | O(n) | |
O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(n) | O(n) | O(n) | O(n) | O(n log(n)) | |
- | O(1) | O(1) | O(1) | - | O(n) | O(n) | O(n) | O(n) | |
O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(n) | O(n) | O(n) | O(n) | O(n) | |
- | O(log(n)) | O(log(n)) | O(log(n)) | - | O(n) | O(n) | O(n) | O(n) | |
O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(n) | |
O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(n) | |
- | O(log(n)) | O(log(n)) | O(log(n)) | - | O(log(n)) | O(log(n)) | O(log(n)) | O(n) | |
O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(n) |
Array Sorting Algorithms
Algorithm | Time Complexity |
|
| Space Complexity |
| Best | Average | Worst | Worst |
O(n log(n)) | O(n log(n)) | O(n^2) | O(log(n)) | |
O(n log(n)) | O(n log(n)) | O(n log(n)) | O(n) | |
O(n) | O(n log(n)) | O(n log(n)) | O(n) | |
O(n log(n)) | O(n log(n)) | O(n log(n)) | O(1) | |
O(n) | O(n^2) | O(n^2) | O(1) | |
O(n) | O(n^2) | O(n^2) | O(1) | |
O(n^2) | O(n^2) | O(n^2) | O(1) | |
O(n) | O((nlog(n))^2) | O((nlog(n))^2) | O(1) | |
O(n+k) | O(n+k) | O(n^2) | O(n) | |
O(nk) | O(nk) | O(nk) | O(n+k) |
Graph Operations
Node / Edge Management | Storage | Add Vertex | Add Edge | Remove Vertex | Remove Edge | Query |
O(|V|+|E|) | O(1) | O(1) | O(|V| + |E|) | O(|E|) | O(|V|) | |
O(|V|+|E|) | O(1) | O(1) | O(|E|) | O(|E|) | O(|E|) | |
O(|V|^2) | O(|V|^2) | O(1) | O(|V|^2) | O(1) | O(1) | |
O(|V| ? |E|) | O(|V| ? |E|) | O(|V| ? |E|) | O(|V| ? |E|) | O(|V| ? |E|) | O(|E|) |
Heap Operations
Type | Time Complexity |
|
|
|
|
|
|
| Heapify | Find Max | Extract Max | Increase Key | Insert | Delete | Merge |
- | O(1) | O(1) | O(n) | O(n) | O(1) | O(m+n) | |
- | O(n) | O(n) | O(1) | O(1) | O(1) | O(1) | |
O(n) | O(1) | O(log(n)) | O(log(n)) | O(log(n)) | O(log(n)) | O(m+n) | |
- | O(1) | O(log(n)) | O(log(n)) | O(1) | O(log(n)) | O(log(n)) | |
- | O(1) | O(log(n)) | O(1) | O(1) | O(log(n)) | O(1) |
Big-O Complexity Chart
B+ 树,代码中的注释将会告诉你一些教科书中不能学到的内容:
这是一个简单的B+树实现,我写它的目的是作为练习,并以此了解B+树的工作原理。结果该实现发挥了它的实用价值。
...
一个不经常在教科书中提及的技巧:最小值应该放在右侧,而不是左侧。一个节点内所有被使用的槽位应该在左侧,没有使用的节点应该为NUL,大部分的操作只遍历一次所有的槽位,在第一个NUL处终止。
radix树的一个常见的用法是保存页面结构体的指针;
包含指针的只允许简单插入的静态大小优先级堆,基于CLR(算法导论)第七章
哈希函数,引用Knuth和他的一篇论文:
Knuth建议选择与机器字长所能表达的最大整数约成黄金比例的素数来做乘法散列,Chuck Lever 证实了这个技术的有效性;
http://www.citi.umich.edu/techreports/reports/citi-tr-00-1.pdf
这些选择的素数是位稀疏的,也就是说对他们的操作可以使用位移和加法来替换机器中很慢的乘法操作;
有些代码,比如这个驱动,他们是自己实现的哈希函数
在命名空间树中执行一个修改过的深度优先算法,开始(和终止于)start_handle所确定的节点。当与参数匹配的节点被发现以后,回调函数将会被调用。如果回调函数返回一个非空的值,搜索将会立即终止,这个值将会回传给调用函数;
Knuth、Morris和 Pratt [1]实现了一个线性时间复杂度字符串匹配算法。该算法完全规避了对转换函数DELTA的显式计算。其匹配时间为O(n)(其中n是文本长度),只使用一个辅助函数PI[1...m](其中m是模式的长度),模式的预处理时间是O(m)。PI这个数组允许DELTA函数在需要时能迅速运行。大体上,对任意状态q=0,1,...,m和任意SIGMA中的字符"a",PI["q"]保存了独立于"a"的信息,并用于计算DELTA("q", "a")。由于PI这个数组只包含m个条目,而DELTA包含O(m|SIGMA|)个条目,我们通过计算PI进而在预处理时间保存|SIGMA|的系数,而非计算DELTA。
[1] Cormen, Leiserson, Rivest, Stein Introdcution to Algorithms, 2nd Edition, MIT Press
[2] See finite automation theory
Boyer-Moore模式匹配,如下是引用和对其他算法的使用建议;
Boyer-Moore字符串匹配算法:
[1] A Fast String Searching Algorithm, R.S. Boyer and Moore. Communications of the Association for Computing Machinery, 20(10), 1977, pp. 762-772. http://www.cs.utexas.edu/users/moore/publications/fstrpos.pdf
[2] Handbook of Exact String Matching Algorithms, Thierry Lecroq, 2004 http://www-igm.univ-mlv.fr/~lecroq/string/string.pdf
注意:由于Boyer-Moore(BM)自右向左做匹配,有一种可能性是一个匹配分布在不同的块中,这种情况下是不能找到任何匹配的。
如果你想确保这样的事情不会发生,使用Knuth-Pratt-Morris(KMP)算法来替代。也就是说,根据你的设置选择合适的字符串查找算法。
如果你使用文本搜索架构来过滤、网络入侵检测(NIDS)或者任何安全为目的,那么选择KMP。如果你关乎性能,比如你在分类数据包,并应用服务质量(QoS)策略,并且你不介意可能需要在分布在多个片段中匹配,然后就选择BM。
此树会被分配策略参数化,这个策略负责在C的自由存储空间和区域中分配列表,参见zone.h
同时,代码中还包含了一些第三方的算法和数据结构,例如:
为GIF图片格式而出现的Lempel-Zivsraf算法在图片处理程序中经常被应用,从一个简单的*nix组件转化为一个复杂的程序;
运行长度编码被用于生成PCX文件(用于Paintbrush这个程序中),压缩BMP文件和TIFF文件;
小波压缩(Wavelet压缩)是JPEG 2000的基础,所以所有生成JPEG 2000文件的数码相机都是实现了这个算法;
Reed-Solomon纠错用于Linux内核、CD驱动、条形码读取,并且结合卷积从航行团队进行图片传输;
自2000年以来,在工业标准中的SAT(布尔满足性问题)求解器的运行时间每年都在成倍减少。这一发展的一个非常重要的原因是冲突驱动条款学习算法(Conflict Driven Clause Learning)的使用,它结合了Davis Logemann和Loveland的约束编程和人工智能研究技术的原始论文中关于布尔约束传播的算法。具体来说,工业建模中SAT被认为是一个简单的问题(见讨论)。对我来说,这是近代最伟大的成功故事之一,因为它结合了先进的算法、巧妙的设计思路、实验反馈,并以一致的共同努力来解决这个问题。Malik和Zhang的CACM论文是一个很好的阅读材料。许多大学都在教授这个算法,但通常是在逻辑或形式化方法的课程中。
希望对您企业应用开发与企业信息化有帮助。 其它您可能感兴趣的文章:
《匈牙利 Sapientia 大学的 6 种排序算法舞蹈视频》
软件开发的专业化
IT基础架构规划方案一(网络系统规划)
IT基础架构规划方案二(计算机系统与机房规划规划)
IT基础架构规划方案三(IT基础软件和系统规划)
企业应用之性能实时度量系统演变
云计算参考架构几例
智能移动导游解决方案简介
人力资源管理系统的演化
如有想了解更多软件研发 , 系统 IT集成 , 企业信息化 等资讯,请关注我的微信订阅号:
作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
该文章也同时发布在我的独立博客中-Petter Liu Blog。
原文:http://www.cnblogs.com/wintersun/p/4840585.html