10. Phd针对背景简历上特长来的, 我是phys的 - logistics regression是discriminative model还是generative model,lz不行,确实不知道这个概念区别,瞎答是discriminative。他看我不懂问我naive bayes(generative)和logistics regression(discriminative)有啥区别联系,我猜MLE和MAP?lz从来没对比过这俩,又把Naive Bayse讲了一遍,然而对Naive Bayse有些生,公式写错了。
11. precision/recall, tf-idf
12. 关于识别fish mail的题目, 我们想做一个email的unsupervised clustering,来识别其中的fish mail,我们应该怎么实现?
follow up:有什么challenge?
follow up:如果识别的过程中,大量发现”the,a, an"这种垃圾信息,怎么处理?
13. 如何处理数据 (missing value, outlier, normalization, standarization, feature selection, feature engineering, duplicates, etc)
14. 你跟deeplearning熟吗(回:不熟)那你讲讲你对ML的什么technique比较熟悉好了,解释给我听。 (我就在白板上从linearregression一路讲解到SVM,应该算是所有ML的基础了)
15. 什么时候要用AUROC? 什么时候用PRROC? 什么时候用Accuracy?
16. 简述一下decisiontree跟randomforest,两个模型有什么样的问题?要怎么避免overfitting?
17. 那简述一下怎么做gradient-boostingdecision tree?
18. 那什么是bootstrapping?
19. 在learning很常用到kernel,那你要怎么判断一个kernel是否valid?
20. 比较一下first-ordermethod跟second-ordermethod
21. 讲一下regularization的意义。(面试官好像是想听noise,因为我一开始说避免overfitting的时候他一脸狐疑。后来想说不会这么OX遇到了一个bayesian吧,就说l1大概就是在做regression的时候加入laplacenoise然后l2就加入guassiannoise,解方程出来的时候就刚刚好会是那样。他看起来就心满意足问我下一题了)
22. 我今天有很多的广告,每个广告都会有些关键词。那我现在有针对每个关键词我所得到的revenue。那问你该怎么predict之后的revenue?(他中间有特别强调这个是个veryhigh-dimensional的问题,不能用太na?ve的方法)
23. 那你认为在做这些learning问题的时候,有什么东西是很重要的吗?(回:我觉得domainknowledge超重要)
24. MLmodel之间的利弊,在哪些情况下哪些model会比较有用,还有在very highdimensional的data是否会有一些预料之外的behavior?比较了GBDT跟Random Forest,然后SVM的kernel表现。最后当然免不了的问了一下对于deeplearning的了解与应用
25. Anomaly Detection
Given a table of system logs with data like Latency, Filebytes, User, Account, Timestamp etc, design an alert system to report anomoly
我讨论了下logistic regression来建模。朋友说是用统计的control chart
26. how to deal with missing data
27. 怎么选择Training set的百分比,选70%好还是80%好?训练的模型在已知数据里表现不错,但新数据进来了表现就不好了,有哪些可能的原因?signifiance level和power有什么关系?
28. 问了一些time series模型的问题,什么情况用AR,什么情况用MA,还有一些general的问题,比如build一个logistic model从头到尾的大致步骤,什么是bias-variance tradeoff;
原文:https://www.cnblogs.com/ffeng0312/p/10057780.html