用在数据科学上的 Python:你可能忘记的 8 个概念

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

雷锋网 (公众号:雷锋网) AI 研习社按:本文为雷锋网字幕组编译的技术博客,原标题 Python for Data Science: 8 Concepts You May Have Forgotten,作者为 Conor Dewey。

翻译 | 庞有振、黄中杰       整理 |  孔令双  

用在数据科学上的 Python:你可能忘记的 8 个概念

问题

如果你在编程的时候发现自己一遍又一遍的搜索同一个问题、概念或者语法,那么你并不孤单。

我自己也经常这样。

虽然在 StackOverflow 和其他资源网站搜索很正常,但是它对你的好处比较小,并且会增加你理解这门语言的困难。

我们生活在看起来有无限信息和无穷免费资源的时代,似乎搜索一下就把问题解决了。然而,这可能既是祝福也是诅咒。如果不能有效的管理和整合,过度依赖这些资源会阻挡我们长期进步。

用在数据科学上的 Python:你可能忘记的 8 个概念

来源:xkcd

我发现自己有几次从论坛上复制代码并修改,而不是花时间去学习和巩固我下次可能遇见的知识点。

这个方法比较懒。虽然这个方法可能是短期阻力比较小的一个,但是这最终会伤害你的成长、效率和回想语法的能力。

目标

最近我在 Udemy 通过了一个名为 「数据科学和机器学习中的 Python」 的在线课程。通过这一系列的课程,我整理了一些我在 Python 数据分析中所忽视的语法和概念。 

为了巩固我对这些理念的理解和便于你们在 StackOverFlow 进行搜索,这里我整理出了我在使用 Python,Numpy,Pandas 中的一些知识点。

对于每一个知识点我都给出了简短的描述和例子。另外,我也给出了视频和其他的资料的链接,这些有助于加深这些知识点的理解。

列表推导式 

在写循环的时候,每次定义一堆的列表是相当无聊的。幸运的是,Python 内置了一种名为列表推导式的方法,这种方法仅仅使用一行代码就可以解决这个问题。列表推导式刚开始对你来说可能有些困难,但是你一旦熟悉,你就会经常使用。

用在数据科学上的 Python:你可能忘记的 8 个概念

来源: Trey Hunner

下面的第一个例子是求每一个元素平方的的普通写法,第二个是列表推导式的写法。

x = [1,2,3,4]

out = []

for item in x:

   out.append(item**2)

print(out)[1, 4, 9, 16]

# vs.

x = [1,2,3,4]

out = [item**2 for item in x]

print(out)[1, 4, 9, 16]

Lambda 函数

有些函数只需要用几次就需要定义一个新函数,你是否对此厌烦呢?lambda 函数可以解决这个问题!Lambda 函数在 Python 中通常被用来构建应用次数比较少的的匿名函数。也就是让你构建一个了不带名字的函数。

Lambda 函数的基本语法如下:

lambda arguments: expression

普通函数能做的,Lambda 函数也都能做,只要它们能够写成一行。下面这个简单的例子和视频能够更好的让你理解 Lambda 函数的强大之处。

double = lambda x: x * 2

print(double(5))

10

Map 函数与 Filter 函数

当你掌握了 Lambda 函数,然后将 Lambda 函数和 map,filter 函数一起使用,你会发现威力巨大。 具体的说,map 函数通过对列表中的每一个元素进行操作,将列表转换成一个新的列表。在下面的这个例子中,map 函数将每一个元素乘以 2,变成一个新的元素。注意这里的 list 函数只是简单的将输出结果转化为 list 类型。

# Map

seq = [1, 2, 3, 4, 5]

result = list(map(lambda var: var*2, seq))

print(result)[2, 4, 6, 8, 10]

Filter 函数类似于 map 函数,但是 filter 函数通过比较每一个元素是否为真从原始列表中抽取子集。

# Filter

seq = [1, 2, 3, 4, 5]

result = list(filter(lambda x: x > 2, seq))

print(result)[3, 4, 5]

Python: Lambda, Map, Filter, Reduce Functions :

https://youtu.be/cKlnR-CB3tk

Arange 函数 和 Linspace 函数 

快速创建简单的 NumPy 数组,使用 arange 和 linspace 函数最合适不过了。 它们都有各自特定的功能,但在这里使用(不是使用范围)在于其产生的 NumPy 数组,对于数据科学通常更容易操作。 

Arange 函数,根据 start 和 stop 指定的范围以及 step 设定的步长,生成指定间隔的均匀间隔序列。除了开始值 start 和结束值 stop,还可以根据需要定义步长 step 或数据类型。这里需要注意,结束值是一个「截止」值,所以不会包含在生成的数组中。

# np.arange(start, stop, step)

np.arange(3, 7, 2)

array([3, 5])

Linspace 函数非常相似,但略有不同。它根据 start 和 stop 指定的范围以及 num 设定的个数,生成指定个数的均匀间隔序列。因此,给定一个开始值 start 和结束值 stop,以及个数值 num,linspace 函数将在 NumPy 数组中均分这个范围。这在数据可视化和绘图时轴的声明很有用。

# np.linspace(start, stop, num)

np.linspace(2.0, 3.0, num=5)

array([ 2.0,  2.25,  2.5,  2.75, 3.0])

什么是轴 Axis

使用 Pandas 删除列或对 NumPy 矩阵元素求和时,你可能会遇到这个问题。如果没有,那么之后也一定会遇到。下面给出删除列的示例:

df.drop('Column A', axis=1)

df.drop('Row A', axis=0)

在我真正知道为什么需要声明轴是什么之前,我编写了无数次这行代码。从上面的代码中,你可以推断出,如果对列进行操作需要将 axis 设置为 1,对行操作则将其设置为 0。但这是为什么呢?我喜欢探求原因,或者至少我记得这个:

df.shape

(# of Rows, # of Columns)

查看 Pandas 中 dataframe 的 shape 属性会返回一个元组,其中第一个值表示行数,第二个值表示列数。想想 Python 中的索引方法——行为 0 列为 1,这与我们声明轴的方法非常相似。很有意思,对吧?

How do I use the "axis" parameter in pandas?:

https://youtu.be/PtO3t6ynH-8

Concat 函数、Merge 函数和 Join 函数

如果你熟悉 SQL,那么这些函数方法可能会更容易理解。其实它们本质上都只是以一定方式合并 dataframe 的方法。哪种情况下用哪个最好很难说,所以让我们再回顾一下。

Concat 函数可以在下方或旁边合并一个或多个 dataframe(取决于如何定义轴)。

用在数据科学上的 Python:你可能忘记的 8 个概念

Merge 函数在作为主键的指定公共列上合并多个 dataframe。


用在数据科学上的 Python:你可能忘记的 8 个概念

Join 函数合并两个 dataframe 的方法与 merge 函数类似。但是,它根据索引合并 dataframe,而不是某些指定列。

用在数据科学上的 Python:你可能忘记的 8 个概念

可以通过查看优秀的 Pandas 文档 ,了解特定用法和更具体的示例,以及你可能遇到的一些特殊用法。

Youtube:

https://youtu.be/XMjSGGej9y8

Pandas 的 Apply 函数

你可以把 apply 函数想做地图功能,但它只对 Pandas 的 DataFrame 或者更具体地说是 Series 进行操作。如果你不熟悉 Series,其实它在很多方面都与 NumPy 数组非常相似。

Apply 函数会对你指定的列或行中每个元素作用一个函数。你可以想象到这是多么有用,尤其式当你对整个 DataFrame 列进行归一化和元素值操作,而不必进行循环。

Python Pandas Youtube 教学视频:

https://youtu.be/P_q0tkYqvSk

Pivot Tables 数据透视表

最后但同样重要的是数据透视表。如果你熟悉 Microsoft Excel,那你可能已经在某些方面听说过数据透视表。Pandas 内置的 pivot_table 函数可以将电子表格样式的数据透视表创建为 DataFrame。需要注意的是,数据透视表中的级别存储在创建的 DataFrame 层次索引和列中。

结语

我希望你在使用 Python 进行数据科学操作时,可以通过经常遇到的一些重要但有些棘手的方法、函数和概念对上述方法有效地慢慢记忆。就我个人来说,写出这些并试图用 简单的术语 解释它们也更加加深了我对这些知识的理解。

雷锋网字幕组编译。

原文链接:

https://towardsdatascience.com/python-for-data-science-8-concepts-you-may-have-forgotten-i-did-825966908393

号外号外~

一个专注于

AI技术发展和AI工程师成长的求知求职社区

诞生啦!

欢迎大家访问以下链接或者扫码体验

https://club.leiphone.com/page/home

用在数据科学上的 Python:你可能忘记的 8 个概念

随意打赏

python数据分析数据科学与大数据技术python数据挖掘python数据科学python学习
提交建议
微信扫一扫,分享给好友吧。