曾经希望您的数据能够自我分析吗?好吧,我们离那一天又近了一步。 PandasAI 是一个突破性的工具,可以显着简化数据分析。这个 Python 库在 生成式 AI 的帮助下扩展了流行的 Pandas 库的功能,使自动化但复杂的 数据分析 成为现实。

通过应用像OpenAI的GPT-3.5这样的生成模型,PandasAI可以理解和响应类似人类的查询,执行复杂的数据操作,并生成视觉表示。数据分析和人工智能相结合,创造出为企业和研究人员开辟新途径的见解。

本教程将探讨如何使用这个强大的库来完成各种任务。让我们开始吧!

设置熊猫人工智能

要设置 PandasAI,我们需要安装 PandasAI,如下所示:

pip install pandasai

要与OpenAI的模型进行交互,您需要一个API密钥。如果您没有 OpenAI API 密钥,您可以在 OpenAI 平台上注册一个帐户并 在那里生成您的 API 密钥。以下代码有助于使用 OpenAI 初始化 PandasAI 的实例:

import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI

# storing the API Token in Open AI environment
# replace "YOUR_API_KEY" with your generated API key
llm = OpenAI(api_token='YOUR_API_KEY')

#initializing an instance of Pandas AI with openAI environment
pandas_ai = PandasAI(llm, verbose=True, conversational=False)

生成式 AI:简要概述

生成式 AI 是人工智能的一个子集,可创建类似于现有数据集的新数据。与根据给定数据进行分类或预测的判别模型不同,生成模型可以产生新内容

对于数据分析,生成式 AI 可以合成用于训练模型的真实数据集,填充缺失的数据点,甚至协助生成分析报告。它理解和模仿数据模式的能力使其成为一个强大的引擎。

PandasAI 如何使用生成式 AI 进行数据清理

PandasAI使用生成式AI来自动化和增强数据清理过程。您可以使用自然语言提示来指示 AI 清理数据,而不是手动识别和修复错误。 

例如,您可以要求它“删除重复条目”或“填充缺失值”,AI 引擎将生成一个干净的数据集,从而节省您宝贵的时间和精力。

让我们创建一个具有一些缺失值的数据框:

df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", None, "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, None, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [None, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})

现在,我们可以提示使用以下代码获取干净的预处理数据:

response = pandas_ai.run(df, "Preprocess this dataframe for me")
print(response)

输出如下所示。您可以看到数据已被清理

您可以指示 AI 引擎基于现有数据列生成新特征。 

例如,使用以下代码片段,您可以毫不费力地创建新的数据属性,从而显著增强数据分析的范围和质量。

response = pandas_ai.run(df, "Create new features from this data")
print(response)

你可以在下面的输出中看到,AI 创建的新功能是幸福等级。人工智能将两个和两个放在一起,以了解这些国家可以根据幸福指数和人均GDP进行排名!

通过创成式 AI 实现智能数据可视化

PandasAI 通过使用生成式 AI 为您的数据集推荐最合适的可视化表示来改进数据可视化。您无需为使用哪个图表或图形而感到困惑,而是可以获得量身定制的建议,以帮助您充分利用数据。

例如:

response = pandas_ai.run(df, "Which data visualization do you recommend for this data?")
print(response)

您可以在下面的输出中看到,数据已以 AI 引擎认为最好的方式可视化。

You can see in the output below that the data has been visualized in the way the AI engine thinks is best.现实生活中的用例:财务预测中的生成式 AI

让我们看一下PandasAI的真实用例。它可以超越仅仅分析过去的股价数据;它可以根据市场趋势、公司业绩和全球事件模拟未来场景。 

我们可以使用生成模型来创建一系列可能的未来股票价格,考虑波动性和其他市场指标。这种全面、前瞻性的方法使投资者和分析师能够更好地为财务结果做好准备,使生成式人工智能成为财务预测中的宝贵资产。

熊猫与熊猫AI:生成AI边缘

虽然 Pandas 是许多人用于数据操作和分析的知名库,但 PandasAI 通过集成生成 AI 功能更进一步。使用传统的 Pandas,您可以编写代码来过滤、转换和可视化数据,但仅限于现有数据。 

另一方面,PandasAI可以生成新的见解和可视化,甚至可以根据自然语言提示操作数据。生成式 AI 引擎可以提供难以手动编码的分析。想象一下,问你的数据,“下个季度的潜在收入是多少?”并收到生成的报告作为答案——这就是PandasAI的力量。

注意:我们已经介绍了PandasAI接受的各种提示。如果您尝试使用创意提示,只需稍微警告一下,有些提示可能会引发错误。下面是指向用于调试该问题的有用线程的链接: 崩溃“输入数据无效。必须是熊猫或极地数据框“上的”行“问题

结论

熊猫人工智能不仅仅是另一种数据操作工具;由于其生成AI功能,这是数据分析中具有里程碑意义的一步。它超越了传统分析框架的局限性,不仅可以处理您的数据,还可以理解数据以生成新的见解。 

从填补数据集的空白到预测金融市场,可能性是无穷无尽的。随着我们走向数据日益复杂的未来,从中产生有意义的见解的能力变得至关重要。PandasAI提供了对未来的一瞥,一个你想要探索的机会。

其他资源

Comments are closed.