曾经希望您的数据能够自我分析吗?好吧,我们离那一天又近了一步。 PandasAI 是一个突破性的工具,可以显着简化数据分析。这个 Python 库在 生成式 AI 的帮助下扩展了流行的 Pandas 库的功能,使自动化但复杂的 数据分析 成为现实。
通过应用像OpenAI的GPT-3.5这样的生成模型,PandasAI可以理解和响应类似人类的查询,执行复杂的数据操作,并生成视觉表示。数据分析和人工智能相结合,创造出为企业和研究人员开辟新途径的见解。
本教程将探讨如何使用这个强大的库来完成各种任务。让我们开始吧!
设置熊猫人工智能
要设置 PandasAI,我们需要安装 PandasAI,如下所示:
pip install pandasai
要与OpenAI的模型进行交互,您需要一个API密钥。如果您没有 OpenAI API 密钥,您可以在 OpenAI 平台上注册一个帐户并 在那里生成您的 API 密钥。以下代码有助于使用 OpenAI 初始化 PandasAI 的实例:
import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI
# storing the API Token in Open AI environment
# replace "YOUR_API_KEY" with your generated API key
llm = OpenAI(api_token='YOUR_API_KEY')
#initializing an instance of Pandas AI with openAI environment
pandas_ai = PandasAI(llm, verbose=True, conversational=False)
生成式 AI:简要概述
生成式 AI 是人工智能的一个子集,可创建类似于现有数据集的新数据。与根据给定数据进行分类或预测的判别模型不同,生成模型可以产生新内容
对于数据分析,生成式 AI 可以合成用于训练模型的真实数据集,填充缺失的数据点,甚至协助生成分析报告。它理解和模仿数据模式的能力使其成为一个强大的引擎。
PandasAI 如何使用生成式 AI 进行数据清理
PandasAI使用生成式AI来自动化和增强数据清理过程。您可以使用自然语言提示来指示 AI 清理数据,而不是手动识别和修复错误。
例如,您可以要求它“删除重复条目”或“填充缺失值”,AI 引擎将生成一个干净的数据集,从而节省您宝贵的时间和精力。
让我们创建一个具有一些缺失值的数据框:
df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", None, "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, None, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [None, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})
现在,我们可以提示使用以下代码获取干净的预处理数据:
response = pandas_ai.run(df, "Preprocess this dataframe for me")
print(response)
输出如下所示。您可以看到数据已被清理
您可以指示 AI 引擎基于现有数据列生成新特征。
例如,使用以下代码片段,您可以毫不费力地创建新的数据属性,从而显著增强数据分析的范围和质量。
response = pandas_ai.run(df, "Create new features from this data")
print(response)
你可以在下面的输出中看到,AI 创建的新功能是幸福等级。人工智能将两个和两个放在一起,以了解这些国家可以根据幸福指数和人均GDP进行排名!
通过创成式 AI 实现智能数据可视化
PandasAI 通过使用生成式 AI 为您的数据集推荐最合适的可视化表示来改进数据可视化。您无需为使用哪个图表或图形而感到困惑,而是可以获得量身定制的建议,以帮助您充分利用数据。
例如:
response = pandas_ai.run(df, "Which data visualization do you recommend for this data?")
print(response)
您可以在下面的输出中看到,数据已以 AI 引擎认为最好的方式可视化。
现实生活中的用例:财务预测中的生成式 AI
让我们看一下PandasAI的真实用例。它可以超越仅仅分析过去的股价数据;它可以根据市场趋势、公司业绩和全球事件模拟未来场景。
我们可以使用生成模型来创建一系列可能的未来股票价格,考虑波动性和其他市场指标。这种全面、前瞻性的方法使投资者和分析师能够更好地为财务结果做好准备,使生成式人工智能成为财务预测中的宝贵资产。
熊猫与熊猫AI:生成AI边缘
虽然 Pandas 是许多人用于数据操作和分析的知名库,但 PandasAI 通过集成生成 AI 功能更进一步。使用传统的 Pandas,您可以编写代码来过滤、转换和可视化数据,但仅限于现有数据。
另一方面,PandasAI可以生成新的见解和可视化,甚至可以根据自然语言提示操作数据。生成式 AI 引擎可以提供难以手动编码的分析。想象一下,问你的数据,“下个季度的潜在收入是多少?”并收到生成的报告作为答案——这就是PandasAI的力量。
注意:我们已经介绍了PandasAI接受的各种提示。如果您尝试使用创意提示,只需稍微警告一下,有些提示可能会引发错误。下面是指向用于调试该问题的有用线程的链接: 崩溃“输入数据无效。必须是熊猫或极地数据框“上的”行“问题。
结论
熊猫人工智能不仅仅是另一种数据操作工具;由于其生成AI功能,这是数据分析中具有里程碑意义的一步。它超越了传统分析框架的局限性,不仅可以处理您的数据,还可以理解数据以生成新的见解。
从填补数据集的空白到预测金融市场,可能性是无穷无尽的。随着我们走向数据日益复杂的未来,从中产生有意义的见解的能力变得至关重要。PandasAI提供了对未来的一瞥,一个你想要探索的机会。
其他资源
- 关于PandasAI的另一个有趣的教程: 来自OpenAI的PandasAI库
- 官方文档: