在这篇文章中,我将谈论谷歌的比奎里大数据分析服务。
概述
BigQuery是一个无服务器、高度可扩展、经济高效的企业级现代数据仓库产品,位于 Google 云平台上。它允许分析师使用 ANSI SQL 以快速的速度分析 PB 的数据,无需操作开销。
主要特点
特征 | |
---|---|
无服务器 | 无操作模型。谷歌管理幕后的所有资源调配。 |
快速 SQL | 支持具有次秒查询响应时间和高并发性(具有子秒查询响应的 ANSI SQL)。 |
托管存储 | 一旦数据加载到 BigQuery,它由 BigQuery 以有效方式存储和管理。 |
数据加密与安全 | 数据在休息时加密,并集成与云 IAM 的安全性。 |
比奎里 Ml | 使数据科学家和数据分析师能够使用 SQL 语法在 BigQuery 内构建、训练和测试 ML 模型。 |
BigQuery GIS | 通过允许对 BigQuery 内的地理空间数据进行分析和可视化,实现位置智能。 |
灵活的定价模式 | 按需和统一费率定价。有关最新定价模式,请参阅官方文档 |
有关最新完整列表,请参阅官方文件
如何访问 BigQuery?
与 BigQuery 交互的方法有多种:
使用 bq 与 BigQuery 交互
先决条件
此帖子假定以下内容:
1. 我们已经启用了 GCP 项目和 BigQuery API。
2. 谷歌云 SDK ( gcloud
).如果你没有, 然后参考我以前的博客 –开始使用谷歌云 SDKfirst_table |
col1:斯特林,col2:FLOAT,col3:斯特林
检查 BigQuery 表注意:我将检查公共数据集中的表。
bq show bigquery-public-data:covid19_jhu_csse.summary
输出
Table bigquery-public-data:covid19_jhu_csse.summary
Last modified Schema Total Rows Total Bytes Expiration Time Partitioning Clustered Fields Labels
----------------- ----------------------------- ------------ ------------- ------------ ------------------- ------------------ --------------
07 Jun 10:06:41 |- province_state: string 254940 41005062 freebqcovid:
|- country_region: string
|- date: date
|- latitude: float
|- longitude: float
|- location_geom: geography
|- confirmed: integer
|- deaths: integer
|- recovered: integer
|- active: integer
|- fips: string
|- admin2: string
|- combined_key: string
运行查询
bq query --use_legacy_sql=false\
'SELECT
date,
country_region,
SUM(confirmed),
SUM(deaths)
FROM
`bigquery-public-data.covid19_jhu_csse.summary`
GROUP BY
date,
country_region
HAVING date = "2020-05-31"
AND
country_region IN ("India", "US")'
输出
.(0s) 当前状态:完成
+------------+----------------+---------+--------+
| 日期 |country_region | f0_ | f1_ |
+------------+----------------+---------+--------+
|2020-05-31 |我们 |1790172 |104381 |
|2020-05-31 |印度 | 190609 | 5408 |
+------------+----------------+---------+--------+
清理:删除数据集
bq rm -r bq_dataset
希望这个博客帮助你熟悉 BigQuery 。
如果您有反馈或问题, 请通过 twitter 或Twitter LinkedIn与我联系
最初发表于pbhadani.com