在这篇文章中,我将谈论谷歌的比奎里大数据分析服务。

概述

BigQuery是一个无服务器、高度可扩展、经济高效的企业级现代数据仓库产品,位于 Google 云平台上。它允许分析师使用 ANSI SQL 以快速的速度分析 PB 的数据,无需操作开销。

主要特点

特征
无服务器 无操作模型。谷歌管理幕后的所有资源调配。
快速 SQL 支持具有次秒查询响应时间和高并发性(具有子秒查询响应的 ANSI SQL)。
托管存储 一旦数据加载到 BigQuery,它由 BigQuery 以有效方式存储和管理。
数据加密与安全 数据在休息时加密,并集成与云 IAM 的安全性。
比奎里 Ml 使数据科学家和数据分析师能够使用 SQL 语法在 BigQuery 内构建、训练和测试 ML 模型。
BigQuery GIS 通过允许对 BigQuery 内的地理空间数据进行分析和可视化,实现位置智能。
灵活的定价模式 按需和统一费率定价。有关最新定价模式,请参阅官方文档

有关最新完整列表,请参阅官方文件

如何访问 BigQuery?

与 BigQuery 交互的方法有多种:

使用 bq 与 BigQuery 交互

先决条件

此帖子假定以下内容:
1. 我们已经启用了 GCP 项目和 BigQuery API
2. 谷歌云 SDK ( gcloud ).如果你没有, 然后参考我以前的博客 –开始使用谷歌云 SDKfirst_table |
col1:斯特林,col2:FLOAT,col3:斯特林

  • 检查 BigQuery 表注意:我将检查公共数据集中的表。

    bq show bigquery-public-data:covid19_jhu_csse.summary

    输出

    Table bigquery-public-data:covid19_jhu_csse.summary
    
    Last modified              Schema              Total Rows   Total Bytes   Expiration   Time Partitioning   Clustered Fields      Labels
    ----------------- ----------------------------- ------------ ------------- ------------ ------------------- ------------------ --------------
    07 Jun 10:06:41   |- province_state: string     254940       41005062                                                          freebqcovid:
                    |- country_region: string
                    |- date: date
                    |- latitude: float
                    |- longitude: float
                    |- location_geom: geography
                    |- confirmed: integer
                    |- deaths: integer
                    |- recovered: integer
                    |- active: integer
                    |- fips: string
                    |- admin2: string
                    |- combined_key: string
  • 运行查询

    bq query --use_legacy_sql=false\
    'SELECT
    date,
    country_region,
    SUM(confirmed),
    SUM(deaths)
    FROM
    `bigquery-public-data.covid19_jhu_csse.summary`
    GROUP BY
    date,
    country_region
    HAVING date = "2020-05-31"
    AND
    country_region IN ("India", "US")'

    输出

  • .(0s) 当前状态:完成
    +------------+----------------+---------+--------+
    | 日期 |country_region | f0_ | f1_ |
    +------------+----------------+---------+--------+
    |2020-05-31 |我们 |1790172 |104381 |
    |2020-05-31 |印度 | 190609 | 5408 |
    +------------+----------------+---------+--------+

  • 清理:删除数据集

    bq rm -r bq_dataset
  • 希望这个博客帮助你熟悉 BigQuery 。

    如果您有反馈或问题, 请通过 twitter 或Twitter LinkedIn与我联系

    最初发表于pbhadani.com

    Comments are closed.