Big Data
2022. 4. 3.
Apache Beam 시작하기
출처: https://colab.research.google.com/github/apache/beam/blob/master/examples/notebooks/tour-of-beam/getting-started.ipynb#scrollTo=PoRd7hlnoOu5 Apache Beam Apache Beam은 "병렬 처리"를 위한 라이브러리다. 아래와 같은 특성을 갖는다. 구글이 만들어 공개 Java와 Python 등 다양한 언어를 지원 Flink, Spark, GCP Dataflow 등 여러 병럴 처리 프레임워크 상에서 동작 API 추상화 수준이 올라갔으므로 성능 최적화는 Beam이 알아서 (반대로 말하면 그 이상 최적화는 힘듦) Streaming, Batch를 동일한 코드로 처리 Functional Prog..