spark 예제

spark 예제

SparkSQL은 SQL을 통해 또는 Hive 쿼리 언어를 통해 데이터 쿼리를 지원하는 Spark 구성 요소입니다. 이 포트는 맵Reduce 대신 스파크 위에서 실행되는 아파치 하이브 포트로 시작되었으며 이제 스파크 스택과 통합됩니다. 다양한 데이터 원본에 대한 지원을 제공할 뿐만 아니라 매우 강력한 도구를 만드는 코드 변환을 사용하여 SQL 쿼리를 가져올 수 있습니다. 다음은 하이브 호환 쿼리의 예입니다: 스파크 셸 시작. 스파크 디렉토리로 이동하여 터미널에서 ./bin/spark-shell을 실행하여 스파크 쉘이 됩니다. 또한 Spark를 사용하면 80개 이상의 고급 운영자가 있으므로 코드를 더 빠르게 작성할 수 있습니다. 이를 설명하기 위해 빅데이터의 “Hello World!” : 단어 수 예제를 살펴보겠습니다. MapReduce에 대한 Java로 작성하면 약 50 줄의 코드가 있는 반면 스파크 (및 스칼라)에서는 스파크에서 모든 작업이 새 RDD를 만들거나 기존 RDD를 변환하거나 RDD에서 작업을 호출하여 결과를 계산하는 것으로 표현됩니다. Spark는 클러스터 전체에 RDD에 포함된 데이터를 자동으로 배포하고 클러스터에서 수행되는 작업을 병렬화합니다. Spark SQL캐시 테이블은 메모리 내 컬럼 형식입니다.

또한 파일에서 단어 수를 제공하는 Spark 작업의 작업 예제도 보여 주었습니다. Spark 코어는 동일한 애플리케이션에서 원활하게 사용할 수 있는 강력하고 높은 수준의 라이브러리 세트로 보완됩니다. 이러한 라이브러리에는 현재 SparkSQL, 스파크 스트리밍, MLlib(기계 학습용) 및 GraphX가 포함되어 있으며, 각 라이브러리는 이 문서에서 자세히 설명합니다. 추가 스파크 라이브러리 및 확장도 현재 개발 중입니다. 이 추가 기능 Spark 작업을 사용자가 시작할 수 있으며 관리 액세스 없이 스파크 셸을 사용할 수 있는 독립 실행형 배포에 추가 기능입니다. 이 예제에서는 레이블 및 특징 벡터의 데이터 집합을 수행합니다. 로지스틱 회귀 알고리즘을 사용하여 피처 벡터에서 레이블을 예측하는 방법을 배웁니다. 스파크 SQL은 스파크 의 상단에 실행하는 아파치 하이브로 유래 지금은 스파크 스택과 통합된다.

아파치 하이브는 아래에 언급 된 바와 같이 특정 제한이 있었다. 스파크 SQL은 이러한 단점을 극복하고 아파치 하이브를 대체하기 위해 만들어졌습니다. 다음 단계는 아파치 스파크가 클러스터에 액세스하는 방법을 알려주는 원하는 스파크 구성으로 스파크 컨텍스트 개체를 만드는 것입니다. 단어 카운트 예제의 아래 코드 줄은 이 작업을 수행합니다 – 스파크 도메인에서 스파크를 배우고 경력을 쌓고 RDD, 스파크 스트리밍, 스파크SQL, MLlib, GraphX 및 Scala를 사용하여 대규모 데이터 처리를 수행하기 위한 전문 지식을 구축하려는 경우 실제 사용 사례 , 여기에 우리의 대화 형, 라이브 온라인 아파치 스파크 인증 교육을 체크 아웃, 그 와 함께 제공 24*7 학습 기간 동안 당신을 안내하는 지원. 다음으로, 우리는 스파크에이 WordCount 작업을 제출해야 : 이러한 프로세스 세트는 기본 프로그램 (드라이버 프로그램이라고)의 SparkContext 개체에 의해 조정됩니다. SparkContext는 응용 프로그램 간에 리소스를 할당하는 여러 유형의 클러스터 관리자(Spark의 자체 독립 실행형 클러스터 관리자 인 Mesos 또는 YARN)에 연결합니다. 여기서 toSeq는 프로세스데이터 함수의 byKey가 배열 버퍼로 반환되는 맵을 변환합니다.